文章詳情頁

PHP中使用DOMDocument來處理HTML、XML文檔的示例

瀏覽：62日期：2022-09-07 14:46:39

其實從PHP5開始，PHP就為我們提供了一個強大的解析和生成XML相關操作的類，也就是我們今天要講的 DOMDocument 類。不過我估計大部分人在爬取網頁時還是會喜歡用正則去解析網頁內容，學了今天的這個類下回就可以嘗試下使用這個PHP自帶的方式來進行解析分析了。

解析HTML

// 解析 HTML$baidu = file_get_contents(’https://www.baidu.com’);$doc = new DOMDocument();@$doc->loadHTML($baidu);// 百度輸出框$inputSearch = $doc->getElementById(’kw’);var_dump($inputSearch);// object(DOMElement)#2 // ....echo $inputSearch->getAttribute(’name’), PHP_EOL; // wd// 獲取所有圖片的鏈接$allImageLinks = [];$imgs = $doc->getElementsByTagName(’img’);foreach($imgs as $img){ $allImageLinks[] = $img->getAttribute(’src’);}print_r($allImageLinks);// Array// (// [0] => //www.baidu.com/img/baidu_jgylogo3.gif// [1] => //www.baidu.com/img/bd_logo.png// [2] => http://s1.bdstatic.com/r/www/cache/static/global/img/gs_237f015b.gif// )// 利用 parse_url 分析鏈接foreach($allImageLinks as $link){ print_r(parse_url($link));}// Array// (// [host] => www.baidu.com// [path] => /img/baidu_jgylogo3.gif// )// Array// (// [host] => www.baidu.com// [path] => /img/bd_logo.png// )// Array// (// [scheme] => http// [host] => s1.bdstatic.com// [path] => /r/www/cache/static/global/img/gs_237f015b.gif// )

是不是感覺好清晰，好有面向對象的感覺。就像第一次使用 ORM庫來進行數據庫操作一樣的感覺。我們一段一段來看。

$baidu = file_get_contents(’https://www.baidu.com’);$doc = new DOMDocument();@$doc->loadHTML($baidu);

首先是加載文檔內容，這個比較好理解，直接使用 loadHTML() 方法加載 HTML 內容。它還提供了其它的幾個方法，分別是：load() 從一個文件加載XML；loadXML() 從字符串加載XML；loadHTMLFile() 從文件加載HTML。

// 百度輸出框$inputSearch = $doc->getElementById(’kw’);var_dump($inputSearch);// object(DOMElement)#2 // ....echo $inputSearch->getAttribute(’name’), PHP_EOL; // wd

接下來我們使用和前端 JS 一樣的 DOM 操作API來操作HTML里面的元素。這個例子中就是獲取百度的文本框，直接使用 getElementById() 方法獲得id為指定內容的 DOMElement 對象。然后就可以獲取它的值、屬性之類的內容了。

// 獲取所有圖片的鏈接$allImageLinks = [];$imgs = $doc->getElementsByTagName(’img’);foreach($imgs as $img){ $allImageLinks[] = $img->getAttribute(’src’);}print_r($allImageLinks);// Array// (// [0] => //www.baidu.com/img/baidu_jgylogo3.gif// [1] => //www.baidu.com/img/bd_logo.png// [2] => http://s1.bdstatic.com/r/www/cache/static/global/img/gs_237f015b.gif// )// 利用 parse_url 分析鏈接foreach($allImageLinks as $link){ print_r(parse_url($link));}// Array// (// [host] => www.baidu.com// [path] => /img/baidu_jgylogo3.gif// )// Array// (// [host] => www.baidu.com// [path] => /img/bd_logo.png// )// Array// (// [scheme] => http// [host] => s1.bdstatic.com// [path] => /r/www/cache/static/global/img/gs_237f015b.gif// )

這一段例子則是獲取HTML文檔中所有的圖片鏈接。相比正則來說，是不是方便很多，而且代碼本身就是自解釋的，不用考慮正則的匹配失效的問題。配合另外一個PHP中自帶的 parse_url() 方法也能非常方便地對鏈接進行分析，提取自己想要的內容。

XML的解析和對HTML的解析也是類似的，都使用 DOMDocument 和 DOMElement 提供的這個方法接口就可以很方便的進行解析了。那么我們想要生成一個標準格式的XML呢？當然也非常的簡單，不需要再去拼接字符串了，使用這個類一樣的進行對象化的操作。

生成一個XML

// 生成一個XML文檔$xml = new DOMDocument(’1.0’, ’UTF-8’);$node1 = $xml->createElement(’First’, ’This is First Node.’);$node1->setAttribute(’type’, ’1’);$node2 = $xml->createElement(’Second’);$node2->setAttribute(’type’, ’2’);$node2_child = $xml->createElement(’Second-Child’, ’This is Second Node Child.’);$node2->appendChild($node2_child);$xml->appendChild($node1);$xml->appendChild($node2);print $xml->saveXML();/*<?xml version='1.0' encoding='UTF-8'?><First type='1'>This is First Node.</First><Second type='2'><Second-Child>This is Second Node Child.</Second-Child></Second>*/

其實只要有一點點的前端 JS 的基礎都不難看出這段代碼的含義。使用 createElement() 方法創造 DOMElement 對象，然后就可以為它添加屬性和內容。使用 appendChild() 方法就可以為當前的 DOMElement 或者 DOMDocument 添加下級節點。最后使用 saveXML() 就能夠生成標準的XML格式內容了。

總結

通過上面兩個簡單的小例子，相信大家已經對這個 DOMDocument 操作XML類文件解析的方式非常感興趣了。不過相對于正則解析的方式它們的性能有多大的差異并沒有找到相關的測試，不過一般正常的情況下網站的HMTL文檔都不會太大，畢竟各個網站也會考慮自身的加載速度，如果文檔非常大的話用戶體驗也會很差，所以這套接口用來進行日常爬蟲的分析處理工作基本是沒有任何問題的。

測試代碼： github.com/zhangyue050…

以上就是PHP中使用DOMDocument來處理HTML、XML文檔的示例的詳細內容，更多關于PHP DOMDocument處理HTML、XML的資料請關注好吧啦網其它相關文章！

PHP

上一條：PHP中include和require的使用詳解下一條：PHP緩存系統APCu擴展的使用

相關文章：

1. HTTP協議常用的請求頭和響應頭響應詳解說明（學習）2. Vue如何使用ElementUI對表單元素進行自定義校驗及踩坑3. react實現組件狀態緩存的示例代碼4. React優雅的封裝SvgIcon組件示例5. HTML DOM setInterval和clearInterval方法案例詳解6. HTML5實戰與剖析之觸摸事件(touchstart、touchmove和touchend)7. HTML5 Canvas繪制圖形從入門到精通8. CSS清除浮動方法匯總9. XML入門的常見問題(三)10. 不要在HTML中濫用div

排行榜

					
					PHP擴展之壓縮與歸檔擴展1——Bzip2
QuickTime流媒體和Java
JavaScript函數重載操作實例淺析
Android實現動態改變shape.xml中圖形的顏色
python GUI庫圖形界面開發之PyQt5滑塊條控件QSlider詳細使用方法與實例
Java用BigDecimal解決double類型相減時可能存在的誤差
Java基于注解實現的鎖實例解析
老虎身上的斑紋－－－正確使用JAVA1.5里的Annotation
python使用ctypes庫調用DLL動態鏈接庫
Spring EL表示式的運用@Value說明
ASP.NET MVC實現橫向展示購物車