天天看點

Python 爬蟲從入門到進階之路(十)

之前的文章我們介紹了一下 Python 中正規表達式和 re 子產品來做一個案例,爬取《糗事百科》的糗事并存儲到本地。本章我們來看一下另一種爬取資料的方式 XPath。

我們在前面爬取《糗事百科》的時候處理 HTML 文檔的時候發現會有些累人,還要對正規表達式非常熟悉爬起來才得心應手,那有沒有更為友善的方法呢,答案當然是有的,我們可以先将 HTML檔案 轉換成 XML文檔,然後用 XPath 查找 HTML 節點或元素。

什麼是XML

  • XML 指可擴充标記語言(EXtensible Markup Language)
  • XML 是一種标記語言,很類似 HTML
  • XML 的設計宗旨是傳輸資料,而非顯示資料
  • XML 的标簽需要我們自行定義。
  • XML 被設計為具有自我描述性。
  • XML 是 W3C 的推薦标準

XML 和 HTML 的差別

資料格式 描述 設計目标
XML Extensible Markup Language 

(可擴充标記語言)

被設計為傳輸和存儲資料,其焦點是資料的内容。
HTML HyperText Markup Language 

(超文本标記語言)

顯示資料以及如何更好顯示資料。
HTML DOM Document Object Model for HTML 

(文檔對象模型)

通過 HTML DOM,可以通路所有的 HTML 元素,連同它們所包含的文本和屬性。可以對其中的内容進行修改和删除,同時也可以建立新的元素。
XML文檔示例
1 <?xml version="1.0" encoding="utf-8"?>
2 <bookstore>
3   <book category="cooking">
4     <title lang="en">this is title</title>
5     <content>hello world</>
6   </book>
7 </bookstore>      
HTML DOM 模型示例

HTML DOM 定義了通路和操作 HTML 文檔的标準方法,以樹結構方式表達 HTML 文檔。

Python 爬蟲從入門到進階之路(十)

什麼是XPath?

XPath (XML Path Language) 是一門在 XML 文檔中查找資訊的語言,可用來在 XML 文檔中對元素和屬性進行周遊。

XPath 開發工具

  1. 開源的XPath表達式編輯工具:XMLQuire(XML格式檔案可用)
  2. Chrome插件 XPath Helper
  3. Firefox插件 XPath Checker

選取節點

XPath 使用路徑表達式來選取 XML 文檔中的節點或者節點集。這些路徑表達式和我們在正常的電腦檔案系統中看到的表達式非常相似。

下面列出了最常用的路徑表達式:

表達式 描述
nodename 選取此節點的所有子節點。
/ 從根節點選取。
// 從比對選擇的目前節點選擇文檔中的節點,而不考慮它們的位置。
. 選取目前節點。
.. 選取目前節點的父節點。
@ 選取屬性。

在下面的表格中,我們已列出了一些路徑表達式以及表達式的結果:

路徑表達式 結果
bookstore 選取 bookstore 元素的所有子節點。
/bookstore 選取根元素 bookstore。注釋:假如路徑起始于正斜杠( / ),則此路徑始終代表到某元素的絕對路徑!
bookstore/book 選取屬于 bookstore 的子元素的所有 book 元素。
//book 選取所有 book 子元素,而不管它們在文檔中的位置。
bookstore//book 選擇屬于 bookstore 元素的後代的所有 book 元素,而不管它們位于 bookstore 之下的什麼位置。
//@lang 選取名為 lang 的所有屬性。

謂語(Predicates)

謂語用來查找某個特定的節點或者包含某個指定的值的節點,被嵌在方括号中。

在下面的表格中,我們列出了帶有謂語的一些路徑表達式,以及表達式的結果:

路徑表達式 結果
/bookstore/book[1] 選取屬于 bookstore 子元素的第一個 book 元素。
/bookstore/book[last()] 選取屬于 bookstore 子元素的最後一個 book 元素。
/bookstore/book[last()-1] 選取屬于 bookstore 子元素的倒數第二個 book 元素。
/bookstore/book[position()<3] 選取最前面的兩個屬于 bookstore 元素的子元素的 book 元素。
//title[@lang] 選取所有擁有名為 lang 的屬性的 title 元素。
//title[@lang=’eng’] 選取所有 title 元素,且這些元素擁有值為 eng 的 lang 屬性。
/bookstore/book[price>35.00] 選取 bookstore 元素的所有 book 元素,且其中的 price 元素的值須大于 35.00。
/bookstore/book[price>35.00]/title 選取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值須大于 35.00。

選取未知節點

XPath 通配符可用來選取未知的 XML 元素。

通配符 描述
* 比對任何元素節點。
@* 比對任何屬性節點。
node() 比對任何類型的節點。

在下面的表格中,我們列出了一些路徑表達式,以及這些表達式的結果:

路徑表達式 結果
/bookstore/* 選取 bookstore 元素的所有子元素。
//* 選取文檔中的所有元素。
//title[@*] 選取所有帶有屬性的 title 元素。

選取若幹路徑

通過在路徑表達式中使用“|”運算符,您可以選取若幹個路徑。

在下面的表格中,我們列出了一些路徑表達式,以及這些表達式的結果:

路徑表達式 結果
//book/title | //book/price 選取 book 元素的所有 title 和 price 元素。
//title | //price 選取文檔中的所有 title 和 price 元素。
/bookstore/book/title | //price 選取屬于 bookstore 元素的 book 元素的所有 title 元素,以及文檔中所有的 price 元素。

XPath的運算符

下面列出了可用在 XPath 表達式中的運算符:

Python 爬蟲從入門到進階之路(十)
這些就是XPath的文法内容,在運用到Python抓取時要先轉換為xml。

lxml庫

lxml 是 一個HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 資料。

lxml和正則一樣,也是用 C 實作的,是一款高性能的 Python HTML/XML 解析器,我們可以利用之前學習的XPath文法,來快速的定位特定元素以及節點資訊。

lxml python 官方文檔:http://lxml.de/index.html

需要安裝C語言庫,可使用 pip 安裝:

pip install lxml

 (或通過wheel方式安裝)

 我們利用它來解析 HTML 代碼,簡單示例:

1 from lxml import etree
 2 
 3 text = '''
 4 <div>
 5     <ul>
 6          <li class="item-0"><a href="link1.html">first item</a></li>
 7          <li class="item-1"><a href="link2.html">second item</a></li>
 8          <li class="item-inactive"><a href="link3.html">third item</a></li>
 9          <li class="item-1"><a href="link4.html">fourth item</a></li>
10          <li class="item-0"><a href="link5.html">fifth item</a> # 注意,此處缺少一個 li 閉合标簽
11      </ul>
12  </div>
13 '''
14 
15 # 利用etree.HTML,将字元串解析為HTML文檔
16 html = etree.HTML(text)
17 
18 # 按字元串序列化HTML文檔
19 # html = etree.tostring(html).decode("utf8")  # 不能正常顯示中文
20 html = etree.tostring(html, encoding="utf-8", pretty_print=True, method="html").decode("utf-8")  # 可以正常顯示中文
21 
22 print(html)      

運作結果如下:

1 <html><body>
 2 <div>
 3     <ul>
 4          <li class="item-0"><a href="link1.html">first item</a></li>
 5          <li class="item-1"><a href="link2.html">second item</a></li>
 6          <li class="item-inactive"><a href="link3.html">third item</a></li>
 7          <li class="item-1"><a href="link4.html">fourth item</a></li>
 8          <li class="item-0">
 9 <a href="link5.html">fifth item</a> # 注意,此處缺少一個 li 閉合标簽
10      </li>
11 </ul>
12  </div>
13 </body></html>      

lxml 可以自動修正 html 代碼,例子裡不僅補全了 li 标簽,還添加了 body,html 标簽。

檔案讀取:

除了直接讀取字元串,lxml還支援從檔案裡讀取内容。我們建立一個 index.html 檔案:

1 <div>
2     <ul>
3          <li class="item-0"><a href="link1.html">first item</a></li>
4          <li class="item-1"><a href="link2.html">second item</a></li>
5          <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>
6          <li class="item-1"><a href="link4.html">fourth item</a></li>
7          <li class="item-0"><a href="link5.html">fifth item</a></li>
8      </ul>
9  </div>      

再利用 etree.parse() 方法來讀取檔案。

1 from lxml import etree
2 
3 # 讀取外部檔案 hello.html
4 html = etree.parse('./index.html', etree.HTMLParser())  # 指定解析器HTMLParser會根據檔案修複HTML檔案中缺失的如聲明資訊
5 html = etree.tostring(html, encoding="utf-8", pretty_print=True, method="html").decode("utf-8")
6 
7 print(html)      

運作結果:

1 <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
 2 <html><body><div>
 3     <ul>
 4          <li class="item-0"><a href="link1.html">first item</a></li>
 5          <li class="item-1"><a href="link2.html">second item</a></li>
 6          <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>
 7          <li class="item-1"><a href="link4.html">fourth item</a></li>
 8          <li class="item-0"><a href="link5.html">fifth item</a></li>
 9      </ul>
10  </div></body></html>      

接下來我們看一下 XPath 的實力測試。

1. 擷取所有的 

<li>

 标簽

1 from lxml import etree
 2 
 3 html = etree.parse('./index.html', etree.HTMLParser())
 4 print(type(html))  # <class 'lxml.etree._ElementTree'>
 5 
 6 result = html.xpath('//li')
 7 
 8 print(result)  # [<Element li at 0x109c66248>, <Element li at 0x109c66348>, <Element li at 0x109c66388>, <Element li at 0x109c663c8>, <Element li at 0x109c66408>]
 9 print(len(result))  # 5
10 print(type(result))  # <class 'list'>
11 print(type(result[0]))  # <class 'lxml.etree._Element'>      

2. 繼續擷取

<li>

 标簽的所有 

class

屬性

1 from lxml import etree
2 
3 html = etree.parse('./index.html', etree.HTMLParser())
4 result = html.xpath('//li/@class')
5 
6 print(result)  # ['item-0', 'item-1', 'item-inactive', 'item-1', 'item-0']      

3. 繼續擷取

<li>

标簽下

hre

 為 

link1.html

 的 

<a>

 标簽

1 from lxml import etree
2 
3 html = etree.parse('./index.html', etree.HTMLParser())
4 result = html.xpath('//li/a[@href="link1.html"]')
5 
6 print(result)  # [<Element a at 0x10b324288>]      

4. 擷取

<li>

 标簽下的所有 

<span>

 标簽

1 from lxml import etree
2 
3 html = etree.parse('./index.html', etree.HTMLParser())
4 # result = html.xpath('//li/span')
5 # 注意這麼寫是不對的:因為 / 是用來擷取子元素的,而 <span> 并不是 <li> 的子元素,是以,要用雙斜杠
6 
7 result = html.xpath('//li//span')
8 
9 print(result)  # [<Element span at 0x10a59b308>]      

5. 擷取 

<li>

 标簽下的

<a>

标簽裡的所有 class

1 from lxml import etree
2 
3 html = etree.parse('./index.html', etree.HTMLParser())
4 result = html.xpath('//li/a//@class')
5 
6 print(result)  # ['bold']      

6. 擷取最後一個 

<li>

 的 

<a>

 的 href

1 from lxml import etree
2 
3 html = etree.parse('./index.html', etree.HTMLParser())
4 result = html.xpath('//li[last()]/a/@href')
5 # 謂語 [last()] 可以找到最後一個元素
6 
7 print(result)  # ['link5.html']      

7. 擷取倒數第二個元素的内容

1 from lxml import etree
2 
3 html = etree.parse('./index.html', etree.HTMLParser())
4 result = html.xpath('//li[last()-1]/a')
5 
6 # text 方法可以擷取元素内容
7 print(result[0].text)  # fourth item      

8. 擷取 

class

 值為 

bold

 的标簽名

1 from lxml import etree
2 
3 html = etree.parse('./index.html', etree.HTMLParser())
4 result = html.xpath('//*[@class="bold"]')
5 
6 # tag方法可以擷取标簽名
7 print(result[0].tag)  # span      

XPath的更多用法參考:http://www.w3school.com.cn/xpath/index.asp

python lxml庫的更多用法參考:http://lxml.de/