Python 爬蟲從入門到進階之路（十八）

在之前的文章我們通過 scrapy 架構及 scrapy.Spider 類做了一個《糗事百科》的糗百爬蟲，本章我們再來看一下相較于 scrapy.Spider 類更為強大的 CrawlSpider 類。

CrawlSpider 是Spider的派生類，Spider 類的設計原則是隻爬取start_url清單中的網頁，而 CrawlSpider 類定義了一些規則 (rule) 來提供跟進link的友善的機制，從爬取的網頁中擷取link并繼續爬取的工作更适合。

源碼參考

1 class CrawlSpider(Spider):
 2     rules = ()
 3     def __init__(self, *a, **kw):
 4         super(CrawlSpider, self).__init__(*a, **kw)
 5         self._compile_rules()
 6 
 7     #首先調用parse()來處理start_urls中傳回的response對象
 8     #parse()則将這些response對象傳遞給了_parse_response()函數處理，并設定回調函數為parse_start_url()
 9     #設定了跟進标志位True
10     #parse将傳回item和跟進了的Request對象    
11     def parse(self, response):
12         return self._parse_response(response, self.parse_start_url, cb_kwargs={}, follow=True)
13 
14     #處理start_url中傳回的response，需要重寫
15     def parse_start_url(self, response):
16         return []
17 
18     def process_results(self, response, results):
19         return results
20 
21     #從response中抽取符合任一使用者定義'規則'的連結，并構造成Resquest對象傳回
22     def _requests_to_follow(self, response):
23         if not isinstance(response, HtmlResponse):
24             return
25         seen = set()
26         #抽取之内的所有連結，隻要通過任意一個'規則'，即表示合法
27         for n, rule in enumerate(self._rules):
28             links = [l for l in rule.link_extractor.extract_links(response) if l not in seen]
29             #使用使用者指定的process_links處理每個連接配接
30             if links and rule.process_links:
31                 links = rule.process_links(links)
32             #将連結加入seen集合，為每個連結生成Request對象，并設定回調函數為_repsonse_downloaded()
33             for link in links:
34                 seen.add(link)
35                 #構造Request對象，并将Rule規則中定義的回調函數作為這個Request對象的回調函數
36                 r = Request(url=link.url, callback=self._response_downloaded)
37                 r.meta.update(rule=n, link_text=link.text)
38                 #對每個Request調用process_request()函數。該函數預設為indentify，即不做任何處理，直接傳回該Request.
39                 yield rule.process_request(r)
40 
41     #處理通過rule提取出的連接配接，并傳回item以及request
42     def _response_downloaded(self, response):
43         rule = self._rules[response.meta['rule']]
44         return self._parse_response(response, rule.callback, rule.cb_kwargs, rule.follow)
45 
46     #解析response對象，會用callback解析處理他，并傳回request或Item對象
47     def _parse_response(self, response, callback, cb_kwargs, follow=True):
48         #首先判斷是否設定了回調函數。（該回調函數可能是rule中的解析函數，也可能是 parse_start_url函數）
49         #如果設定了回調函數（parse_start_url()），那麼首先用parse_start_url()處理response對象，
50         #然後再交給process_results處理。傳回cb_res的一個清單
51         if callback:
52             #如果是parse調用的，則會解析成Request對象
53             #如果是rule callback，則會解析成Item
54             cb_res = callback(response, **cb_kwargs) or ()
55             cb_res = self.process_results(response, cb_res)
56             for requests_or_item in iterate_spider_output(cb_res):
57                 yield requests_or_item
58 
59         #如果需要跟進，那麼使用定義的Rule規則提取并傳回這些Request對象
60         if follow and self._follow_links:
61             #傳回每個Request對象
62             for request_or_item in self._requests_to_follow(response):
63                 yield request_or_item
64 
65     def _compile_rules(self):
66         def get_method(method):
67             if callable(method):
68                 return method
69             elif isinstance(method, basestring):
70                 return getattr(self, method, None)
71 
72         self._rules = [copy.copy(r) for r in self.rules]
73         for rule in self._rules:
74             rule.callback = get_method(rule.callback)
75             rule.process_links = get_method(rule.process_links)
76             rule.process_request = get_method(rule.process_request)
77 
78     def set_crawler(self, crawler):
79         super(CrawlSpider, self).set_crawler(crawler)
80         self._follow_links = crawler.settings.getbool('CRAWLSPIDER_FOLLOW_LINKS', True)

CrawlSpider繼承于Spider類，除了繼承過來的屬性外（name、allow_domains），還提供了新的屬性和方法:

LinkExtractors

from scrapy.linkextractors import LinkExtractor

Link Extractors 的目的很簡單: 提取連結｡

每個LinkExtractor有唯一的公共方法是 extract_links()，它接收一個 Response 對象，并傳回一個 scrapy.link.Link 對象。

Link Extractors要執行個體化一次，并且 extract_links 方法會根據不同的 response 調用多次提取連結｡

1 class scrapy.linkextractors.LinkExtractor(
 2     allow = (),
 3     deny = (),
 4     allow_domains = (),
 5     deny_domains = (),
 6     deny_extensions = None,
 7     restrict_xpaths = (),
 8     tags = ('a','area'),
 9     attrs = ('href'),
10     canonicalize = True,
11     unique = True,
12     process_value = None
13 )

主要參數：

allow ：滿足括号中“正規表達式”的值會被提取，如果為空，則全部比對。
deny ：與這個正規表達式(或正規表達式清單)不比對的URL一定不提取。
allow_domains ：會被提取的連結的domains。
deny_domains ：一定不會被提取連結的domains。
restrict_xpaths ：使用xpath表達式，和allow共同作用過濾連結。

rules

在rules中包含一個或多個Rule對象，每個Rule對爬取網站的動作定義了特定操作。如果多個rule比對了相同的連結，則根據規則在本集合中被定義的順序，第一個會被使用。

1 class scrapy.spiders.Rule(
2         link_extractor, 
3         callback = None, 
4         cb_kwargs = None, 
5         follow = None, 
6         process_links = None, 
7         process_request = None
8 )

link_extractor ：是一個Link Extractor對象，用于定義需要提取的連結。
callback ：從link_extractor中每擷取到連結時，參數所指定的值作為回調函數，該回調函數接受一個response作為其第一個參數。
注意：當編寫爬蟲規則時，避免使用parse作為回調函數。由于CrawlSpider使用parse方法來實作其邏輯，如果覆寫了 parse方法，crawl spider将會運作失敗。
follow ：是一個布爾(boolean)值，指定了根據該規則從response提取的連結是否需要跟進。如果callback為None，follow 預設設定為True ，否則預設為False。
process_links ：指定該spider中哪個的函數将會被調用，從link_extractor中擷取到連結清單時将會調用該函數。該方法主要用來過濾。
process_request ：指定該spider中哪個的函數将會被調用，該規則提取到每個request時都會調用該函數。 (用來過濾request)

接下來我們就按上面所說的内容将之前的糗百爬蟲做一下修改，我們将 qiubaiSpider.py 的代碼改為如下：

1 import scrapy
 2 # 導入CrawlSpider類和Rule
 3 from scrapy.spiders import CrawlSpider, Rule
 4 # 導傳入連結接規則比對類，用來提取符合規則的連接配接
 5 from scrapy.linkextractors import LinkExtractor
 6 from ..items import QiushiItem
 7 
 8 
 9 class QiushiSpider(CrawlSpider):
10     # 爬蟲名
11     name = "qiubai"
12     # 允許爬蟲作用的範圍，不能越界
13     allowd_domains = ["https://www.qiushibaike.com/"]
14     # 爬蟲起始url
15     start_urls = ["https://www.qiushibaike.com/text/page/1/"]
16     # Response 裡連結的提取規則，傳回的符合比對規則的連結比對對象的清單
17     pageLink = LinkExtractor(allow=("/page/\d+"))
18     # 擷取這個清單裡的連結，依次發送請求，并且繼續跟進，調用指定回調函數處理
19     rules = [
20         Rule(pageLink, callback="parseContent", follow=True)
21     ]
22 
23     # 指定的回調函數
24     def parseContent(self, response):
25         # 通過 scrayy 自帶的 xpath 比對想要的資訊
26         qiushi_list = response.xpath('//div[contains(@id,"qiushi_tag")]')
27         for site in qiushi_list:
28             # 執行個體化從 items.py 導入的 QiushiItem 類
29             item = QiushiItem()
30             # 根據查詢發現匿名使用者和非匿名使用者的标簽不一樣
31             try:
32                 # 非匿名使用者
33                 username = site.xpath('./div/a/img/@alt')[0].extract()  # 作者
34                 imgUrl = site.xpath('./div/a/img/@src')[0].extract()  # 頭像
35             except Exception:
36                 # 匿名使用者
37                 username = site.xpath('./div/span/img/@alt')[0].extract()  # 作者
38                 imgUrl = site.xpath('./div/span/img/@src')[0].extract()  # 頭像
39             content = site.xpath('.//div[@class="content"]/span[1]/text()').extract()
40             item['username'] = username
41             item['imgUrl'] = "https:" + imgUrl
42             item['content'] = content
43 
44             # 将擷取的資料交給 pipeline 管道檔案
45             yield item

在控制台或終端輸入 scrapy crawl qiubai 即可運作程式并擷取糗百資料。

需要注意的是在 rule 規則中的 callback 千萬不能寫 parse，因為 CrawlSpider 使用 parse 方法來實作其邏輯，如果覆寫了 parse方法，crawl spider将會運作失敗。

Python 爬蟲從入門到進階之路（十八）

源碼參考

LinkExtractors

rules

繼續閱讀

Python 爬蟲從入門到進階之路（六）

Python 爬蟲從入門到進階之路（七）

Python 爬蟲從入門到進階之路（八）

Python 爬蟲從入門到進階之路（九）

Python 爬蟲從入門到進階之路（十）

Python 爬蟲從入門到進階之路（十一）

Python 爬蟲從入門到進階之路（十二）

Python 3網絡爬蟲開發實戰》中文PDF+源代碼+書籍軟體包

Python 3網絡爬蟲開發實戰中文書籍軟體包(原創)

Python 爬蟲從入門到進階之路（十三）

Python 爬蟲從入門到進階之路（十四）

Python 爬蟲從入門到進階之路（十五）

Python 爬蟲從入門到進階之路（十六）

Python 爬蟲從入門到進階之路（十七）

《Python 3網絡爬蟲開發實戰中文》超清PDF+源代碼+書籍軟體包