天天看點

scrapy follow 筆記

1. CrawlSpider

rule 爬取規則

follws = True 是指爬取了一個URL之後,得到了response, 對response使用rules例表中的rule中定義的link_extractor對這個response提取新的url, 新的符合該rule的url(即新的links), 然後follow=True, 則, 對在該response中發現的新links, 發起request請求.

CrawlSpider 抓取start_urls

1. 假設start_urls = ["http://www.baidu.com"]

rules [A , B, C ]

2. 則 啟動spider之後,得到response(僅一個)

分别用A(resp)-->links

B(resp)-->links

C(resp)-->links

對這些links都發起請求

3. 如果rule裡有callback, 這一般應設定follows =False, 或者不設定, 這樣就不會對該response發起規則裡的link 請求了.