天天看点

scrapy follow 笔记

1. CrawlSpider

rule 爬取规则

follws = True 是指爬取了一个URL之后,得到了response, 对response使用rules例表中的rule中定义的link_extractor对这个response提取新的url, 新的符合该rule的url(即新的links), 然后follow=True, 则, 对在该response中发现的新links, 发起request请求.

CrawlSpider 抓取start_urls

1. 假设start_urls = ["http://www.baidu.com"]

rules [A , B, C ]

2. 则 启动spider之后,得到response(仅一个)

分别用A(resp)-->links

B(resp)-->links

C(resp)-->links

对这些links都发起请求

3. 如果rule里有callback, 这一般应设置follows =False, 或者不设置, 这样就不会对该response发起规则里的link 请求了.