天天看點

scrapy與requests的了解與爬蟲優化想法

requests, scrapy差別,優缺點?

requests:是一個HTTP的架構,可以用來做爬蟲,

scrapy:是一個專業做爬蟲的架構

優點:

requsts:定制靈活,上手十分簡單

scrapy:一般定制靈活,深度定制困難

缺點:

requsts:并發性考慮不足,性能較差

scrapy:并發性好,性能較高

關于爬蟲的優化的想法:

考慮多程序+分布式叢集

如果的單程序,會出現I/O阻塞,多程序可以高效的利用CPU,減少網絡阻塞。

分布式可以提高爬取效率。

采用scrapy-redsi分布式架構,還可以采用scrapy+隊列的分布式架構