requests, scrapy差別,優缺點?
requests:是一個HTTP的架構,可以用來做爬蟲,
scrapy:是一個專業做爬蟲的架構
優點:
requsts:定制靈活,上手十分簡單
scrapy:一般定制靈活,深度定制困難
缺點:
requsts:并發性考慮不足,性能較差
scrapy:并發性好,性能較高
關于爬蟲的優化的想法:
考慮多程序+分布式叢集
如果的單程序,會出現I/O阻塞,多程序可以高效的利用CPU,減少網絡阻塞。
分布式可以提高爬取效率。
采用scrapy-redsi分布式架構,還可以采用scrapy+隊列的分布式架構