天天看点

scrapy与requests的理解与爬虫优化想法

requests, scrapy区别,优缺点?

requests:是一个HTTP的框架,可以用来做爬虫,

scrapy:是一个专业做爬虫的框架

优点:

requsts:定制灵活,上手十分简单

scrapy:一般定制灵活,深度定制困难

缺点:

requsts:并发性考虑不足,性能较差

scrapy:并发性好,性能较高

关于爬虫的优化的想法:

考虑多进程+分布式集群

如果的单进程,会出现I/O阻塞,多进程可以高效的利用CPU,减少网络阻塞。

分布式可以提高爬取效率。

采用scrapy-redsi分布式框架,还可以采用scrapy+队列的分布式框架