scrapy-redis 更改队列和分布式爬虫

为初学者方便对分布式爬虫的学习，总结了一下自己的理解和网上的知识点

初学者的几个疑问点：

1.什么是分布式爬虫？

请参考：https://blog.csdn.net/zhusongziye/article/details/80457487

2.分布式爬虫需要掌握哪些技能？

scrapy-redis原理

3.scrapy-redis是干吗用的？

记分布式爬虫关键点：

（1）scrapy : 实现爬虫的主体。scrapy是目前非常热门的一种爬虫框架，它把整个爬虫过程分为了多个独立的模块，并提供了多个基类可以供我们去自由扩展，让爬虫编写变得简单而有逻辑性。并且scrapy自带的多线程、异常处理、以及强大的自定义Settings也让整个数据抓取过程变得高效而稳定。

（2）scrapy-redis：一个三方的基于redis的分布式爬虫框架，配合scrapy使用，让爬虫具有了分布式爬取的功能。github地址： https://github.com/darkrho/scrapy-redis

（3）mongodb 、mysql 或其他数据库：针对不同类型数据可以根据具体需求来选择不同的数据库存储。结构化数据可以使用mysql节省空间，非结构化、文本等数据可以采用mongodb等非关系型数据提高访问速度。具体选择可以自行百度谷歌，有很多关于sql和nosql的对比文章。

分布式原理：

scrapy-redis实现分布式，其实从原理上来说很简单，这里为描述方便，我们把自己的核心服务器称为master，而把用于跑爬虫程序的机器称为slave。

我们知道，采用scrapy框架抓取网页，我们需要首先给定它一些start_urls，爬虫首先访问start_urls里面的url，再根据我们的具体逻辑，对里面的元素、或者是其他的二级、三级页面进行抓取。而要实现分布式，我们只需要在这个starts_urls里面做文章就行了。

我们在master上搭建一个redis数据库（注意这个数据库只用作url的存储，不关心爬取的具体数据，不要和后面的mongodb或者mysql混淆），并对每一个需要爬取的网站类型，都开辟一个单独的列表字段。通过设置slave上scrapy-redis获取url的地址为master地址。这样的结果就是，尽管有多个slave，然而大家获取url的地方只有一个，那就是服务器master上的redis数据库。

并且，由于scrapy-redis自身的队列机制，slave获取的链接不会相互冲突。这样各个slave在完成抓取任务之后，再把获取的结果汇总到服务器上（这时的数据存储不再在是redis，而是mongodb或者 mysql等存放具体内容的数据库了）

这种方法的还有好处就是程序移植性强，只要处理好路径问题，把slave上的程序移植到另一台机器上运行，基本上就是复制粘贴的事情。

Scrapy-redis工作原理：

scrapy-redis的工作原理，就是把原来scrapy自带的queue队列用redis数据库替换，队列都在redis数据库里面了，每次存，取，删，去重，都在redis数据库里进行，那我们如何使用分布式呢，假设机器A有redis数据库，我们在A上把url push到redis里面，然后在机器B上启动scrapy-redis爬虫，在机器B上connect到A，有远程端口可以登入，在爬虫程序里，保存的时候注意启用追加模式，而不是每次保存都删除以前的东西，这样的话，我们可以在B上面多次运行同一个程序。

如图所示，其实连copy都不要，直接另开一个终端，接着运行同样的程序即可。

当然我们也可以在机器C上同样这样运行，所以这就是分布式爬虫。

scrapy-redis 更改队列和分布式爬虫

总结：

要实现分布式爬虫，首先引入scrapy-redis，配置settings，连接到redis数据库，具体配置方式查看详情。配置完成以后，在主机B上进行同样的配置，连接到同一个redis数据库就行，并且启用追加模式，共享队列的具体配置：

修改该settings中的配置信息：

替换scrapy调度器

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

添加去重的class

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

添加pipeline

如果添加这行配置，每次爬取的数据也都会入到redis数据库中，所以一般这里不做这个配置

ITEM_PIPELINES = {

'scrapy_redis.pipelines.RedisPipeline': 300

}

共享的爬取队列，这里用需要redis的连接信息

这里的user:pass表示用户名和密码，如果没有则为空就可以

REDIS_URL = 'redis://user:[email protected]:9001'

设置为为True则不会清空redis里的dupefilter和requests队列

这样设置后指纹和请求队列则会一直保存在redis数据库中，默认为False，一般不进行设置

SCHEDULER_PERSIST = True

设置重启爬虫时是否清空爬取队列

这样每次重启爬虫都会清空指纹和请求队列,一般设置为False

SCHEDULER_FLUSH_ON_START=True

分布式

将上述更改后的代码拷贝的各个服务器，当然关于数据库这里可以在每个服务器上都安装数据，也可以共用一个数据，我这里方面是连接的同一个MySQL数据库，当然各个服务器上也不能忘记：所有的服务器都要安装scrapy,scrapy_redis,pymysql

这样运行各个爬虫程序启动后，在redis数据库就可以看到如下内容，dupefilter是指纹队列，requests是请求队列

scrapy-redis 更改队列和分布式爬虫

scrapy-redis 更改队列和分布式爬虫

为初学者方便对分布式爬虫的学习，总结了一下自己的理解和网上的知识点

记分布式爬虫关键点：

分布式原理：

Scrapy-redis工作原理：

总结：

修改该settings中的配置信息：

分布式

继续阅读

TestLink导出用例转换工具(XML2Excel)

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

sort()函数到底是怎样进行数字排序的

判断浏览器类型与版本以及ios安卓判别

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入