scrapy_redis 要实现分布式爬虫,需要分析项目中的spiders文件夹中的爬虫文件

#----1 导入分布式爬虫类

from scrapy_redis.spiders import RedisSpider

#----2 继承分布式爬虫类

class BookSpider(RedisSpider):

#----3 注销start_urls，增加了一个redis-key，没有start_urls，因为分布式中，如果每台电脑都请求一次start_url就会重复

redis_key = 'start_url在redis中对应的键'

#----4 多了__init__方法，该方法不是必须的，可以手动指定allow_domains

#----4.1 注销allowed_domains

# # 修改允许的域xxx
	    # allowed_domains = ['xxx.com']
	    # # 修改起始的url
	    # start_urls = ['https://xxx.com']

#----4.2 配置__init__方法

def __init__(self, *args, **kwargs):
        # Dynamically define the allowed domains list.
        domain = kwargs.pop('domain', '')
        self.allowed_domains = list(filter(None, domain.split(',')))
        super(定义的爬虫类名, self).__init__(*args, **kwargs)

#----5 启动方法

#----5.1 在每个节点正确的目录下执行爬虫文件,使该节点的scrapy_redis爬虫程序就位

scrapy crawl 爬虫名

#----5.2 在redis中给redis_key添加起始url，使全部节点真正的开始运行

lpush redis_key 'start_url'

#----0 在settings.p中添加断点续爬的配置，实现真正的分布式爬虫

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True

ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 400,
}
REDIS_URL = "redis://127.0.0.1:6379"

scrapy_redis 实现分布式爬虫scrapy_redis 要实现分布式爬虫,需要分析项目中的spiders文件夹中的爬虫文件

scrapy_redis 要实现分布式爬虫,需要分析项目中的spiders文件夹中的爬虫文件

继续阅读

Scrapy ：全站爬取文学文章

Scrapy Crawl 运行出错 AttributeError: 'xxxSpider' object has no attribute '_rules' 的问题解决

CrawlSpider一键爬取投标网

Python Scrapy 全站爬虫

爬取豆瓣电影TP250（文字信息+保存图片）

Scrapy框架的一些学习心得Scrapy框架的一些学习心得

scrapy MapCompose 一些操作

windows下搭建爬虫框架scrapy

scrapy与requests的理解与爬虫优化想法

【Python】Scrapy爬虫介绍&&requests爬虫移植到Scrapy爬虫ScrapyScrapy爬虫实例编写/re爬虫移植

用scrapy爬取小说网站，并保存到数据库

Scrapy抓取在不同级别Request之间传递参数

scrapy在不同的Request之间传递参数的办法

scrapy常用命令笔记

Ubuntu中安装分布式爬虫具体步骤

【崔庆才教材】《Python3网络爬虫开发实战》3.4爬取猫眼电影排行代码更正（绕过美团验证码）