天天看点

解决scrapy框架下使用Twisted模块将数据异步的添加到mysql中数据重复问题

问题:

在使用Twisted模块将数据异步的添加到mysql中时出现了大量的重复数据,但前提是采集的数据没有重复。

原因:

由于scrapy自己本身就是异步执行的,它的爬取速度远大于其入库的速度。就算我们采用了异步入库但还是没有采集的速度快。

解决办法:

在入库前将item数据deepcopy一下,copy一份出来。这样在pipelines中每次处理的都是独立的一份item,互不冲突。我们只需要在

process_item 方法中加入item = copy.deepcopy(item)即可。

代码如下:

def process_item(self, item, spider):
     # 防止入库速度过慢导致数据重复
     item = copy.deepcopy(item)
           

完毕!

###########################################################

附scrapy异步入库代码一份:

# 导入正确的Twisted版本至少>=18.7以上(否则在python3中导入adbapi会报错)
from twisted.enterprise import adbapi
import pymysql
import pymysql.cursors

class MysqlTwistedPipline(object):
    def __init__(self, dbpool):
        self.dbpool = dbpool

    @classmethod
    def from_settings(cls, settings):
        dbparms = dict(
            host = settings["MYSQL_HOST"],
            db = settings["MYSQL_DBNAME"],
            user = settings["MYSQL_USER"],
            passwd = settings["MYSQL_PASSWORD"],
            charset='utf8',
            cursorclass=pymysql.cursors.DictCursor,
            use_unicode=True,
        )
        dbpool = adbapi.ConnectionPool("pymysql", **dbparms)

        return cls(dbpool)

    def process_item(self, item, spider):
        #使用twisted将mysql插入变成异步执行
        query = self.dbpool.runInteraction(self.do_insert, item)
        query.addErrback(self.handle_error, item, spider) #处理异常

    def handle_error(self, failure, item, spider):
        #处理异步插入的异常
        print (failure)

    def do_insert(self, cursor, item):
        #执行具体的插入
        #根据不同的item 构建不同的sql语句并插入到mysql中
        insert_sql, params = item.get_insert_sql()
        cursor.execute(insert_sql, params)
           

继续阅读