解决scrapy框架下使用Twisted模块将数据异步的添加到mysql中数据重复问题

2023-05-15 14:20:36

问题：

在使用Twisted模块将数据异步的添加到mysql中时出现了大量的重复数据，但前提是采集的数据没有重复。

原因：

由于scrapy自己本身就是异步执行的，它的爬取速度远大于其入库的速度。就算我们采用了异步入库但还是没有采集的速度快。

解决办法：

在入库前将item数据deepcopy一下，copy一份出来。这样在pipelines中每次处理的都是独立的一份item，互不冲突。我们只需要在

process_item 方法中加入item = copy.deepcopy(item)即可。

代码如下：

def process_item(self, item, spider):
     # 防止入库速度过慢导致数据重复
     item = copy.deepcopy(item)

完毕！

###########################################################

附scrapy异步入库代码一份：

# 导入正确的Twisted版本至少>=18.7以上(否则在python3中导入adbapi会报错)
from twisted.enterprise import adbapi
import pymysql
import pymysql.cursors

class MysqlTwistedPipline(object):
    def __init__(self, dbpool):
        self.dbpool = dbpool

    @classmethod
    def from_settings(cls, settings):
        dbparms = dict(
            host = settings["MYSQL_HOST"],
            db = settings["MYSQL_DBNAME"],
            user = settings["MYSQL_USER"],
            passwd = settings["MYSQL_PASSWORD"],
            charset='utf8',
            cursorclass=pymysql.cursors.DictCursor,
            use_unicode=True,
        )
        dbpool = adbapi.ConnectionPool("pymysql", **dbparms)

        return cls(dbpool)

    def process_item(self, item, spider):
        #使用twisted将mysql插入变成异步执行
        query = self.dbpool.runInteraction(self.do_insert, item)
        query.addErrback(self.handle_error, item, spider) #处理异常

    def handle_error(self, failure, item, spider):
        #处理异步插入的异常
        print (failure)

    def do_insert(self, cursor, item):
        #执行具体的插入
        #根据不同的item 构建不同的sql语句并插入到mysql中
        insert_sql, params = item.get_insert_sql()
        cursor.execute(insert_sql, params)

解决scrapy框架下使用Twisted模块将数据异步的添加到mysql中数据重复问题

问题：

原因：

解决办法：

###########################################################

附scrapy异步入库代码一份：

继续阅读

基金恒市值定投源码

#为什么台风“卡努”的预报路径成迷#关于台风预报路径“卡努”成迷小编分析可能有以下几个原因：1.台风路径难以准确预测：台

python爬虫第1章 urllib库（一） urllib库概述python爬虫第1章 urllib库（一） urllib库概述

【DrissionPage】DrissionPage是一个基于python的网页自动化工具。它既能控制浏览器，也能收发数

第二章 K8s ingress控制器

华汇项目后评价系统助力政企项目“后评价”时代

【示波器】基于FPGA的数字示波器设计实现

电池巡检单元通用型4节电池电压和温度监测:☞4节电池的电压监测、4路电池的温度监测、1路继电器输出、CAN-BUS级联通

利用PLC-Recorder的录波和虚拟变量功能，实现PLC采集数据的后处理或复杂计算1、用Ana打开待分析的数据文件，获得原始的数据和曲线2、添加虚拟变量3、退出配置窗口即可得到总流量曲线4、小结

数据的采集

自动快捷使用数据采集器采集某网站数据---后裔采集器

专业PLC数据采集软件PLC-Recorder通过ADS通讯进行倍福TwinCAT2和TwubCAT3数据采集的介绍一、通道配置二、变量配置三、通过左侧的按钮进行启停控制四、调用离线分析软件，进行后续数据分析五、小结

数据采集过程介绍简介数据的总体采集过程如下：

工厂流水线数据采集方案工厂流水线数据采集方案2、数据采集层

2020年9月，星闪联盟正式成立。从正式启动标准化工作到首次商用仅用了两年多的时间，成为史上发展最快的近距离无线技术。华

flume实时写数据到HA模式下的hdfs