【Python爬蟲】輕松幾步将 scrapy 架構擷取得到的資料存儲到 MySQL 資料庫中

2023-04-04 01:09:15

以下操作是在一個完整的 scrapy 項目中添加代碼:

中間件和 spiders 中的代碼都不需要修改隻需要做下面兩件事就可以将資料儲存到資料庫了，不過在寫代碼之前我們要先：

在終端執行指令：net start mysql57 開啟 mysql 伺服器
建立資料庫，在資料庫中建立與要儲存相關的資料的表（名稱要與架構中的名稱一樣, 表中建立的字段名稱也要跟架構中需要儲存字段名一緻）（利用圖形化界面工具建立起來友善些：Navicat Premium）
建立好資料庫和表之後先測試一下資料庫能否連接配接成功

'''
測試資料庫是否連接配接成功
'''
import pymysql

conn=pymysql.connect(host='127.0.0.1',port=3306,user='資料庫名稱',password='資料庫密碼',db='表名',charset='utf8')
print(conn)

輸出結果為：<pymysql.connections.Connection object at 0x000000000220D7B8>
則表示資料庫連接配接成功  如果報錯則失敗

當資料庫連接配接成功了之後, 接下來我們就開始在scrappy架構中進 "裝修" :

1：配置環境在setting檔案中加入： sql資料庫參數和 pipelines管道配置：

# 設定管道中類的優先級  
ITEM_PIPELINES = {
'movie.pipelines.MoviePipeline': 300, # 管道中自帶的類，優先級預設第一
'movie.pipelines.MovieMysqlPipeline': 200, # 管道中 建立的類 用來儲存資料到資料庫
}

# 連接配接資料庫
# 填的 是所儲存資料庫的資訊
DB_HOST = '127.0.0.1'
DB_PORT = 3306
DB_USER = '使用者名'
DB_PASSWORD = '密碼'
# 資料庫名稱
DB_DB = 'movies'  
DB_CHARSET = 'utf8'

2 ：管道中建立一個類用來儲存資料到資料庫：

(下面代碼中關于資料庫的一下東西是部落客自己 , 請自行修改 )

import pymysql
from scrapy.utils.project import get_project_settings

# 儲存資料到mysql資料庫(資料去重)
class WeimobMysqlPipeline(object):

    def __init__(self):
        setting = get_project_settings()
        self.host = setting.get("DB_HSOT")
        self.port = setting.get("DB_PORT")
        self.user = setting.get("DB_USER")
        self.password = setting.get("DB_PASSWORD")
        self.db = setting.get("DB_DB")
        self.charset = setting.get("DB_CHARSET")
        self.conn = pymysql.connect(host=self.host, port=self.port, user=self.user, password=self.password, db=self.db, charset=self.charset)
        # 建立遊标 通過cursor 執行 sql語句
        self.cursor = self.conn.cursor()

    def process_item(self, item, spider):
            try:
                # 查重處理
                self.cursor.execute('select * from agents where agent = %s and agent_company= %s',(item['agent'], item['agent_company']))
                # 檢視是否有重複的資料
                repetition = self.cursor.fetchone()
                #重複
                if repetition:
                    # 列印一下
                    print('資料重複',item['agent'],item['agent_company'])
                else:
                    # 插入資料
                    self.cursor.execute('insert into agents(agent,agent_company) values("%s","%s") '%(item['agent'],item['agent_company']))
                #送出sql語句
                    self.conn.commit()

            except Exception as error:
                print(error)
            return item

    def close_spider(self, spider):
            # 關閉 遊标
            self.cursor.close()
            # 關閉 連接配接
            self.conn.close()

【Python爬蟲】輕松幾步将 scrapy 架構擷取得到的資料存儲到 MySQL 資料庫中

以下操作是在一個完整的 scrapy 項目中添加代碼:

當資料庫連接配接成功了之後, 接下來我們就開始在scrappy架構中進 "裝修" :

1：配置環境在setting檔案中加入： sql資料庫參數和 pipelines管道配置：

2 ：管道中建立一個類用來儲存資料到資料庫：

經過一番的 '裝修' 現在我們就能把擷取地帶的目标資料存儲到自己的資料庫中了

繼續閱讀

2022秋招面試總結（cpp+java+測開）百度測開一面位元組後端一面蝦皮後端一面蝦皮後端二面

資料庫之DDL操作資料庫DDL操作資料庫DDL操作資料表

資料庫之DQL操作資料庫

mysql優化（sql優化）

資料遷移方法資料遷移原則資料遷移之雙寫方案資料遷移之級聯同步方案

redis叢集資料一緻性_RedisRaft為Redis叢集帶來強大的資料一緻性

寶塔面闆mysql恢複2018.1.8更新

Centos7 MySQL 5.7 安裝MySQL 5.7 安裝

查找入職員工時間排名倒數第三的員工所有資訊

Hibernate使用Hibernate的“3個準備，7個步驟”Hibernate API簡介操作實體對象對象識别

雲計算面試題——mysql/存儲引擎/備份

SQL語言基礎：常用的資料查詢語句

Ubuntu16.04安裝Apache+MySQL+PHP1. 安裝Apache2. 安裝MySQL3. 安裝PHP4. 安裝phpMyAdmin

MySQL的4種隔離級别？出現問題

neo4j之cypher使用文檔

mysql使用source指令導入.sql檔案

【Python爬蟲】 輕松幾步 将 scrapy 架構 擷取得到的 資料 存儲到 MySQL 資料庫中

以下操作 是在 一個 完整的 scrapy 項目中 添加 代碼:

當資料庫連接配接成功了之後, 接下來 我們就開始在scrappy架構中進 "裝修" :

1：配置環境 在setting檔案中加入： sql資料庫參數 和 pipelines管道配置：

2 ： 管道中 建立一個類 用來儲存資料到資料庫 ：

經過一番的 '裝修' 現在我們就能把 擷取地帶的目标資料 存儲到 自己的 資料庫中了

繼續閱讀

【Python爬蟲】輕松幾步将 scrapy 架構擷取得到的資料存儲到 MySQL 資料庫中

以下操作是在一個完整的 scrapy 項目中添加代碼:

當資料庫連接配接成功了之後, 接下來我們就開始在scrappy架構中進 "裝修" :

1：配置環境在setting檔案中加入： sql資料庫參數和 pipelines管道配置：

2 ：管道中建立一個類用來儲存資料到資料庫：

經過一番的 '裝修' 現在我們就能把擷取地帶的目标資料存儲到自己的資料庫中了