建立Scrapy項目過程及各檔案含義

2023-06-11 11:38:51

廢話不多說，直接上步驟：

首先，要下載下傳scrapy的封包件，下載下傳好之後，win+R打開黑屏終端，輸入scrapy就可以檢視版本資訊，以及已經釋出的scrapy項目的資訊。

（注：如果已經在自己電腦上釋出了scrapy項目，黑屏終端輸入scrapy啟動服務之後，就可以通過浏覽器127.0.0.1:6800檢視已經釋出的項目了）

1. 使用cmd黑屏終端cd到你要建立項目的目錄下，然後輸入以下内容

scrapy startproject xxx

其中xxx是你項目的名稱

如下圖所示：

建立Scrapy項目過程及各檔案含義

2. 建立完畢之後，就可以使用pycharm打開這個建立好的scrapy項目了

建立Scrapy項目過程及各檔案含義

建立好的scrapy項目的目錄結構如上圖所示

簡要了解一下各檔案的作用及意義：

1. spiders檔案夾：這裡存放爬蟲的主程式，這裡可以寫多個爬蟲檔案，分别執行不同的爬蟲功能。

2. items.py：這個檔案定義了爬蟲程式中爬取的字段資訊，對應着資料庫中的屬性資訊。

3. middlewares.py：下載下傳中間件，可以對爬取到的網頁資訊盡心特定的處理。

4. pipelines.py：管道，也就是将傳回來的item字段資訊寫入到資料庫，這裡可以寫寫入資料庫的代碼。

5. settings.py：配置檔案。

**6. scrapy.cfg：**可以說是配置settings的檔案，如果一個項目中包含多個settings.py配置檔案，那麼在這個檔案中就可以選擇使用哪個配置檔案來管理項目。

3. 建立一個爬蟲檔案

scrapy genspider xxx xxx.cn

舉個栗子：

爬蟲檔案名為第一個xxx：blogspider

爬蟲檔案執行爬蟲的網站為第二個xxx：weibo.cn

建立Scrapy項目過程及各檔案含義

每次建立新的爬蟲檔案都使用這個指令行就可

以下是執行上述步驟之後建立的爬蟲檔案：

建立Scrapy項目過程及各檔案含義

我們可以重寫爬蟲檔案中的各種方法來實作我們的爬蟲

4. 修改settings.py：

修改是否遵守爬蟲規則，預設是True，表示會爬取特定的内容，一般會将它改成False： ROBOTSTXT_OBEY = False
開啟中間件：settings.py檔案往下拉，将代碼注釋掉就可以

DOWNLOADER_MIDDLEWARES = {
   'microBlogSpider.middlewares.MicroblogspiderDownloaderMiddleware': 543,
}

開啟管道：同上

ITEM_PIPELINES = {
   'microBlogSpider.pipelines.MicroblogspiderPipeline': 300,
}

接下來就是編寫items.py檔案确定爬取的字段資訊，編寫pipelines.py和資料庫進行互動，編寫爬蟲檔案爬取網頁内容。。。

5. 啟動爬蟲

指令行中直接輸入：

scrapy crawl xxx

其中xxx代表你的爬蟲檔案的name

或者建立一個start.py檔案，每次執行這個檔案就可以啟動，檔案内容如下：

# -*- coding: utf-8 -*-
from scrapy import cmdline
cmdline.execute("scrapy crawl xxxx".split())

xxxx填入對應的爬蟲名稱就可以了

建立Scrapy項目過程及各檔案含義

繼續閱讀

來自python的【條件控制/語句循環/break/continue/else/pass】一、條件控制二、語句循環

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入