通過一個簡單案例入門爬蟲架構scrapy

2023-06-11 11:45:40

前言

我一直也在學習python，包括爬蟲，但平時都是用一些零散的指令和語句來實作一個爬蟲，沒有用過架構，但最近也了解了使用架構完成一個爬蟲無論是在編寫速度還是執行效率上都會更上一個層次，是以學習架構也成為大勢所趨，今天就把我使用scrapy架構完成的第一個爬蟲放在這，一來是為了為我的學習做一下記錄，二來也希望讓大家指出我的不足之處，我們一同進步。

首先是安裝scrapy

pip install scrapy

測試是否成功安裝：在指令符中輸入 scrapy 如果顯示如下圖所示，則安裝成功。

通過一個簡單案例入門爬蟲架構scrapy

建立爬蟲項目

進入你想要建立項目的檔案夾，執行指令

scrapy startproject 項目名

比如我想在D盤建立一個名為firstspider的爬蟲項目，可以像下面這樣輸入：

通過一個簡單案例入門爬蟲架構scrapy

建立好的項目的結構：

通過一個簡單案例入門爬蟲架構scrapy

建立爬蟲

進入項目的兩層目錄，執行指令

scrapy genspider 爬蟲名 域名

如果我想建立一個爬取百度圖檔的名為myspider的爬蟲(百度圖檔的網址：https://image.baidu.com/，在這裡我先進入firstspider目錄再進入firstspider目錄，執行指令

scrapy genspider myspider image.baidu.com

通過一個簡單案例入門爬蟲架構scrapy

會在spiders目錄下産生一個檔案，這就是我們的爬蟲檔案

通過一個簡單案例入門爬蟲架構scrapy

接下來就是代碼部分，由于我也是第一次使用架構，是以我在這裡就給大家介紹一部分屬性吧，具體的實作過程等我學通透之後再給大家講解吧(嘻嘻)。這一次大家就通過這一個簡單的例子來簡單的了解一下scrapy架構吧。

爬蟲檔案部分(myspider)

（要多多寫代碼，這樣才能變厲害）

通過一個簡單案例入門爬蟲架構scrapy

items部分

通過一個簡單案例入門爬蟲架構scrapy

settings部分

通過一個簡單案例入門爬蟲架構scrapy

寫完代碼就可以運作了，還是在指令符中進入建立爬蟲的時的目錄，執行指令

scrapy crawl 爬蟲名

執行過程

通過一個簡單案例入門爬蟲架構scrapy

爬取結果

通過一個簡單案例入門爬蟲架構scrapy

第一次使用架構還不是很熟，有不足之處或者有錯誤的地方還請幫忙指出，一定虛心請教。

通過一個簡單案例入門爬蟲架構scrapy

繼續閱讀

來自python的【條件控制/語句循環/break/continue/else/pass】一、條件控制二、語句循環

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入