天天看點

通過一個簡單案例入門爬蟲架構scrapy

前言

我一直也在學習python,包括爬蟲,但平時都是用一些零散的指令和語句來實作一個爬蟲,沒有用過架構,但最近也了解了使用架構完成一個爬蟲無論是在編寫速度還是執行效率上都會更上一個層次,是以學習架構也成為大勢所趨,今天就把我使用scrapy架構完成的第一個爬蟲放在這,一來是為了為我的學習做一下記錄,二來也希望讓大家指出我的不足之處,我們一同進步。

首先是安裝scrapy

pip install scrapy
           

測試是否成功安裝:在指令符中輸入 scrapy 如果顯示如下圖所示,則安裝成功。

通過一個簡單案例入門爬蟲架構scrapy

建立爬蟲項目

進入你想要建立項目的檔案夾,執行指令

scrapy startproject 項目名

比如我想在D盤建立一個名為firstspider的爬蟲項目,可以像下面這樣輸入:

通過一個簡單案例入門爬蟲架構scrapy

建立好的項目的結構:

通過一個簡單案例入門爬蟲架構scrapy

建立爬蟲

進入項目的兩層目錄,執行指令

scrapy genspider 爬蟲名 域名

如果我想建立一個爬取百度圖檔的名為myspider的爬蟲(百度圖檔的網址:https://image.baidu.com/,在這裡我先進入firstspider目錄再進入firstspider目錄,執行指令

scrapy genspider myspider image.baidu.com

通過一個簡單案例入門爬蟲架構scrapy

會在spiders目錄下産生一個檔案,這就是我們的爬蟲檔案

通過一個簡單案例入門爬蟲架構scrapy
接下來就是代碼部分,由于我也是第一次使用架構,是以我在這裡就給大家介紹一部分屬性吧,具體的實作過程等我學通透之後再給大家講解吧(嘻嘻)。這一次大家就通過這一個簡單的例子來簡單的了解一下scrapy架構吧。

爬蟲檔案部分(myspider)

(要多多寫代碼,這樣才能變厲害)

通過一個簡單案例入門爬蟲架構scrapy

items部分

通過一個簡單案例入門爬蟲架構scrapy

settings部分

通過一個簡單案例入門爬蟲架構scrapy
通過一個簡單案例入門爬蟲架構scrapy
通過一個簡單案例入門爬蟲架構scrapy

寫完代碼就可以運作了,還是在指令符中進入建立爬蟲的時的目錄,執行指令

scrapy crawl 爬蟲名

執行過程

通過一個簡單案例入門爬蟲架構scrapy
通過一個簡單案例入門爬蟲架構scrapy

爬取結果

通過一個簡單案例入門爬蟲架構scrapy
第一次使用架構還不是很熟,有不足之處或者有錯誤的地方還請幫忙指出,一定虛心請教。