天天看點

手把手教你如何建立scrapy爬蟲架構的第一個項目(下)

前幾天小編帶大家學會了

如何建立scrapy爬蟲架構的第一個項目(上)

,今天我們進一步深入的了解Scrapy爬蟲項目建立,這裡以伯樂線上網站的所有文章頁為例進行說明。

在我們建立好Scrapy爬蟲項目之後,會得到上圖中的提示,大意是讓我們直接根據模闆進行建立Scrapy項目。根據提示,我們首先運作“cd article”指令,意思是打開或者進入到article檔案夾下,爾後執行指令“scrapy genspider jobbole blog.jobbole.com”,代表通過Scrapy中自帶的basic模闆進行建立Scrapy項目,如下圖所示。

根據提示,該模闆建立的位置為article.spiders.jobbole,此時再次輸入tree /f指令可以檢視到除了之前建立Scrapy爬蟲項目的基礎檔案之外,在spiders檔案夾下确實是多了一個jobbole.py檔案,如下圖所示。

當然了,爬蟲模闆不一定非得用Scrapy爬蟲項目自帶的模闆,也可以自定義的進行建立,但是基本上Scrapy提供的模闆是足夠使用的了。

接下來,将整個爬蟲項目導入到Pycharm中去,點選左上方“file”à“open”,找到爬蟲項目建立的檔案夾,點選确認即可。

如果在Pycharm中的spiders檔案夾下看不到jobbole.py這個檔案的話,則先選中spiders檔案夾,爾後右鍵,點選“Synchronize spider”,代表與spiders檔案夾進行同步的意思,爾後便可以看到jobbole.py就會被加載出來。

點選jobbole.py檔案進行檢視内容,如下圖所示。可以看到該檔案已經預設的填充了部分Python代碼,其實是從源模闆中進行複制建立的。

可以看到該檔案中有目前Scrapy爬蟲項目的名字name,Scrapy爬蟲項目所允許的域名範圍allowed_domains,以及Scrapy爬蟲項目的起始URL,即start_urls。

接下來最後檢查一下該項目的Python解釋器,點選Pycharm的setting,然後輸入“interpreter”,找到解釋器所在的位置,如下圖所示。

如果“Project Interpreter”顯示出來的解釋器不是目前項目下的虛拟環境,則點選“Project Interpreter”的右側的設定按鈕,如下圖所示。

然後點選“Add local”,如下圖所示。

找到該項目對應的虛拟環境Python解釋器,進行添加即可,如下圖所示。

至此,Scrapy爬蟲虛拟環境建立、Scrapy爬蟲項目的建立以及Scrapy爬蟲項目導入到Pycharm中以及解釋器的配置已經完成,接下來我們要開始寫入爬蟲邏輯,以及資料提取等,敬請期待~~