手把手教你如何建立scrapy爬蟲架構的第一個項目（下）

2019-02-23 23:50:00

前幾天小編帶大家學會了

，今天我們進一步深入的了解Scrapy爬蟲項目建立，這裡以伯樂線上網站的所有文章頁為例進行說明。

在我們建立好Scrapy爬蟲項目之後，會得到上圖中的提示，大意是讓我們直接根據模闆進行建立Scrapy項目。根據提示，我們首先運作“cd article”指令，意思是打開或者進入到article檔案夾下，爾後執行指令“scrapy genspider jobbole blog.jobbole.com”，代表通過Scrapy中自帶的basic模闆進行建立Scrapy項目，如下圖所示。

根據提示，該模闆建立的位置為article.spiders.jobbole，此時再次輸入tree /f指令可以檢視到除了之前建立Scrapy爬蟲項目的基礎檔案之外，在spiders檔案夾下确實是多了一個jobbole.py檔案，如下圖所示。

當然了，爬蟲模闆不一定非得用Scrapy爬蟲項目自帶的模闆，也可以自定義的進行建立，但是基本上Scrapy提供的模闆是足夠使用的了。

接下來，将整個爬蟲項目導入到Pycharm中去，點選左上方“file”à“open”，找到爬蟲項目建立的檔案夾，點選确認即可。

如果在Pycharm中的spiders檔案夾下看不到jobbole.py這個檔案的話，則先選中spiders檔案夾，爾後右鍵，點選“Synchronize spider”，代表與spiders檔案夾進行同步的意思，爾後便可以看到jobbole.py就會被加載出來。

點選jobbole.py檔案進行檢視内容，如下圖所示。可以看到該檔案已經預設的填充了部分Python代碼，其實是從源模闆中進行複制建立的。

可以看到該檔案中有目前Scrapy爬蟲項目的名字name，Scrapy爬蟲項目所允許的域名範圍allowed_domains，以及Scrapy爬蟲項目的起始URL，即start_urls。

接下來最後檢查一下該項目的Python解釋器，點選Pycharm的setting，然後輸入“interpreter”，找到解釋器所在的位置，如下圖所示。

如果“Project Interpreter”顯示出來的解釋器不是目前項目下的虛拟環境，則點選“Project Interpreter”的右側的設定按鈕，如下圖所示。

然後點選“Add local”，如下圖所示。

找到該項目對應的虛拟環境Python解釋器，進行添加即可，如下圖所示。

至此，Scrapy爬蟲虛拟環境建立、Scrapy爬蟲項目的建立以及Scrapy爬蟲項目導入到Pycharm中以及解釋器的配置已經完成，接下來我們要開始寫入爬蟲邏輯，以及資料提取等，敬請期待~~

手把手教你如何建立scrapy爬蟲架構的第一個項目（下）

繼續閱讀

來自python的【條件控制/語句循環/break/continue/else/pass】一、條件控制二、語句循環

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入