廢話不多說,直接上步驟:
首先,要下載下傳scrapy的封包件,下載下傳好之後,win+R打開黑屏終端,輸入scrapy就可以檢視版本資訊,以及已經釋出的scrapy項目的資訊。
(注:如果已經在自己電腦上釋出了scrapy項目,黑屏終端輸入scrapy啟動服務之後,就可以通過浏覽器127.0.0.1:6800檢視已經釋出的項目了)
1. 使用cmd黑屏終端cd到你要建立項目的目錄下,然後輸入以下内容
scrapy startproject xxx
其中xxx是你項目的名稱
如下圖所示:
2. 建立完畢之後,就可以使用pycharm打開這個建立好的scrapy項目了
建立好的scrapy項目的目錄結構如上圖所示
簡要了解一下各檔案的作用及意義:
1. spiders檔案夾: 這裡存放爬蟲的主程式,這裡可以寫多個爬蟲檔案,分别執行不同的爬蟲功能。
2. items.py: 這個檔案定義了爬蟲程式中爬取的字段資訊,對應着資料庫中的屬性資訊。
3. middlewares.py: 下載下傳中間件,可以對爬取到的網頁資訊盡心特定的處理。
4. pipelines.py: 管道,也就是将傳回來的item字段資訊寫入到資料庫,這裡可以寫寫入資料庫的代碼。
5. settings.py: 配置檔案。
**6. scrapy.cfg:**可以說是配置settings的檔案,如果一個項目中包含多個settings.py配置檔案,那麼在這個檔案中就可以選擇使用哪個配置檔案來管理項目。
3. 建立一個爬蟲檔案
scrapy genspider xxx xxx.cn
舉個栗子:
爬蟲檔案名為第一個xxx:blogspider
爬蟲檔案執行爬蟲的網站為第二個xxx:weibo.cn
每次建立新的爬蟲檔案都使用這個指令行就可
以下是執行上述步驟之後建立的爬蟲檔案:
我們可以重寫爬蟲檔案中的各種方法來實作我們的爬蟲
4. 修改settings.py:
- 修改是否遵守爬蟲規則,預設是True,表示會爬取特定的内容,一般會将它改成False:
ROBOTSTXT_OBEY = False
- 開啟中間件:settings.py檔案往下拉,将代碼注釋掉就可以
DOWNLOADER_MIDDLEWARES = {
'microBlogSpider.middlewares.MicroblogspiderDownloaderMiddleware': 543,
}
- 開啟管道:同上
ITEM_PIPELINES = {
'microBlogSpider.pipelines.MicroblogspiderPipeline': 300,
}
接下來就是編寫items.py檔案确定爬取的字段資訊,編寫pipelines.py和資料庫進行互動,編寫爬蟲檔案爬取網頁内容。。。
5. 啟動爬蟲
指令行中直接輸入:
scrapy crawl xxx
其中xxx代表你的爬蟲檔案的name
或者建立一個start.py檔案,每次執行這個檔案就可以啟動,檔案内容如下:
# -*- coding: utf-8 -*-
from scrapy import cmdline
cmdline.execute("scrapy crawl xxxx".split())
xxxx填入對應的爬蟲名稱就可以了