天天看點

建立Scrapy項目過程及各檔案含義

廢話不多說,直接上步驟:

首先,要下載下傳scrapy的封包件,下載下傳好之後,win+R打開黑屏終端,輸入scrapy就可以檢視版本資訊,以及已經釋出的scrapy項目的資訊。

(注:如果已經在自己電腦上釋出了scrapy項目,黑屏終端輸入scrapy啟動服務之後,就可以通過浏覽器127.0.0.1:6800檢視已經釋出的項目了)

1. 使用cmd黑屏終端cd到你要建立項目的目錄下,然後輸入以下内容

scrapy startproject xxx
           

其中xxx是你項目的名稱

如下圖所示:

建立Scrapy項目過程及各檔案含義

2. 建立完畢之後,就可以使用pycharm打開這個建立好的scrapy項目了

建立Scrapy項目過程及各檔案含義

建立好的scrapy項目的目錄結構如上圖所示

簡要了解一下各檔案的作用及意義:

1. spiders檔案夾: 這裡存放爬蟲的主程式,這裡可以寫多個爬蟲檔案,分别執行不同的爬蟲功能。

2. items.py: 這個檔案定義了爬蟲程式中爬取的字段資訊,對應着資料庫中的屬性資訊。

3. middlewares.py: 下載下傳中間件,可以對爬取到的網頁資訊盡心特定的處理。

4. pipelines.py: 管道,也就是将傳回來的item字段資訊寫入到資料庫,這裡可以寫寫入資料庫的代碼。

5. settings.py: 配置檔案。

**6. scrapy.cfg:**可以說是配置settings的檔案,如果一個項目中包含多個settings.py配置檔案,那麼在這個檔案中就可以選擇使用哪個配置檔案來管理項目。

3. 建立一個爬蟲檔案

scrapy genspider xxx xxx.cn
           

舉個栗子:

爬蟲檔案名為第一個xxx:blogspider

爬蟲檔案執行爬蟲的網站為第二個xxx:weibo.cn

建立Scrapy項目過程及各檔案含義

每次建立新的爬蟲檔案都使用這個指令行就可

以下是執行上述步驟之後建立的爬蟲檔案:

建立Scrapy項目過程及各檔案含義

我們可以重寫爬蟲檔案中的各種方法來實作我們的爬蟲

4. 修改settings.py:

  1. 修改是否遵守爬蟲規則,預設是True,表示會爬取特定的内容,一般會将它改成False:

    ROBOTSTXT_OBEY = False

  2. 開啟中間件:settings.py檔案往下拉,将代碼注釋掉就可以
DOWNLOADER_MIDDLEWARES = {
   'microBlogSpider.middlewares.MicroblogspiderDownloaderMiddleware': 543,
}
           
  1. 開啟管道:同上
ITEM_PIPELINES = {
   'microBlogSpider.pipelines.MicroblogspiderPipeline': 300,
}
           

接下來就是編寫items.py檔案确定爬取的字段資訊,編寫pipelines.py和資料庫進行互動,編寫爬蟲檔案爬取網頁内容。。。

5. 啟動爬蟲

指令行中直接輸入:

scrapy crawl xxx

其中xxx代表你的爬蟲檔案的name

或者建立一個start.py檔案,每次執行這個檔案就可以啟動,檔案内容如下:

# -*- coding: utf-8 -*-
from scrapy import cmdline
cmdline.execute("scrapy crawl xxxx".split())
           

xxxx填入對應的爬蟲名稱就可以了