python應用：爬蟲架構Scrapy系統學習第四篇——scrapy爬取筆趣閣小說

2019-01-21 11:51:00

使用cmd建立一個scrapy項目：

　　scrapy startproject project_name (project_name 必須以字母開頭，隻能包含字母、數字以及下劃線<underscorce>)

　　項目目錄層級如下：

python應用：爬蟲架構Scrapy系統學習第四篇——scrapy爬取筆趣閣小說

聲明Item

　　聲明我們可能用到的所有字段，包括管理字段等。管理字段可以讓我們清楚何時（date）、何地（url server）及如何（spider）執行爬去，此外，還可以自動完成諸如使item失效、規劃新的抓取疊代或是删除來自有問題的爬蟲的item。

url

response.url

例：‘http://www.baidu.com’

project

self.ettings.get('BOT_NAME')

例：‘crawl_novel’

spider

self.name

例：‘basic’

server

socket.gethostname()

例：‘scrapyserverl’

date

datetime.datetime.now()

例：‘datetime.datetime(2019,1,21……)’

編寫爬蟲并填充item

使用scrapy genspider 指令

　　scrapy genspider -l 檢視可用模闆

　　scrapy genspider -t 使用任意其他模闆建立爬蟲

　　e.g. scrapy genspider basic www spiders目錄中新增一個basic.py檔案，并限制隻能爬取www域名下的url

使用 scrapy crawl 指令運作爬蟲檔案

　　e.g. scrapy crawl basic (basic是spider下的爬蟲檔案)

使用 scrapy parse指令用不同頁面調試代碼

　　e.g. scrapy parse --spider=basic http://www.……

使用scrapy crawl basic -o +檔案名.檔案類型儲存檔案

　　e.g. scrapy crawl basic -o items.json(items.csv、items.j1、items.xml)

basic.py

清理——item裝載器、添加管理字段，并對資料進行格式化和清洗

使用ItemLoader以代替那些雜亂的extract()和xpath()操作

使用MapCompose參數

使用lambda表達式

建立contract，檢驗代碼可用性

使用scrapy check + 檔案名執行

　　e.g. scrapy check basic

python應用：爬蟲架構Scrapy系統學習第四篇——scrapy爬取筆趣閣小說

繼續閱讀

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

sort()函數到底是怎樣進行數字排序的

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入