前言

scrapy是python界出名的一個爬蟲架構。Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用架構。可以應用在包括資料挖掘，資訊處理或存儲曆史資料等一系列的程式中。

雖然scrapy能做的事情很多，但是要做到大規模的分布式應用則捉襟見肘。有能人改變了scrapy的隊列排程，将起始的網址從start_urls裡分離出來，改為從redis讀取，多個用戶端可以同時讀取同一個redis，進而實作了分布式的爬蟲。就算在同一台電腦上，也可以多程序的運作爬蟲，在大規模抓取的過程中非常有效。

準備

既然這麼好能實作分布式爬取，那都需要準備什麼呢？

需要準備的東西比較多，都有：

- scrapy

- scrapy-redis

- redis

- mysql

- python的mysqldb子產品

- python的redis子產品

為什麼要有mysql呢？是因為我們打算把收集來的資料存放到mysql中

1. scrapy安裝

pip install scrapy

也可以clone下相應的github位址https://github.com/scrapy/scrapy/tree/1.1

2. scrapy-redis安裝

pip install scrapy-redis

同樣可以clone下相應的github位址https://github.com/rolando/scrapy-redis

他倆具體有什麼差別呢？https://www.zhihu.com/question/32302268/answer/55724369有知乎大神的回答

3.redis

redis本身隻提供了在類linux環境中安裝，不支援windows，官網http://redis.io/，如果需要在windows下做練習的朋友，可以參考我的這篇http://blog.csdn.net/howtogetout/article/details/51520254

4.mysql

因為我們打算用mysql來存儲資料，是以mysql的配置是不可或缺的。下載下傳位址http://dev.mysql.com/downloads/

5.mysqldb子產品和redis子產品

為什麼需要這2個呢，是因為python不能直接操作資料庫，需要通過庫來支援。而這2個就是相應資料庫的支援庫。

mysqldb：https://sourceforge.net/projects/mysql-python/files/mysql-python/1.2.3/，windows環境下可以直接下.exe來快速安裝

redis：

pip install redis

這樣就是最簡單的了。

動工

先來看下scrapy-redis的一些不同的地方。

使用scrapy-redis建構簡單的分布式爬蟲前言準備動工最後

首先就是class的父對象變了，變成了特有的RedisSpider，這是scrapy-redis裡面自己定義的新的爬蟲類型。其次就是不再有start_urls了，取而代之的是redis_key，scrapy-redis将key從list中pop出來成為請求的url位址。

我們這次選取的對象是58同城的平闆電腦資訊。

首先來看一下架構資訊。

使用scrapy-redis建構簡單的分布式爬蟲前言準備動工最後

scrapy.cfg檔案我們可以不管，readme.rst檔案也不管（這個是github上有用的，scrapy建立項目的時候并沒有）

pbdnof58檔案夾内的結構：

使用scrapy-redis建構簡單的分布式爬蟲前言準備動工最後

items定義檔案，settings設定檔案，pipelines處理檔案以及spiders檔案夾。

spiders檔案夾盛放着我們編寫的具體爬蟲：

使用scrapy-redis建構簡單的分布式爬蟲前言準備動工最後

可以看到裡面有2個爬蟲，一個是用來爬所有的url位址，并将其傳遞給redis。而另外一個則是根據爬取出來的位址處理具體的商品資訊。

具體來看。首先是settings.py檔案。

使用scrapy-redis建構簡單的分布式爬蟲前言準備動工最後

跟scrapy一樣，寫明spider的位置。

使用scrapy-redis建構簡單的分布式爬蟲前言準備動工最後

2個處理資料的pipeline中的類，數字越小優先執行。

使用scrapy-redis建構簡單的分布式爬蟲前言準備動工最後

因為資料要存放在mysql中，是以需要配置下mysql的資訊。而redis是預設采用本地的，是以并沒有配置資訊，如果是連接配接别的主機的話，需要配置下redis的連接配接位址。

item.py檔案

使用scrapy-redis建構簡單的分布式爬蟲前言準備動工最後

與scrapy相比多了個排程檔案，多了個ItemLoader類，照着做就好了，ItemLoader類後面會用到的。

pipeline.py檔案

使用scrapy-redis建構簡單的分布式爬蟲前言準備動工最後

最重要的是這個将結果存儲到mysql中。

要在一個名為qcl的資料庫之中建一個名叫58pbdndb的表。qcl對應settings的配置。

create table 58pbdndb(
   id INT NOT NULL AUTO_INCREMENT,
   title VARCHAR(100) NOT NULL,
   price VARCHAR(40) NOT NULL,
   quality VARCHAR(40),
   area VARCHAR(40),
   time VARCHAR(40) NOT NULL,
   PRIMARY KEY ( id )
)DEFAULT CHARSET=utf8;

注意：我并沒有在表的一開始檢查字段是否存在，如果你在調試過程中不止一次的話，你可能需要多次删除表中資料。

58Urlspider.py檔案

使用scrapy-redis建構簡單的分布式爬蟲前言準備動工最後

這個爬蟲實作了2個功能。1是如果next（也就是下一頁）存在，則把下一頁的位址壓進redis的myspider:58_urls的這個list中，供自己繼續爬取。2是提取出想要爬取的商品具體網址，壓進redis的myspider:start_urls的list中，供另一個爬蟲爬取。

58spider-redis.py檔案

使用scrapy-redis建構簡單的分布式爬蟲前言準備動工最後

這個爬蟲是用來抓取具體的商品資訊。可以看到ItemLoader類的add_path和add_value方法的使用。

最後

運作方法跟scrapy相同，就是進入pbdnof58檔案夾下（注意下面是隻有spiders檔案夾的那個）.輸入

scrapy crawl myspider_58page和scrapy crawl myspider_58

可以輸入多個來觀察多程序的效果。。打開了爬蟲之後你會發現爬蟲處于等待爬取的狀态，是因為2個list此時都為空。是以需要

lpush myspider:58_urls http://hz.58.com/pbdn/0/

來設定一個初始位址，好啦，這樣就可以愉快的看到所有的爬蟲都動起來啦。

最後來張資料庫的圖

使用scrapy-redis建構簡單的分布式爬蟲前言準備動工最後

本文相對比較簡單，隻是scrapy-redis的基本應用。本人也比較小白，剛剛開始學習，如有什麼問題，歡迎提出來共同進步。

ps：本文的github位址：https://github.com/qcl643062/spider/tree/master/pbdnof58

使用scrapy-redis建構簡單的分布式爬蟲前言準備動工最後

前言

準備

1. scrapy安裝

2. scrapy-redis安裝

3.redis

4.mysql

5.mysqldb子產品和redis子產品

動工

最後

繼續閱讀

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

sort()函數到底是怎樣進行數字排序的

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入