天天看點

scrapy爬蟲成長日記之建立工程-抽取資料-儲存為json格式的資料

環境:CentOS 6.0 虛拟機

1、建立工程cnblogs

2、檢視下工程的結構

3、定義抽取cnblogs的網頁結構,修改items.py

這裡我們抽取四個内容:

文章标題

文章連結

文在所在的清單頁URL

摘要

4、建立spider

注意:

  首行要設定為:#coding=utf-8 或 # -*- coding: utf-8 -*- 哦!否則會報錯。

  spider的名稱為:CnblogsSpider,後面會用到。

5、修改pipelines.py檔案

注意類名為JsonWithEncodingCnblogsPipeline哦!settings.py中會用到

6、修改settings.py,添加以下兩個配置項

7、運作spider,scrapy crawl 爬蟲名稱(cnblogs_spider.py中定義的name)

8、檢視結果more cnblogs.json(pipelines.py中定義的名稱)

10、相信大家還會有疑問,我們能不能将資料直接儲存在資料庫呢?答案是可以的,接下來的文章會逐一介紹,敬請期待。

參考資料:

  http://doc.scrapy.org/en/master/

  http://blog.csdn.net/HanTangSongMing/article/details/24454453