scrapy爬蟲成長日記之建立工程-抽取資料-儲存為json格式的資料

2021-11-16 18:16:50

環境：CentOS 6.0 虛拟機

1、建立工程cnblogs

2、檢視下工程的結構

3、定義抽取cnblogs的網頁結構，修改items.py

這裡我們抽取四個内容：

文章标題

文章連結

文在所在的清單頁URL

摘要

4、建立spider

注意：

　　首行要設定為：#coding=utf-8 或 # -*- coding: utf-8 -*- 哦！否則會報錯。

　　spider的名稱為：CnblogsSpider，後面會用到。

5、修改pipelines.py檔案

注意類名為JsonWithEncodingCnblogsPipeline哦！settings.py中會用到

6、修改settings.py，添加以下兩個配置項

7、運作spider，scrapy crawl 爬蟲名稱（cnblogs_spider.py中定義的name）

8、檢視結果more cnblogs.json（pipelines.py中定義的名稱）

10、相信大家還會有疑問，我們能不能将資料直接儲存在資料庫呢？答案是可以的，接下來的文章會逐一介紹，敬請期待。

參考資料：

　　http://doc.scrapy.org/en/master/

　　http://blog.csdn.net/HanTangSongMing/article/details/24454453

繼續閱讀