環境:CentOS 6.0 虛拟機
1、建立工程cnblogs
2、檢視下工程的結構
3、定義抽取cnblogs的網頁結構,修改items.py
這裡我們抽取四個内容:
文章标題
文章連結
文在所在的清單頁URL
摘要
4、建立spider
注意:
首行要設定為:#coding=utf-8 或 # -*- coding: utf-8 -*- 哦!否則會報錯。
spider的名稱為:CnblogsSpider,後面會用到。
5、修改pipelines.py檔案
注意類名為JsonWithEncodingCnblogsPipeline哦!settings.py中會用到
6、修改settings.py,添加以下兩個配置項
7、運作spider,scrapy crawl 爬蟲名稱(cnblogs_spider.py中定義的name)
8、檢視結果more cnblogs.json(pipelines.py中定義的名稱)
10、相信大家還會有疑問,我們能不能将資料直接儲存在資料庫呢?答案是可以的,接下來的文章會逐一介紹,敬請期待。
參考資料:
http://doc.scrapy.org/en/master/
http://blog.csdn.net/HanTangSongMing/article/details/24454453