scrapy爬蟲學習

<code>urllib子產品解析編碼url參數</code>

<code>from</code> <code>urllib </code><code>import</code> <code>parse</code>

<code>postdata </code><code>=</code> <code>{</code>

<code>data </code><code>=</code> <code>parse.urlencode(postdata)</code>

<code>print</code><code>(data)</code>

<code>windows下爬蟲腳本必須配置以下内容，否則出現編碼錯誤</code>

<code>import</code> <code>sys,io</code>

<code>sys.stdout</code><code>=</code><code>io.TextIOWrapper(sys.stdout.</code><code>buffer</code><code>,encoding</code><code>=</code><code>'gb18030'</code><code>)</code>

<code>一、爬取煎蛋網内容</code>

<code>items.py </code><code>#資料字段</code>

<code>import</code> <code>scrapy</code>

<code>class</code> <code>JiandanItem(scrapy.Item):</code>

<code> </code><code># define the fields for your item here like:</code>

<code> </code><code># name = scrapy.Field()</code>

<code> </code><code>title </code><code>=</code> <code>scrapy.Field()</code>

<code> </code><code>content </code><code>=</code> <code>scrapy.Field()</code>

<code> </code><code>img_url </code><code>=</code> <code>scrapy.Field()</code>

<code>爬蟲腳本jiandan.py</code>

<code>from</code> <code>..items </code><code>import</code> <code>JiandanItem</code>

<code>from</code> <code>scrapy.selector </code><code>import</code> <code>HtmlXPathSelector</code>

<code>class</code> <code>JianDanSpider(scrapy.Spider):</code>

<code> </code><code>name </code><code>=</code> <code>"jiandan"</code>

<code> </code><code>allowed_domains </code><code>=</code> <code>[</code><code>"jandan.net"</code><code>]</code>

<code> </code><code>start_urls </code><code>=</code> <code>[</code>

<code> </code><code>"http://jandan.net/"</code><code>,</code>

<code> </code><code>def</code> <code>parse(</code><code>self</code><code>, response):</code>

<code> </code><code>#title_list = response.xpath('//div[@class="indexs"]//h2/a/text()').extract()</code>

<code> </code><code>hxs </code><code>=</code> <code>HtmlXPathSelector(response)</code>

<code> </code><code>items </code><code>=</code> <code>hxs.select(</code><code>'//div[@class="post f list-post"]'</code><code>)</code>

<code> </code><code>for</code> <code>item </code><code>in</code> <code>items:</code>

<code> </code><code>img_url </code><code>=</code> <code>item.select(</code><code>'.//div[@class="thumbs_b"]/a/img/@data-original'</code><code>).extract_first()</code>

<code> </code><code>img_url </code><code>=</code> <code>item.select(</code><code>'.//div[@class="thumbs_b"]/a/img/@src'</code><code>).extract_first()</code>

<code> </code><code>img_url </code><code>=</code> <code>img_url.strip(</code><code>"/"</code><code>)</code>

<code> </code><code>title </code><code>=</code> <code>item.select(</code><code>'.//div[@class="indexs"]/h2/a/text()'</code><code>).extract_first()</code>

<code> </code><code>content </code><code>=</code> <code>item.select(</code><code>'.//div[@class="indexs"]/text()'</code><code>).extract()[</code><code>3</code><code>]</code>

<code> </code><code>content </code><code>=</code> <code>content.strip()</code>

<code> </code><code>obj </code><code>=</code> <code>JiandanItem(title</code><code>=</code><code>title, img_url</code><code>=</code><code>img_url, content</code><code>=</code><code>content)</code>

<code> </code><code>yield</code> <code>obj</code>

<code> </code><code>pipelines.py</code><code>#資料存儲腳本</code>

<code> </code><code>import</code> <code>json</code>

<code>import</code> <code>os</code>

<code>import</code> <code>requests</code>

<code># class JiandanPipeline(object):</code>

<code># def process_item(self, item, spider):</code>

<code># return item</code>

<code>class</code> <code>JsonPipeline(</code><code>object</code><code>): </code><code>#items.py設定的字段存儲方式</code>

<code> </code><code>self</code><code>.</code><code>file</code> <code>=</code> <code>open</code><code>(</code><code>'jiandan.txt'</code><code>, </code><code>'w'</code><code>)</code>

<code> </code><code>def</code> <code>process_item(</code><code>self</code><code>, item, spider):</code>

<code> </code><code>v </code><code>=</code> <code>json.dumps(</code><code>dict</code><code>(item), ensure_ascii</code><code>=</code><code>False</code><code>)</code>

<code> </code><code>self</code><code>.</code><code>file</code><code>.write(v)</code>

<code> </code><code>self</code><code>.</code><code>file</code><code>.write(</code><code>'\n'</code><code>)</code>

<code> </code><code>self</code><code>.</code><code>file</code><code>.flush()</code>

<code> </code><code>return</code> <code>item</code>

<code>class</code> <code>FilePipeline(</code><code>object</code><code>): </code><code>#圖檔url存儲方式</code>

<code> </code><code>if</code> <code>not</code> <code>os.path.exists(</code><code>'imgs'</code><code>):</code>

<code> </code><code>os.makedirs(</code><code>'imgs'</code><code>)</code>

<code> </code><code>response </code><code>=</code> <code>requests.get(item[</code><code>'img_url'</code><code>],stream</code><code>=</code><code>True</code><code>)</code>

<code> </code><code>f.write(response.content)</code>

<code>settings.py</code><code>#設定存儲</code>

<code>ITEM_PIPELINES </code><code>=</code> <code>{</code>

<code> </code><code>'jiandan.pipelines.JsonPipeline'</code><code>: </code><code>100</code><code>,</code>

<code> </code><code>'jiandan.pipelines.FilePipeline'</code><code>: </code><code>300</code><code>,</code>

<code>指令行輸出json檔案: scrapy crawl jiandan </code><code>-</code><code>o items.json</code>

本文轉自小白的希望 51CTO部落格，原文連結：http://blog.51cto.com/haoyonghui/1976840，如需轉載請自行聯系原作者

scrapy爬蟲學習

繼續閱讀

來自python的【條件控制/語句循環/break/continue/else/pass】一、條件控制二、語句循環

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入