天天看點

Scrapy爬蟲爬取書籍網站資訊(一)

本文運用了Scrapy爬蟲的知識,爬取了點選打開連結網站中的書籍資訊,可以了解到基本Scrapy爬蟲架構的使用方法。

一、項目需求:

     1、其中每本書的資訊包括:書名、價格、評價等級、産品編碼、庫存量、評價數量。

     2、将爬取的結果儲存到csv檔案中。

二、在前期分析網頁頁面時,可以用Chrome開發者工具,也可以用scrapy shell<URL>指令,如下:

Chrome開發者工具這裡不做介紹了,第二種方法在指令提示符下輸入scrapy shell<URL>即可在互動式指令下操作一個Scrapy爬蟲,如:scrapy shell http://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html,(這裡操作的是第一本書籍的頁面),部分截圖如下:

Scrapy爬蟲爬取書籍網站資訊(一)

接下來,在scrapy shell中調用view函數,在浏覽器中顯示response所包含的頁面:即輸入:view(response)

在進行頁面分析時,使用view函數打開的頁面要比使用Chrome審查元素工具更加可靠。如下圖:

Scrapy爬蟲爬取書籍網站資訊(一)

********************************************************************************************************************************

Scrapy爬蟲爬取書籍網站資訊(一)

分析完書籍頁面後,接着分析如何在書籍清單頁面中提取每一本書籍頁面的連結。在scrapy shell中,先調用fetch函數下載下傳第一個書籍清單頁面(http://books.toscrape.com/),下載下傳完後再調用view函數在浏覽器中檢視頁面。

Scrapy爬蟲爬取書籍網站資訊(一)
Scrapy爬蟲爬取書籍網站資訊(一)

到此,頁面分析工作已經完成了。

繼續閱讀