Scrapy爬蟲爬取書籍網站資訊（一）

2023-03-17 11:05:19

本文運用了Scrapy爬蟲的知識，爬取了點選打開連結網站中的書籍資訊，可以了解到基本Scrapy爬蟲架構的使用方法。

一、項目需求：

1、其中每本書的資訊包括：書名、價格、評價等級、産品編碼、庫存量、評價數量。

2、将爬取的結果儲存到csv檔案中。

二、在前期分析網頁頁面時，可以用Chrome開發者工具，也可以用scrapy shell<URL>指令，如下：

Chrome開發者工具這裡不做介紹了，第二種方法在指令提示符下輸入scrapy shell<URL>即可在互動式指令下操作一個Scrapy爬蟲，如：scrapy shell http://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html，（這裡操作的是第一本書籍的頁面），部分截圖如下：

Scrapy爬蟲爬取書籍網站資訊（一）

接下來，在scrapy shell中調用view函數，在浏覽器中顯示response所包含的頁面：即輸入：view（response）

在進行頁面分析時，使用view函數打開的頁面要比使用Chrome審查元素工具更加可靠。如下圖：

Scrapy爬蟲爬取書籍網站資訊（一）

********************************************************************************************************************************

Scrapy爬蟲爬取書籍網站資訊（一）

分析完書籍頁面後，接着分析如何在書籍清單頁面中提取每一本書籍頁面的連結。在scrapy shell中，先調用fetch函數下載下傳第一個書籍清單頁面（http://books.toscrape.com/),下載下傳完後再調用view函數在浏覽器中檢視頁面。

Scrapy爬蟲爬取書籍網站資訊（一）

到此，頁面分析工作已經完成了。

Scrapy爬蟲爬取書籍網站資訊（一）

繼續閱讀

Scrapy抓取知乎網站

python基礎第二篇python基礎二月紅

Scrapy實作微網誌關鍵詞爬蟲（爬蟲結果寫入mongodb）

Python 幾種資料結構的性能比較

Python并發網絡庫 Tornado / Gevent 和異步程式設計庫 Asyncio 及其示例

python 清單元組轉字典

如何利用Python抓取網頁資訊

scrapy爬取某網站文章

Scrapy--CrawlSpider全站爬取

Scrapy實作爬取新浪微網誌使用者資訊（爬蟲結果寫入mongodb）

《Python從小白到大牛》簡介

Python中字元串常見操作總結

Scrapy Crawl 運作出錯 AttributeError: 'xxxSpider' object has no attribute '_rules' 的問題解決

10.5 Python導出爬取的資料至資料庫并繪圖分析

Python中單引号，雙引号，3個單引号及3個雙引号的差別單引号和雙引号3個單引号及3個雙引号

Python3學習筆記_if+for+while_20200423