天天看點

scrapy使用crawlspider

crawlspider介紹

CrawlSpider它是Spider的派生類,Spider類的設計原則是隻爬取start_url清單中的網頁,而CrawlSpider類定義了一些規則Rule來提供跟進連結的友善的機制,從爬取的網頁結果中擷取連結并繼續爬取的工作

舉個簡單的例子說明,我們需要提取下面的網站中每篇文章中的一些資料,如果每一頁提取,隻能提取基本的資料,而文章的作者,标題,内容,評論等資訊都在詳情頁面才有,這時,繼續使原來的方式提取文章就不好使了,這就需要crawlspider幫助我們完成這樣的需求

scrapy使用crawlspider
scrapy使用crawlspider

我們以微信社群小程式網站為例來進行說明

建立項目,使用crawlspider在建立項目時稍有不同,步驟如下,

scrapy st