天天看點

scrapy爬取某網站文章

scrapy簡單介紹

scrapy是一款優秀的python爬蟲架構,使用scrapy可以很容易也很高效的爬取某些網站的大批量資料,由于scrapy架構底層對爬蟲要做的工作做了很多內建和封裝,是以對于開發人員來講,隻需要搞清楚scrapy爬蟲的原理,使用的技巧以及運作時各個元件的作用,然後基于各個元件最終爬取到的資料是如何處理的,掌握這些即可,業務代碼和爬取到的資料處理,比如将爬取的資料是寫到本地磁盤?還是寫到mysql?還是推送到中間件供其他的業務使用?這些都是後續的問題

scrapy工作架構圖

scrapy爬取某網站文章
  1. Scrapy Engine(引擎): 引擎負責控制資料流在系統的所有元件中流動,并在相應動作發生時觸發事件。
  2. Scheduler(排程器): 排程器從引擎接受request并将他們入隊,以便之後引擎請求他們時提供給引擎。
  3. Downloader(下載下傳器): 下載下傳器負責擷取頁面資料并提供給引擎,而後提供給spider。
  4. Spider(爬蟲): Spider是Scrapy使用者編寫用于分析response并提取item(即擷取到的item)或額外跟進的URL的類。 每個spider負責處理一個特定(或一些)網站。