天天看點

不用寫代碼的爬蟲:用chrome浏覽器的爬蟲插件Web Scraper爬取豆瓣卡通片電影并運用CouchDB使爬取到的資料有序

用chrome浏覽器的爬蟲插件Web Scraper爬取豆瓣卡通片電影。

首先我們來到目标站點:https://movie.douban.com/typerank?type_name=動畫&type=25&interval_id=100:90&action= ,主要是爬取好于100%-90%的卡通片,可以看到一共有103部。往下滑動滑鼠可以看到會出現更多的卡通片資訊,然而我們的位址欄中的URL并沒有改變,可見其資料的加載方式是通過發送Ajax請求後擷取到的。對于這種資料加載方式,一般我們的爬蟲程式會先去找URL的發送規律,而對于爬蟲插件Web Scraper,我們隻需模拟滑動滑鼠,然後填寫提取規律即可。操作如下(詳細操作請前往我的網盤下載下傳(https://pan.baidu.com/s/1u2QhilxcM_bnBxVnyuUwmA)可檢視操作步驟。):

**1.**首先打開chrome浏覽器的開發者工具,切換到Web Scraper,點選Create new sitemap建立新項目,輸入項目名及初始網址後點選Create sitemap,流程如下圖所示:

不用寫代碼的爬蟲:用chrome浏覽器的爬蟲插件Web Scraper爬取豆瓣卡通片電影并運用CouchDB使爬取到的資料有序

2點選Add new selector按鈕建立一個元素選擇器,該選擇器主要是用來選擇包含多個資料内容的元素,其會傳回每個選擇元素作為子選擇器的母元素,b并且實作滑鼠往下拖動,具體操作及填寫内容如下:

不用寫代碼的爬蟲:用chrome浏覽器的爬蟲插件Web Scraper爬取豆瓣卡通片電影并運用CouchDB使爬取到的資料有序

**3.**點選movie按鈕後,點選Add new selector按鈕建立一個子元素選擇器,分别為标題title,排名rank,演員actor,評分score,評論數comment-num。以建立title選擇器為例,其他選擇器隻需修改為相應的id和selector後即可,操作如下圖:

不用寫代碼的爬蟲:用chrome浏覽器的爬蟲插件Web Scraper爬取豆瓣卡通片電影并運用CouchDB使爬取到的資料有序

4子選擇器全建立好後,點選Sitemap douban并選擇Scrape,最後點選Start scraping開始爬蟲。爬取時會彈去一個視窗顯示進度,待爬蟲結束後視窗會關閉,點選refresh即可得到資料,部分結果如下:

不用寫代碼的爬蟲:用chrome浏覽器的爬蟲插件Web Scraper爬取豆瓣卡通片電影并運用CouchDB使爬取到的資料有序