不用寫代碼的爬蟲：用chrome浏覽器的爬蟲插件Web Scraper爬取豆瓣卡通片電影并運用CouchDB使爬取到的資料有序

2023-04-14 17:45:31

用chrome浏覽器的爬蟲插件Web Scraper爬取豆瓣卡通片電影。

首先我們來到目标站點：https://movie.douban.com/typerank?type_name=動畫&type=25&interval_id=100:90&action= ，主要是爬取好于100%-90%的卡通片，可以看到一共有103部。往下滑動滑鼠可以看到會出現更多的卡通片資訊，然而我們的位址欄中的URL并沒有改變，可見其資料的加載方式是通過發送Ajax請求後擷取到的。對于這種資料加載方式，一般我們的爬蟲程式會先去找URL的發送規律，而對于爬蟲插件Web Scraper，我們隻需模拟滑動滑鼠，然後填寫提取規律即可。操作如下（詳細操作請前往我的網盤下載下傳(https://pan.baidu.com/s/1u2QhilxcM_bnBxVnyuUwmA)可檢視操作步驟。）：

**1.**首先打開chrome浏覽器的開發者工具，切換到Web Scraper，點選Create new sitemap建立新項目，輸入項目名及初始網址後點選Create sitemap，流程如下圖所示：

不用寫代碼的爬蟲：用chrome浏覽器的爬蟲插件Web Scraper爬取豆瓣卡通片電影并運用CouchDB使爬取到的資料有序

2點選Add new selector按鈕建立一個元素選擇器，該選擇器主要是用來選擇包含多個資料内容的元素，其會傳回每個選擇元素作為子選擇器的母元素，b并且實作滑鼠往下拖動，具體操作及填寫内容如下：

不用寫代碼的爬蟲：用chrome浏覽器的爬蟲插件Web Scraper爬取豆瓣卡通片電影并運用CouchDB使爬取到的資料有序

**3.**點選movie按鈕後，點選Add new selector按鈕建立一個子元素選擇器，分别為标題title，排名rank，演員actor，評分score，評論數comment-num。以建立title選擇器為例，其他選擇器隻需修改為相應的id和selector後即可，操作如下圖：

不用寫代碼的爬蟲：用chrome浏覽器的爬蟲插件Web Scraper爬取豆瓣卡通片電影并運用CouchDB使爬取到的資料有序

4子選擇器全建立好後，點選Sitemap douban并選擇Scrape，最後點選Start scraping開始爬蟲。爬取時會彈去一個視窗顯示進度，待爬蟲結束後視窗會關閉，點選refresh即可得到資料，部分結果如下：

不用寫代碼的爬蟲：用chrome浏覽器的爬蟲插件Web Scraper爬取豆瓣卡通片電影并運用CouchDB使爬取到的資料有序

不用寫代碼的爬蟲：用chrome浏覽器的爬蟲插件Web Scraper爬取豆瓣卡通片電影并運用CouchDB使爬取到的資料有序

用chrome浏覽器的爬蟲插件Web Scraper爬取豆瓣卡通片電影。

繼續閱讀

v2ex的簡單爬蟲

Python漫畫爬蟲開源 66漫畫 AJAX，包含資料庫連接配接，圖檔下載下傳處理

requests子產品進行人人網模拟登陸

Python image.show() 出錯FSPathMakeRef(/Applications/Preview.app) failed with error -43

2023爬蟲學習筆記 -- 多線程操作

M團店鋪評價采集不到問題問題展示：解決方案：

Python爬蟲學習（1）

Python爬蟲學習進階

Python爬蟲（入門+進階）學習筆記 1-2 初識Python爬蟲

Python進階爬蟲——Class1：認識爬蟲

python爬蟲學習筆記-1

python學習之urllib使用小結

NOIp模拟題之肮髒的牧師（桶排序）

一篇文章教你如何在一個月内學會爬取大規模資料

Pyhton爬蟲實戰 - 抓取BOSS直聘職位描述和資料清洗Pyhton爬蟲實戰 - 抓取BOSS直聘職位描述和資料清洗

sort()函數到底是怎樣進行數字排序的