天天看點

推薦一個網頁抓取小工具Web Scraper

想分享的這款工具是個Chrome下的插件,叫:Web Scraper,是一款可以從網頁中提取資料的Chrome網頁資料提取插件。在某種意義上,你也可以把它當做一個爬蟲工具。

第一步 建立Sitemap

打開Chrome浏覽器,按F12調出開發者工具,Web Scraper在最後一個頁簽,點選後,再選擇“Create Sitemap”菜單,點選“Create Sitemap”選項。

推薦一個網頁抓取小工具Web Scraper

首先輸入你想抓取的網站URL,以及你自定義的這條抓取任務的名字,比如我取的name是:xiniulevel,URL是:

http://www.xiniudata.com/industry/level

第二步 建立抓取節點

我想抓取的是一級标簽和二級标簽,是以先點進去剛才建立的Sitemap,再點選“Add new selector”,進入抓取節點選擇器配置頁,在頁面上點選“Select”按鈕,這時你會看到出現了一個浮層

這時當你滑鼠移入網頁時,會自動把某個你滑鼠懸停的位置綠色高亮。這時你可以先單擊一個你想選擇的區塊,會發現區塊變成了紅色,想把同一層級的區塊全選中,則可以繼續點選相鄰的下一個區塊,這時工具會預設選中所有同級的區塊,如下圖:

我們會發現下方懸浮窗的文本輸入框自動填充了區塊的XPATH路徑,接着點選“Done selecting!”結束選擇,懸浮框消失,選中的XPATH自動填充到下方Selector一行。另外務必選中“Multiple”,以聲明你要選多個區塊。最後點選Save selector按鈕結束。

第三步 擷取元素值

完成Selector的建立後,回到上一頁,你會發現多了一行Selector表格,接下來就可以直接點選Action中的Data preview,檢視所有想擷取的元素值。

上圖所示部分,是我已經添加了一級标簽和二級标簽兩個Selector的情況,點選Data preview的彈窗内容其實就是我想要的,直接複制到EXCEL就行了,也不用什麼太複雜的自動化爬取處理。

以上就是對Web Scraper使用過程的簡單介紹。當然我的用法還不是完全高效,因為每次想擷取二級标簽時還要先手動切換一級标簽,再執行抓取指令,應該還有更好的做法,不過對我而言已經足夠了。這篇文章主要是想和你普及下這款工具,不算教程,更多功能還是要根據你的需求自行摸索~

繼續閱讀