天天看點

ChatGPT爬蟲類插件評測,最強的是一對組合

ChatGPT爬蟲類插件評測,最強的是一對組合

主要爬蟲插件

ChatGPT插件商店裡主要的爬取類插件有:Access Link, Web Request, WebPilot, Link Reader, Scraper, ChatWithWebSite。今天看看這幾個插件到底哪個最強。

普通網站的内容抓取

給了一個比較普通的靜态頁面類型的網頁,要求抓取對應的資料,并按要求的結構傳回結果:

請分别使用Webpilot,link reader, scraper讀取這個連結的内容:

https://www.toutiao.com/article/7240106043878097412/?channel=&source=search_tab

然後告訴我以下内容:

1. 标題:?

2. 作者:?

3. 發表時間:?

5. 頁面右邊欄其它文章的标題清單:?

從執行過程看,Webpilot, link reader, scraper三個插件都完成了任務,判斷的資料和位置都很準确,傳回結果如下:

根據我從網頁中擷取的資訊:

1. 标題:220+ ChatGPT插件分類介紹

2. 作者:飯西餅

3. 發表時間:2023-06-03 08:00

4. 頁面右邊欄其它文章的标題清單:

【國際漫評】滿紙舊夢

“太冷了,熬不下去了”,大批輔警選擇離職,理由太現實

以下略……

不過Access Link直接跪了,可能該插件抓取國内網站有點問題,我看它抓國外的新聞網站還是可以的。

Used Access Link

對不起,我在嘗試通路您提供的連結時遇到了問題。這可能是由于網絡問題或者該網頁的内容無法被我的系統解析。您能否提供其他連結,或者稍後再次嘗試通路這個連結?

使用ChatWithWebSite時,伺服器報錯,可能不是太穩定:

Error communicating with plugin service. Please try again later.

解析頁面連結能力測試

有時抓資料不止抓目前頁面的内容,還需要抓頁面的連結,以便繼續深度抓取網站的内容。稍微加大了一點難度,要求把指定區域的标題和連結都取出來:

分别用Scraper, Webpilot, link reader和WebRequest插件通路下面的網頁,然後通路資訊下面的新聞清單标題及對應的連結。 http://guba.eastmoney.com/o/list,600519,1,f.html

這回Scraper, Webpilot和WebRequest完成了任務,3個結果都是一樣的:

ChatGPT爬蟲類插件評測,最強的是一對組合

Scraper, Webpilot和WebRequest的結果

Link Reader無法解析HTML的連結:

ChatGPT爬蟲類插件評測,最強的是一對組合

Link Reader解析能力欠缺

抓取SPA網頁

使用類似AngularJS這類前端架構開發的網頁,資料和頁面結構是分離的,點選連結時頁面位址不會變化,前端通過JS異步擷取資料,再動态渲染出來。我不寫前端很久了,這段表述可能不太專業。這類網頁通常SEO不友好,抓取的時候也比較困難,一般要使用headless浏覽器工具轉成靜态頁面後再提取内容。下面用雪球的頁面來試試這些爬蟲插件的抓取能力:

使用xxx插件通路下面這個連結: https://xueqiu.com/S/SH600519 然後點選“公告”欄,擷取公告欄下面的前三個标題和連結

結果全軍覆沒,沒有一個能抓到資料,結果都和下面的差不多。

ChatGPT爬蟲類插件評測,最強的是一對組合

單獨各插件都無法抓到SPA網頁資料

不過意外發現,将Webpilot和Scraper組合後,可以正常抓取:

請使用Webpilot和Scraper插件通路下面這個連結: https://xueqiu.com/S/SH600519 然後點選“公告”欄,擷取公告欄下面的前三個标題和連結

組合後可以正确傳回結果:

ChatGPT爬蟲類插件評測,最強的是一對組合

組合後的結果

總結

Access Link國内網站不好用,Link Reader偏重于讀取頁面、PDF連結的内容,解析能力欠缺。WebPilot和Scraper差不多,最好的是将兩個組合使用,能爬絕大多數類型的網頁。資料解析在ChatGPT的幫助下,大部分情況下都識别正确。

另外提示一下,爬取時都是可以用提示語約定傳回的格式的,你可以讓ChatGPT傳回json, xml甚至是excel可直接處理的csv格式。指定格式後,擷取的資料可以直接用作下一步處理,不需要在手工整理資料。

有了ChatGPT4和這些插件,對非技術人員來說,大部分場景基本上可以平替市場上絕大部分的爬蟲功能,門檻比爬蟲工具低很多,智能資料識别也别大部分工具精确。由于GPT4 API仍然需要等待,GPT爬取仍然存在一些不穩定因素,在需要穩定可靠自動化的場景裡,仍然需要開發爬蟲程式來完成。