主要爬蟲插件

ChatGPT插件商店裡主要的爬取類插件有：Access Link, Web Request, WebPilot, Link Reader, Scraper, ChatWithWebSite。今天看看這幾個插件到底哪個最強。

普通網站的内容抓取

給了一個比較普通的靜态頁面類型的網頁，要求抓取對應的資料，并按要求的結構傳回結果：

請分别使用Webpilot，link reader, scraper讀取這個連結的内容：

https://www.toutiao.com/article/7240106043878097412/?channel=&source=search_tab

然後告訴我以下内容：

1. 标題：？

2. 作者：？

3. 發表時間：？

5. 頁面右邊欄其它文章的标題清單：？

從執行過程看，Webpilot, link reader, scraper三個插件都完成了任務，判斷的資料和位置都很準确，傳回結果如下：

根據我從網頁中擷取的資訊：

1. 标題：220+ ChatGPT插件分類介紹

2. 作者：飯西餅

3. 發表時間：2023-06-03 08:00

4. 頁面右邊欄其它文章的标題清單：

【國際漫評】滿紙舊夢

“太冷了，熬不下去了”，大批輔警選擇離職，理由太現實

以下略……

不過Access Link直接跪了，可能該插件抓取國内網站有點問題，我看它抓國外的新聞網站還是可以的。

Used Access Link

對不起，我在嘗試通路您提供的連結時遇到了問題。這可能是由于網絡問題或者該網頁的内容無法被我的系統解析。您能否提供其他連結，或者稍後再次嘗試通路這個連結？

使用ChatWithWebSite時，伺服器報錯，可能不是太穩定：

Error communicating with plugin service. Please try again later.

解析頁面連結能力測試

有時抓資料不止抓目前頁面的内容，還需要抓頁面的連結，以便繼續深度抓取網站的内容。稍微加大了一點難度，要求把指定區域的标題和連結都取出來：

分别用Scraper, Webpilot, link reader和WebRequest插件通路下面的網頁，然後通路資訊下面的新聞清單标題及對應的連結。 http://guba.eastmoney.com/o/list,600519,1,f.html

這回Scraper, Webpilot和WebRequest完成了任務，3個結果都是一樣的：

Scraper, Webpilot和WebRequest的結果

Link Reader無法解析HTML的連結：

Link Reader解析能力欠缺

抓取SPA網頁

使用類似AngularJS這類前端架構開發的網頁，資料和頁面結構是分離的，點選連結時頁面位址不會變化，前端通過JS異步擷取資料，再動态渲染出來。我不寫前端很久了，這段表述可能不太專業。這類網頁通常SEO不友好，抓取的時候也比較困難，一般要使用headless浏覽器工具轉成靜态頁面後再提取内容。下面用雪球的頁面來試試這些爬蟲插件的抓取能力：

使用xxx插件通路下面這個連結： https://xueqiu.com/S/SH600519 然後點選“公告”欄，擷取公告欄下面的前三個标題和連結

結果全軍覆沒，沒有一個能抓到資料，結果都和下面的差不多。

單獨各插件都無法抓到SPA網頁資料

不過意外發現，将Webpilot和Scraper組合後，可以正常抓取：

請使用Webpilot和Scraper插件通路下面這個連結： https://xueqiu.com/S/SH600519 然後點選“公告”欄，擷取公告欄下面的前三個标題和連結

組合後可以正确傳回結果：

組合後的結果

總結

Access Link國内網站不好用，Link Reader偏重于讀取頁面、PDF連結的内容，解析能力欠缺。WebPilot和Scraper差不多，最好的是将兩個組合使用，能爬絕大多數類型的網頁。資料解析在ChatGPT的幫助下，大部分情況下都識别正确。

另外提示一下，爬取時都是可以用提示語約定傳回的格式的，你可以讓ChatGPT傳回json, xml甚至是excel可直接處理的csv格式。指定格式後，擷取的資料可以直接用作下一步處理，不需要在手工整理資料。

有了ChatGPT4和這些插件，對非技術人員來說，大部分場景基本上可以平替市場上絕大部分的爬蟲功能，門檻比爬蟲工具低很多，智能資料識别也别大部分工具精确。由于GPT4 API仍然需要等待，GPT爬取仍然存在一些不穩定因素，在需要穩定可靠自動化的場景裡，仍然需要開發爬蟲程式來完成。

ChatGPT爬蟲類插件評測，最強的是一對組合

普通網站的内容抓取

解析頁面連結能力測試

抓取SPA網頁

總結