天天看點

谷歌“Excel”好強:不用自己寫代碼就能爬蟲,網友問微軟慌不慌

作者:量子位

豐色 發自 凹非寺

量子位 | 公衆号 QbitAI

家人們,要爬蟲——現在用一個電子表格就行了。

谷歌“Excel”好強:不用自己寫代碼就能爬蟲,網友問微軟慌不慌

一行代碼也别寫,第三方軟體也甭安。

隻需在表格裡點幾下就ok。

不信,你瞧:

就這麼兩下,網頁上的商品資訊都有了。

谷歌“Excel”好強:不用自己寫代碼就能爬蟲,網友問微軟慌不慌

網友看完都驚呆了,碼個不停。

谷歌“Excel”好強:不用自己寫代碼就能爬蟲,網友問微軟慌不慌

一看到這是來自谷歌的産品(Google Sheet,谷歌的“Excel”),大家就立馬cue起了微軟,問它慌不慌。

還有人稱這是在“跨界打擊”它。 (手動狗頭)

谷歌“Excel”好強:不用自己寫代碼就能爬蟲,網友問微軟慌不慌

△ 掃盲:“巨硬”就是微軟,網友給的調侃

好不熱鬧。

來看具體怎麼實作。

詳細步驟

以爬亞馬遜某個手機産品的商品頁為例。

我們先打開谷歌Sheet(網友版即可),建立一個文檔。

然後copy一下要爬的網址,粘進去。

谷歌“Excel”好強:不用自己寫代碼就能爬蟲,網友問微軟慌不慌

剩下的都在Sheet裡完成。

我們先列一下要爬的元素,這裡依次為:

商品圖檔-識别碼(asin,亞馬遜給每個商品生成的唯一辨別)-商品名-價格-評分-圖檔網址。

谷歌“Excel”好強:不用自己寫代碼就能爬蟲,網友問微軟慌不慌

然後就可以正式開始爬了。

要訣就是一個叫做ImportFromWeb的函數。

它也是個插件,沒有的需要先安裝一下(安裝位址放文末了),然後通過Google Sheet程式的“擴充程式”菜單導入就行。

谷歌“Excel”好強:不用自己寫代碼就能爬蟲,網友問微軟慌不慌

我們隻需把ImportFromWeb函數放進asin那一列,然後第一個參數選中剛剛粘過來的網址,第二個參數把要爬的元素單元格拖一遍(除了“圖檔”)。

稍等個1~2s,價格、商品名等資訊就都出來了!

谷歌“Excel”好強:不用自己寫代碼就能爬蟲,網友問微軟慌不慌

還差圖檔。

簡單~基操~

用IMAGE函數把G3格子裡得到的圖檔網址值給過去就行。

谷歌“Excel”好強:不用自己寫代碼就能爬蟲,網友問微軟慌不慌

至此,第一個商品頁裡的東西就爬到了。

唯一麻煩的是,如果還需要爬更多商品的資訊,需要把商品網址挨個粘一遍。

然後就沒啥了,除了給單元格位址的行标列标加一下絕對引用符“$”。

這裡可以不學視訊,直接一個f4就行。

拖一下,全部搞定!

谷歌“Excel”好強:不用自己寫代碼就能爬蟲,網友問微軟慌不慌

怎麼樣?是不是非常友善。

谷歌“Excel”好強:不用自己寫代碼就能爬蟲,網友問微軟慌不慌

看完整個操作,你也發現了,其實就是谷歌寫了個腳本給咱封裝好了直接用。

而據官方介紹,這個ImportFromWeb功能還能自動更新爬取到的資訊。

而且隻要是用JS寫的網站都可以爬(基本等于絕大數網站了),每個函數還可支援50個url,以及數千個資料點。

快點碼起來吧~

參考連結:

[1]https://weibo.com/1402400261/M9ZY84thO?filter=hot&root_comment_id=0&type=comment

[2]https://www.getapp.sg/software/2060417/importfromweb

[3]https://workspace.google.com/marketplace/app/importfromweb_web_scraping_in_google_she/278587576794(安裝ImportFromWeb)

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們,第一時間獲知前沿科技動态

繼續閱讀