天天看點

「低代碼爬蟲系列六」Automa實作批量百度搜尋的爬蟲

作者:一禾的認知覺醒之路

Automa是一款開源的圖形化&低代碼爬蟲工具,讓使用者在不懂代碼的情況下,通過拖拽方式做一些實用的爬蟲。例如爬取微網誌資訊、批量搜尋百度、解除某些網站不可複制限制、下載下傳抖音視訊、免費看VIP視訊等等。

本系列教程先介紹它的基本使用,然後基于它做一些有趣的項目實踐(包括但不限于上述所舉的例子)。前面文章我們介紹了制作天氣預報爬蟲、微網誌爬蟲、解除網頁不可複制限制等。

本文是該系列的第六篇文章,用Automa實作批量百度搜尋爬蟲。

一、問題導入

批量百度搜尋,指的是将一批檢索詞扔到百度搜尋引擎中,自動化擷取對應的搜尋結果。

有朋友問,這個功能的運用場景有哪些呢?

例如:你可能不知道這些問題的答案:x5是什麼、t3是什麼、長江大橋在哪裡。那麼你就可通過搜尋引擎來擷取答案。

二、功能實作

先看下整個工作流的實作。大緻的邏輯是:周遊每個搜尋詞,然後模拟輸入框輸入,模拟按下Enter鍵進行百度搜尋,擷取對應的自然結果标題和URL,最後導出資料。

「低代碼爬蟲系列六」Automa實作批量百度搜尋的爬蟲

我們介紹下這條工作流的各個元件。

1、觸發器 辨別 整條工作流的開始。

2、活動标簽頁

該元件指定在目前浏覽器活動頁面上進行操作,是以不需要URL參數。這裡預設活動頁是百度搜尋頁面。

3、循環資料

将我們要搜尋的所有query都放在這個循環資料 元件中,如下所示:

「低代碼爬蟲系列六」Automa實作批量百度搜尋的爬蟲

4、表單

這個元件的功能是模拟輸入表單。在這個工作流中,我們用它來模拟百度輸入框的輸入,參數如下。有朋友問,css選擇器裡的input#kw參數是怎麼擷取的?其實,如果對網頁知識不熟悉,可以通過系列一文章中使用的錄制功能來自動擷取。

「低代碼爬蟲系列六」Automa實作批量百度搜尋的爬蟲

5、按鍵

這個元件的功能是模拟鍵盤按鍵。在這裡,我們需要在輸入對應搜尋詞後,按下回車進行搜尋。

「低代碼爬蟲系列六」Automa實作批量百度搜尋的爬蟲

6、元素存在

該元件用于判斷頁面中是否有對應元素。我們用這個元件判斷搜尋結果是否已經有了。

7、子產品組

該元件的功能是将多個元件組成一個大元件。在這個工作流中,我們利用擷取文本元件來得到自然結果标題,利用屬性值元件來擷取對應的URL。具體參數如下,注意勾選多選,否則隻能獲得第一個标題和URL。

「低代碼爬蟲系列六」Automa實作批量百度搜尋的爬蟲
「低代碼爬蟲系列六」Automa實作批量百度搜尋的爬蟲

8、循環斷點 和 導出資料

這兩個元件在之前文章中已多次使用,這裡不再贅述。

通過上述操作,我們實作了批量百度搜尋的爬蟲。最後,我們來看下整個工作流的運作。

「低代碼爬蟲系列六」Automa實作批量百度搜尋的爬蟲

(如果需要完整例子項目檔案、或者對步驟還存在疑問的朋友,可以在評論區留言或者私信)

後面文章會做一些更複雜、更有趣的例子,敬請期待~

如果你有什麼想做的爬蟲,也可以在評論區留言哦~

繼續閱讀