天天看點

Crawler:基于urllib庫+實作爬蟲有道翻譯

輸出結果

後期更新……

設計思路

第一步:首先要知道,data裡面的内容是都需要在代碼中發送給伺服器的。

第二步:了解反爬蟲機制,找出加密參數。大多數網站的反爬蟲的機制是對向伺服器送出表單的動态值進行加密,是以,我們每翻譯一次,就觀察data裡面有哪些參數是動态變化的。從這個網址來看,參數salt、sign對應的值是動态變化。

第三步:找出動态參數的實作方式。根據反爬蟲經驗可知,一般網站生成的反爬加密值都是采用的時間戳,以及将一下字元串使用加密算法加密一下,我們可以從網頁源代碼中進行查找了解。

實作步驟

點選有道翻譯網頁源代碼,檢視NetWork欄下的相關資料的相關參數:

依次提取url、User-Agent、data

url =

head['User-Agent']=

data =

Crawler:基于urllib庫+實作爬蟲有道翻譯
Crawler:基于urllib庫+實作爬蟲有道翻譯
Crawler:基于urllib庫+實作爬蟲有道翻譯