天天看點

如何測試爬蟲ip的可用性

網絡爬蟲的應用極大的友善了人們,尤其是多線程多任務工作時,能夠極大的提高資訊采集工作效率。在使用爬蟲IP時,經常會遇到代理時效的問題,那麼我們該怎麼檢測代理是否正常 ?

靜态獨享、動态共享和動态獨享通過API擷取爬蟲ip清單後,您就可以在程式裡通過代理伺服器擷取網頁資料。

隧道代理無需調用API擷取代理,直接檢視隧道的IP和端口号。

您擷取的爬蟲ip是這樣的:122.96.59.105:23068 122.96.59.105 是代理伺服器的IP位址;23068 是代理伺服器的端口号。

爬蟲IP驗證

使用靜态獨享、動态獨享和動态共享的IP需要進行授權驗證,購買後隻有通過您的使用者名密碼或設定您的IP白名單後才能使用。

隧道共享則是通過通路青果隧道伺服器,伺服器通路隻對您的業務授權使用,同時支援使用者名密碼(Authkey和Authpwd)和IP白名單。

我們支援兩種驗證方式:

1、綁定您機器的IP作為白名單

如果是辦公室電腦,可以通路 ip138.com 查詢您的外網IP;

如果是Linux伺服器,可以通過如下指令檢視機器外網IP:curl https://d.qg.net/ip

進入平台中心,找到您所在的産品,管理白名單(包括添加删除白名單),白名單設定詳情如下圖:

image-20211026174537109image-20211026174620025      

2、帳密驗證

進入平台,在您所在的爬蟲ip業務找到用于爬蟲ip驗證的使用者名密鑰資訊(Authkey和Authpwd)。

image-20211026175216540      

(1).HTTP代理

通過使用者名密碼的進行身份認證,格式如下:

curl -x http://{key}:{passwd}@{ip}:{port} {targetUrl}      

http/https代理,-x 填寫的協定頭隻能是http,不能是https,如果填寫下面那樣的格式,将無法通路

curl -x https://{ip}:{port} {targetUrl}

(2).SOCKS代理

curl -x socks5://{ip}:{port} {targetUrl}      

curl傳回的是未渲染的html内容,這屬于正常現象,請參見代碼樣例 。

指令行測試

如果您的程式在Linux上運作,我們非常推薦您在指令行下先通過curl指令測試代理伺服器的可用性,然後再進行程式設計。

例如您的使用者名是huakeip,密碼是huakeip2,提取到的爬蟲ip是118.92.69.112:32105,IP白名單是36.90.191.92:32140,可執行如下指令測試代理可用性:

curl -x http://{authkey}:{authpwd}@{118.92.69.112}:{32105} {targetUrl}      
curl -x http://{36.90.191.92}:{32140} {targetUrl}      

繼續閱讀