天天看点

如何测试爬虫ip的可用性

网络爬虫的应用极大的方便了人们,尤其是多线程多任务工作时,能够极大的提高信息采集工作效率。在使用爬虫IP时,经常会遇到代理时效的问题,那么我们该怎么检测代理是否正常 ?

静态独享、动态共享和动态独享通过API获取爬虫ip列表后,您就可以在程序里通过代理服务器获取网页数据。

隧道代理无需调用API获取代理,直接查看隧道的IP和端口号。

您获取的爬虫ip是这样的:122.96.59.105:23068 122.96.59.105 是代理服务器的IP地址;23068 是代理服务器的端口号。

爬虫IP验证

使用静态独享、动态独享和动态共享的IP需要进行授权验证,购买后只有通过您的用户名密码或设置您的IP白名单后才能使用。

隧道共享则是通过访问青果隧道服务器,服务器访问只对您的业务授权使用,同时支持用户名密码(Authkey和Authpwd)和IP白名单。

我们支持两种验证方式:

1、绑定您机器的IP作为白名单

如果是办公室电脑,可以访问 ip138.com 查询您的外网IP;

如果是Linux服务器,可以通过如下命令查看机器外网IP:curl https://d.qg.net/ip

进入平台中心,找到您所在的产品,管理白名单(包括添加删除白名单),白名单设置详情如下图:

image-20211026174537109image-20211026174620025      

2、帐密验证

进入平台,在您所在的爬虫ip业务找到用于爬虫ip验证的用户名密钥信息(Authkey和Authpwd)。

image-20211026175216540      

(1).HTTP代理

通过用户名密码的进行身份认证,格式如下:

curl -x http://{key}:{passwd}@{ip}:{port} {targetUrl}      

http/https代理,-x 填写的协议头只能是http,不能是https,如果填写下面那样的格式,将无法访问

curl -x https://{ip}:{port} {targetUrl}

(2).SOCKS代理

curl -x socks5://{ip}:{port} {targetUrl}      

curl返回的是未渲染的html内容,这属于正常现象,请参见代码样例 。

命令行测试

如果您的程序在Linux上运行,我们非常推荐您在命令行下先通过curl命令测试代理服务器的可用性,然后再进行编程。

例如您的用户名是huakeip,密码是huakeip2,提取到的爬虫ip是118.92.69.112:32105,IP白名单是36.90.191.92:32140,可执行如下命令测试代理可用性:

curl -x http://{authkey}:{authpwd}@{118.92.69.112}:{32105} {targetUrl}      
curl -x http://{36.90.191.92}:{32140} {targetUrl}      

继续阅读