天天看点

爬虫使用随机 User-Agent 时遇到的坑

问题:使用 fake_useragent 生成的随机 User-Agent 请求亚马逊网站的时候,在对爬取到的页面使用 xpath 进行数据提取时,

有时候正常返回,有时候返回的是一个空列表。

原因:生成的一部分 User-Agent 去请求的时候,其实并没有请求成功,返回的是输入验证码的页面。

爬虫使用随机 User-Agent 时遇到的坑

解决办法:可以建立一个随机ua池,将有效的 User-Agent 放到代理池中, 需要使用 User-Agent 时随机获取一条。