反爬技術越來越成熟,為了爬取目标資料,必須對爬蟲的請求進行僞裝,騙過目标系統,目标系統通過判斷請求的通路頻次或請求參數将疑似爬蟲的ip進行封禁,要求進行安全驗證,通過python的第三方庫faker可以随機生成header僞裝請求頭,并且減緩爬蟲的爬取速度,能很好的避過多數目标系統的反扒機制,但對一些安全等級較高的系統,也有極大的可能ip被封禁,當ip被封禁後,通過更換代理ip便可以繼續爬取,是以具有一個有效的ip代理池是非常重要的,網上有很多動态ip代理提供商,但如果能有一個自己免費的ip代理池也是不錯的選擇。關注微信公衆号【菜鳥阿都】并回複:ip池,可獲得源碼。
ip代理池開發思路:
1.通過爬蟲技術爬取網際網路上免費的ip
2.通過校驗,将有效的ip儲存
免費ip代理商:
ip提供商
url
快代理
https://www.kuaidaili.com/free/inha
89免費代理
https://www.89ip.cn/index_1.html
高可用全球免費代理ip庫
https://ip.jiangxianli.com/
66代理
http://www.66ip.cn/2.html
封裝請求方法,當請求失敗後,會停留3秒再次發起請求,總共請求3次,使用faker庫,随機生成請求頭
擷取網頁提供的ip,總共爬取上述5個提供商提供的免費ip,頁面資料為表格,是以通過xpath定位表格爬取資料
通過ip代理請求,通路icanhazip網址校驗ip的有效性
将有效的ip寫入檔案,以供爬蟲使用
關注微信公衆号【菜鳥阿都】并回複:ip池 ,獲得源碼.