####
首先是如何能避免封ip?
然後是封了ip怎麼辦?
###
如何避免封ip,
1,ua方面,盡量模拟浏覽器的通路,比如useragent,盡量使用不同的ua,可以增加随機選擇ua的功能,頻繁切換UserAgent(模拟浏覽器通路)
2,頻率通路,降低采集頻率,時間設定長一些,通路時間采用随機數
3,多頁面資料,随機通路然後抓取資料,通路頁面的順序也可以随機着來
4,更換使用者IP,這是最直接有效的方法!
網站封的依據一般是機關時間内特定IP的通路次數.将采集的任務按目标站點的IP進行分組通過控制每個IP在機關時間内發出任務的個數,來避免被封.當然,這個前題采集很多網站.如果隻是采集一個網站,那麼隻能通過多外部IP的方式來實作了.
解決ip封禁問題,
1,免費ip,這個不穩定,但是不需要成本,
2,收費ip,比如芝麻代理,這個成本比較高,使用簡單,
3,vps撥号,這個成本會相對低,配置複雜一些,
免費ip
這些IP可以從這個幾個網站擷取:快代理、代理66、有代理、西刺代理、guobanjia。
如果出現像下面這種提示:“由于連接配接方在一段時間後沒有正确答複或連接配接的主機沒有反應,連接配接嘗試失敗”或者是這種,” 由 于目标計算機積極拒絕,無法連接配接。”. 那就是IP的問題,更換就行了。。。。發現上面好多IP都不能用。。
#####