天天看點

常見的反爬蟲和應對方法 (轉)

0x01 常見的反爬蟲

這幾天在爬一個網站,網站做了很多反爬蟲工作,爬起來有些艱難,花了一些時間才繞過反爬蟲。在這裡把我寫爬蟲以來遇到的各種反爬蟲政策和應對的方法總結一下。

從功能上來講,爬蟲一般分為資料采集,處理,儲存三個部分。這裡我們隻讨論資料采集部分。

一般網站從三個方面反爬蟲:使用者請求的Headers,使用者行為,網站目錄和資料加載方式。前兩種比較容易遇到,大多數網站都從這些角度來反爬蟲。第三種一些應用ajax的網站會采用,這樣增大了爬取的難度。

0x02 通過Headers反爬蟲

從使用者請求的Headers反爬蟲是最常見的反爬蟲政策。很多網站都會對Headers的User-Agent進行檢測,還有一部分網站會對Referer進行檢測(一些資源網站的防盜鍊就是檢測Referer)。如果遇到了這類反爬蟲機制,可以直接在爬蟲中添加Headers,将浏覽器的User-Agent複制到爬蟲的Headers中;或者将Referer值修改為目标網站域名。對于檢測Headers的反爬蟲,在爬蟲中修改或者添加Headers就能很好的繞過。

0x03 基于使用者行為反爬蟲

還有一部分網站是通過檢測使用者行為,例如同一IP短時間内多次通路同一頁面,或者同一賬戶短時間内多次進行相同操作。

大多數網站都是前一種情況,對于這種情況,使用IP代理就可以解決。可以專門寫一個爬蟲,爬取網上公開的代理ip,檢測後全部儲存起來。這樣的代理ip爬蟲經常會用到,最好自己準備一個。有了大量代理ip後可以每請求幾次更換一個ip,這在requests或者urllib2中很容易做到,這樣就能很容易的繞過第一種反爬蟲。

對于第二種情況,可以在每次請求後随機間隔幾秒再進行下一次請求。有些有邏輯漏洞的網站,可以通過請求幾次,登出,重新登入,繼續請求來繞過同一賬号短時間内不能多次進行相同請求的限制。

0x04 動态頁面的反爬蟲

上述的幾種情況大多都是出現在靜态頁面,還有一部分網站,我們需要爬取的資料是通過ajax請求得到,或者通過JavaScript生成的。首先用Firebug或者HttpFox對網絡請求進行分析。如果能夠找到ajax請求,也能分析出具體的參數和響應的具體含義,我們就能采用上面的方法,直接利用requests或者urllib2模拟ajax請求,對響應的json進行分析得到需要的資料。

能夠直接模拟ajax請求擷取資料固然是極好的,但是有些網站把ajax請求的所有參數全部加密了。我們根本沒辦法構造自己所需要的資料的請求。我這幾天爬的那個網站就是這樣,除了加密ajax參數,它還把一些基本的功能都封裝了,全部都是在調用自己的接口,而接口參數都是加密的。遇到這樣的網站,我們就不能用上面的方法了,我用的是selenium+phantomJS架構,調用浏覽器核心,并利用phantomJS執行js來模拟人為操作以及觸發頁面中的js腳本。從填寫表單到點選按鈕再到滾動頁面,全部都可以模拟,不考慮具體的請求和響應過程,隻是完完整整的把人浏覽頁面擷取資料的過程模拟一遍。

用這套架構幾乎能繞過大多數的反爬蟲,因為它不是在僞裝成浏覽器來擷取資料(上述的通過添加Headers一定程度上就是為了僞裝成浏覽器),它本身就是浏覽器,phantomJS就是一個沒有界面的浏覽器,隻是操控這個浏覽器的不是人。利用selenium+phantomJS能幹很多事情,例如識别點觸式(12306)或者滑動式的驗證碼,對頁面表單進行暴力破解等等。它在自動化滲透中還 會大展身手,以後還會提到這個。

繼續閱讀