爬蟲 反爬蟲

轉載

連結：https://www.zhihu.com/question/28168585/answer/74840535

來源：知乎

爬蟲(Spider)，反爬蟲(Anti-Spider)，反反爬蟲(Anti-Anti-Spider)，這之間的鬥争恢宏壯闊...

Day 1

小莫想要某站上所有的電影，寫了标準的爬蟲(基于HttpClient庫)，不斷地周遊某站的電影清單頁面，根據 Html 分析電影名字存進自己的資料庫。

這個站點的運維小黎發現某個時間段請求量陡增，分析日志發現都是 IP(1.1.1.1)這個使用者，并且 useragent 還是 JavaClient1.6 ，基于這兩點判斷非人類後直接在Nginx 伺服器上封殺。

Day 2

小莫電影隻爬了一半，于是也針對性的變換了下政策：1. useragent 模仿百度("Baiduspider...")，2. IP每爬半個小時就換一個IP代理。

小黎也發現了對應的變化，于是在 Nginx 上設定了一個頻率限制，每分鐘超過120次請求的再屏蔽IP。同時考慮到百度家的爬蟲有可能會被誤傷，想想市場部門每月幾十萬的投放，于是寫了個腳本，通過 hostname 檢查下這個 ip 是不是真的百度家的，對這些 ip 設定一個白名單。

Day 3

小莫發現了新的限制後，想着我也不急着要這些資料，留給伺服器慢慢爬吧，于是修改了代碼，随機1-3秒爬一次，爬10次休息10秒，每天隻在8-12，18-20點爬，隔幾天還休息一下。

小黎看着新的日志頭都大了，再設定規則不小心會誤傷真實使用者，于是準備換了一個思路，當3個小時的總請求超過50次的時候彈出一個驗證碼彈框，沒有準确正确輸入的話就把 IP 記錄進黑名單。

Day 4

小莫看到驗證碼有些傻臉了，不過也不是沒有辦法，先去學習了圖像識别（關鍵詞 PIL，tesseract），再對驗證碼進行了二值化，分詞，模式訓練之後，識别了小黎的驗證碼（關于驗證碼，驗證碼的識别，驗證碼的反識别也是一個恢弘壯麗的鬥争史，這裡先不展開....），之後爬蟲又跑了起來。

小黎是個不折不撓的好同學，看到驗證碼被攻破後，和開發同學商量了變化下開發模式，資料并不再直接渲染，而是由前端同學異步擷取，并且通過 js 的加密庫生成動态的 token，同時加密庫再進行混淆（比較重要的步驟的确有網站這樣做，參見微網誌的登陸流程）。

Day5

混淆過的加密庫就沒有辦法了麼？當然不是，可以慢慢調試，找到加密原理，不過小莫不準備用這麼耗時耗力的方法，他放棄了基于 HttpClient的爬蟲，選擇了内置浏覽器引擎的爬蟲(關鍵詞：PhantomJS，Selenium)，在浏覽器引擎中js 加密腳本算出了正确的結果，又一次拿到了對方的資料。

小黎：.....

爬蟲與發爬蟲的鬥争還在繼續。

不過實際應用時候，一般大家做到根據 IP 限制頻次就結束了，除非很核心的資料，不會再進行更多的驗證，畢竟工程的問題一半是成本的問題。

至于高效部分，一些 Tips：

1.盡量減少請求次數，能抓清單頁就不抓詳情頁

2.不要隻看 Web 網站，還有 App 和 H5，他們的反爬蟲措施一般比較少

3.如果真的對性能要求很高，可以考慮多線程(一些成熟的架構如 scrapy都已支援)，甚至分布式

爬蟲反爬蟲