網站反爬蟲的目的和手段
1、通過User-Agent檢驗反爬
浏覽器在發送請求的時候,會附帶一部分浏覽器及其目前系統環境的參數給伺服器,伺服器會通過User-Agent的值來區分不同的浏覽器。
2、通過通路頻度反爬
➢普通使用者通過浏覽器通路網站的速度相對爬蟲而言要慢的多,是以不少網站會利用這一點對通路頻度設定一個門檻值,如果一個IP機關時間内通路頻度超過了預設的門檻值,将會對該IP做出通路限制。
➢通常需要經過驗證碼驗證後才能繼續正常通路,嚴重的甚至會禁
止該IP通路網站一段時間。
3、通過驗證碼檢驗反爬
有部分網站不論通路頻度如何,一定要來訪者輸入驗證碼才能繼續操作。例如12306網站,不關是登入還是購票,全部都需要驗證碼驗證,與通路頻度無關。
4、通過變換網頁結構反爬
一些社交網站常常會變換網頁結構,而爬蟲大部分情況下都需要通過網頁結構來解析需要的資料,是以這種做飯也能起來反爬蟲的作業。在網頁結構變換後,爬蟲往往無法在原本的網頁位置找到原本需要的内容。
5、通過賬号權限反爬
➢部分網站需要登入才能繼續操作,這部分網站雖然并不是為了反爬蟲才要求登入操作,但确實起到了反爬蟲的作用。
➢例如微網誌檢視評論就需要登入賬号。