天天看點

初識反爬蟲

網站反爬蟲的目的和手段

1、通過User-Agent檢驗反爬

浏覽器在發送請求的時候,會附帶一部分浏覽器及其目前系統環境的參數給伺服器,伺服器會通過User-Agent的值來區分不同的浏覽器。

初識反爬蟲

2、通過通路頻度反爬

➢普通使用者通過浏覽器通路網站的速度相對爬蟲而言要慢的多,是以不少網站會利用這一點對通路頻度設定一個門檻值,如果一個IP機關時間内通路頻度超過了預設的門檻值,将會對該IP做出通路限制。

➢通常需要經過驗證碼驗證後才能繼續正常通路,嚴重的甚至會禁

止該IP通路網站一段時間。

初識反爬蟲

3、通過驗證碼檢驗反爬

有部分網站不論通路頻度如何,一定要來訪者輸入驗證碼才能繼續操作。例如12306網站,不關是登入還是購票,全部都需要驗證碼驗證,與通路頻度無關。

初識反爬蟲

4、通過變換網頁結構反爬

一些社交網站常常會變換網頁結構,而爬蟲大部分情況下都需要通過網頁結構來解析需要的資料,是以這種做飯也能起來反爬蟲的作業。在網頁結構變換後,爬蟲往往無法在原本的網頁位置找到原本需要的内容。

初識反爬蟲

5、通過賬号權限反爬

➢部分網站需要登入才能繼續操作,這部分網站雖然并不是為了反爬蟲才要求登入操作,但确實起到了反爬蟲的作用。

➢例如微網誌檢視評論就需要登入賬号。

爬取政策制定

繼續閱讀