初識反爬蟲

2022-09-23 10:25:39

網站反爬蟲的目的和手段

浏覽器在發送請求的時候，會附帶一部分浏覽器及其目前系統環境的參數給伺服器，伺服器會通過User-Agent的值來區分不同的浏覽器。

➢普通使用者通過浏覽器通路網站的速度相對爬蟲而言要慢的多，是以不少網站會利用這一點對通路頻度設定一個門檻值，如果一個IP機關時間内通路頻度超過了預設的門檻值，将會對該IP做出通路限制。

➢通常需要經過驗證碼驗證後才能繼續正常通路，嚴重的甚至會禁

止該IP通路網站一段時間。

有部分網站不論通路頻度如何，一定要來訪者輸入驗證碼才能繼續操作。例如12306網站，不關是登入還是購票，全部都需要驗證碼驗證，與通路頻度無關。

一些社交網站常常會變換網頁結構，而爬蟲大部分情況下都需要通過網頁結構來解析需要的資料，是以這種做飯也能起來反爬蟲的作業。在網頁結構變換後，爬蟲往往無法在原本的網頁位置找到原本需要的内容。

➢部分網站需要登入才能繼續操作，這部分網站雖然并不是為了反爬蟲才要求登入操作，但确實起到了反爬蟲的作用。

➢例如微網誌檢視評論就需要登入賬号。