网站反爬虫的目的和手段
1、通过User-Agent检验反爬
浏览器在发送请求的时候,会附带一部分浏览器及其当前系统环境的参数给服务器,服务器会通过User-Agent的值来区分不同的浏览器。
![](https://img.laitimes.com/img/_0nNw4CM6IyYiwiM6ICdiwiI0gTMx81dsQWZ4lmZf1GLlpXazVmcvwFciV2dsQXYtJ3bm9CX9s2RkBnVHFmb1clWvB3MaVnRtp1XlBXe0xCMy81dvRWYoNHLwEzX5xCMx8FesU2cfdGLwMzX0xiRGZkRGZ0Xy9GbvNGLpZTY1EmMZVDUSFTU4VFRR9Fd4VGdsYTMfVmepNHLrJXYtJXZ0F2dvwVZnFWbp1zczV2YvJHctM3cv1Ce-cmbw5yMzgTN4QDNzIWYlBTYxQmMzYzX0MTOyATMzIzLclDMyIDMy8CXn9Gbi9CXzV2Zh1WavwVbvNmLvR3YxUjLyM3Lc9CX6MHc0RHaiojIsJye.png)
2、通过访问频度反爬
➢普通用户通过浏览器访问网站的速度相对爬虫而言要慢的多,所以不少网站会利用这一点对访问频度设定一个阈值,如果一个IP单位时间内访问频度超过了预设的阈值,将会对该IP做出访问限制。
➢通常需要经过验证码验证后才能继续正常访问,严重的甚至会禁
止该IP访问网站一段时间。
3、通过验证码检验反爬
有部分网站不论访问频度如何,一定要来访者输入验证码才能继续操作。例如12306网站,不关是登录还是购票,全部都需要验证码验证,与访问频度无关。
4、通过变换网页结构反爬
一些社交网站常常会变换网页结构,而爬虫大部分情况下都需要通过网页结构来解析需要的数据,所以这种做饭也能起来反爬虫的作业。在网页结构变换后,爬虫往往无法在原本的网页位置找到原本需要的内容。
5、通过账号权限反爬
➢部分网站需要登录才能继续操作,这部分网站虽然并不是为了反爬虫才要求登录操作,但确实起到了反爬虫的作用。
➢例如微博查看评论就需要登录账号。