最近发现有人采集我们的网站就在服务器新部署了日志分析系统awstats。根据awstats分析结果快速定位了疑似采集器的IP xxx.xxx.xxx.200,在服务器上部署了iptables防火墙,对这个IP的80端口访问予以限制。
下面分享一下分析思路:
1. 如下图所示,xxx.xxx.xxx.200此IP每日访问量高达400MB以上,并且访问时间都是凌晨。
<a href="http://blog.51cto.com/attachment/201011/114446698.png" target="_blank"></a>
2. 如下图所示,在服务器上人工处理了apache的访问日志,发现xxx.xxx.xxx.200此IP访问的都是文章页面,次数高达每天600多篇文章。
<a href="http://blog.51cto.com/attachment/201011/113937725.png" target="_blank"></a>
3. 如下图所示,xxx.xxx.xxx.200此IP为安装了IIS服务的xp或windows server 2003。
<a href="http://blog.51cto.com/attachment/201011/114429720.png" target="_blank"></a>
<a href="http://blog.51cto.com/attachment/201011/113953965.png" target="_blank"></a>
<b>因此判</b><b>断xxx.xxx.xxx.200</b><b>此IP为采集器进行了拦截。</b>
<b></b>
<b> </b>
除了基本的IP拦截法之外,还可以通过其他方法来进行网站采集的防范,例如:多做几个列表和内容模板随机使用,替换关键词,图片防盗链,图片加水印,在文章里随机加一些与背景色相同的文字,
限制IP地址单位时间的访问次数,利用js加密网页内容,网页里隐藏网站版权或者一些随机垃圾文字 这些文字风格写在css文件中,利用脚本语言做分页(隐藏分页),采用动态不规则的html标签,在文章的头尾加上随机广告,在文章正文页面插入重复特征头尾代码的注释,加在文章列表的随便链接样式等方法。
本文转自 sharkyan 51CTO博客,原文链接:http://blog.51cto.com/sharkyan/427244,如需转载请自行联系原作者