最近發現有人采集我們的網站就在伺服器新部署了日志分析系統awstats。根據awstats分析結果快速定位了疑似采集器的IP xxx.xxx.xxx.200,在伺服器上部署了iptables防火牆,對這個IP的80端口通路予以限制。
下面分享一下分析思路:
1. 如下圖所示,xxx.xxx.xxx.200此IP每日通路量高達400MB以上,并且通路時間都是淩晨。
<a href="http://blog.51cto.com/attachment/201011/114446698.png" target="_blank"></a>
2. 如下圖所示,在伺服器上人工處理了apache的通路日志,發現xxx.xxx.xxx.200此IP通路的都是文章頁面,次數高達每天600多篇文章。
<a href="http://blog.51cto.com/attachment/201011/113937725.png" target="_blank"></a>
3. 如下圖所示,xxx.xxx.xxx.200此IP為安裝了IIS服務的xp或windows server 2003。
<a href="http://blog.51cto.com/attachment/201011/114429720.png" target="_blank"></a>
<a href="http://blog.51cto.com/attachment/201011/113953965.png" target="_blank"></a>
<b>是以判</b><b>斷xxx.xxx.xxx.200</b><b>此IP為采集器進行了攔截。</b>
<b></b>
<b> </b>
除了基本的IP攔截法之外,還可以通過其他方法來進行網站采集的防範,例如:多做幾個清單和内容模闆随機使用,替換關鍵詞,圖檔防盜鍊,圖檔加水印,在文章裡随機加一些與背景色相同的文字,
限制IP位址機關時間的通路次數,利用js加密網頁内容,網頁裡隐藏網站版權或者一些随機垃圾文字 這些文字風格寫在css檔案中,利用腳本語言做分頁(隐藏分頁),采用動态不規則的html标簽,在文章的頭尾加上随機廣告,在文章正文頁面插入重複特征頭尾代碼的注釋,加在文章清單的随便連結樣式等方法。
本文轉自 sharkyan 51CTO部落格,原文連結:http://blog.51cto.com/sharkyan/427244,如需轉載請自行聯系原作者