![]() ![]() ![]() 然而,從11号開始,網站LOG日志開始出現衆多中文非主流蜘蛛通路,其中不乏知名俄羅斯搜尋引擎蜘蛛Yandexbot,還有不明“飛行物”AhrefsBot & ezooms.bot。 按照思維中定型的屏蔽蜘蛛方法,本能地将以上所有蜘蛛(對中文網站seo而言,以上的蜘蛛就是垃圾蜘蛛)通過Robots.txt檔案disallow 掉。本以為這樣就算搞定了,但是今早打開最近3天的LOG日志一看,垃圾蜘蛛抓取更加頻繁,兇猛,尤其以ezooms.bot為甚。 一般來說,搜尋引擎對待Robots.txt檔案有個生效期,大概2-7天。但是ezooms.bot的迅猛發展,讓我不得不懷疑他是個Robots協定違反者。 今天要分享的就是如何通過.htaccess檔案屏蔽不良蜘蛛。 以下是14号的網站日志,導入到Excel進行篩選分析,發現在當天所有通路日志(包括真實使用者和蜘蛛)中,竟然有多達342次通路記錄。而尤以AhrefsBot & ezooms.bot居多。 (注:此例輸入“Bot”進行篩選;國外蜘蛛一般叫Bot,國内一般叫Spider) Ezooms.bot究竟是何方神聖?于是通過百度去搜尋相關的記錄,但是很不理想,百度沒有任何相關的記錄。沒辦法,隻能求助于谷歌,滿篇幅都是英文,頭大了,咬咬牙慢慢咀嚼吧。 翻閱了七八篇國外有關ezooms.bot的部落格文章,對該bot也沒有一個明确的說法,有的認為是SEOMoz Bot,有的認為是個文章采集者,但是大家對它的評價都很不好,被描繪成諸如吸血鬼、水蛭等。截取一段外文評語: 圖上的IP段與網站記錄的ezooms.bot爬行ip段基本吻合,應該是個方法。但是屏蔽整個ip段,可能會造成一定的誤殺(畢竟并不能确認所有的 ip都是ezooms.bot)。有沒有更穩妥的辦法呢?還是翻閱資料,最後找到了通過.htaccess來解決的辦法。規則如下: RewriteEngine on RewriteCond %{HTTP_USER_AGENT} ^Ezooms RewriteCond %{HTTP_USER_AGENT} ^Ezooms/1.0 RewriteRule ^(.*)$ http://getlostbadbot/ 為什麼這麼寫,網上翻翻更多關于Apache中 RewriteCond 規則參數介紹,我也是菜鳥正在學習中。 轉自:http://www.seowhy.com/bbs/forum.php?mod=viewthread&tid=2945114 |