如果有大量的百度蜘蛛抓取網站就需要注意了:有可能是其他爬蟲僞造百度蜘蛛惡意抓取網站。
如果遇到這種情況,這時候就需要檢視日志來确定是不是真正的百度蜘蛛(baidu spider)。搜尋引擎蜘蛛、使用者通路、爬蟲等通路都會留下 User-Agent。
我們可以通過 User-Agent 大概判斷是不是百度蜘蛛(baidu spider)。
百度 User-Agent 主要有以下幾個:
百度 PC 蜘蛛 User-Agent 是:
Mozilla/5.0 (compatible; Baiduspider/2.0; +<code>http://www.baidu.com/search/spider.html</code>)
百度移動蜘蛛 User-Agent 是:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +<code>http://www.baidu.com/search/spider.html</code>)
還有一個是 Baiduspider-render/2.0 User-Agent 是:
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +<code>http://www.baidu.com/search/spider.html</code>)
這個 Baiduspider-render/2.0 主要是為了給搜尋使用者更好的體驗、對站點實作更好地索引和呈現,百度搜尋需要通路網站的 CSS、Javascript 和圖檔資訊,以便更精準地了解頁面内容,實作搜尋結果最優排名,百度搜尋會全面啟用最新 User-Agent 來通路站點的上述資源。
Baiduspider-render/2.0 不同于 Baiduspider/2.0,Baiduspider-render/2.0 可以擷取 Javascript 内容,實作動态渲染。
還有其他的百度産品的 User-Agent:
百度圖檔搜尋 User-Agent:
Baiduspider-image+(+<code>http://www.baidu.com/search/spider.htm</code>)
百度視訊搜尋 User-Agent:
Baiduspider-video
百度新聞搜尋 User-Agent:
Baiduspider-news
百度搜藏 User-Agent:
Baiduspider-favo
百度聯盟 User-Agent:
Mozilla/5.0 (compatible; Baiduspider-cpro; +<code>http://www.baidu.com/search/spider.html</code>)
商務搜尋 User-Agent:
Baiduspider-ads
以上總結了百度所有産品的 User-Agent,但是僅僅通過 User-Agent 識别百度蜘蛛(baidu spider)是完全不夠的,因為 User-Agent 完全可以被僞造。
如何僞造 User-Agent 與如何通過 IP 識别百度蜘蛛(baidu spider)我将在以後的文章中詳述。
參考資料:
1、爬蟲識别 - 百度蜘蛛
2、站長平台 - 常見問題解答