天天看點

搜尋引擎爬蟲一覽表

高強度爬蟲程式 Baiduspider+(+http://www.baidu.com/search/spider.htm") 百度爬蟲   高強度爬蟲,有時會從多個IP位址啟動多個爬蟲程式!由于算法問題,百度爬蟲對相同頁面會多次送出請求。

Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html") Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp") 雅虎爬蟲,分别是雅虎中國和美國總部的爬蟲

  比較規範的爬蟲,看參考其網址,可以設定爬蟲通路間隔。

iaskspider/2.0(+http://iask.com/help/help_index.html") Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0) 新浪愛問爬蟲   算法差,大量掃描無實際意義的頁面,對動态連結網站負擔很大

Sogou web spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm") Sogou Push Spider/3.0(+http://www.sogou.com/docs/help/webmasters.ht") 搜狗爬蟲   算法差,大量掃描無實際意義的頁面,對動态連結網站負擔很大

中等強度爬蟲程式

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html") Google爬蟲   算法優秀,多為通路有實際内容的頁面

Mediapartners-Google/2.1 Google AdSense廣告内容比對爬蟲,對網頁收錄有一定輔助作用。

Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/"; ) 網易爬蟲  其搜尋算法需要改進

ia_archiver Alexa排名爬蟲   用于檢測網站是否做了alexa排名的作弊。

Mozilla/5.0 (Twiceler-0.9 http://www.cuill.com/twiceler/robot.html")  美國斯坦福大學的一個學生研究項目

其他搜尋引擎的爬蟲

msnbot/1.0 (+http://search.msn.com/msnbot.htm") MSN爬蟲

msnbot-media/1.0 (+http://search.msn.com/msnbot.htm") MSN多媒體爬蟲

Mozilla/3.0 (compatible; Indy Library) Indy Library本來是個開源程式庫,但後來被spam bots冒用。   抓取強度:各伺服器上不一定

Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0) Qihoo的爬蟲

Gigabot Gigabot/2.0 (http://www.gigablast.com/spider.html") Gigabot搜尋引擎爬蟲。

繼續閱讀