Robots協定(也稱為爬蟲協定、機器人協定等)的全稱是“網絡爬蟲排除标準”(Robots Exclusion Protocol),網站通過Robots協定告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取。Robots協定的本質是網站和搜尋引擎爬蟲的溝通方式,用來指導搜尋引擎更好地抓取網站内容,更好的保護使用者的隐私和版權資訊。
Robots協定可能給我們網站帶來的好處:
1、 可以制止不必要的搜尋引擎占用伺服器的寶貴帶寬,例如,E-MAIL這類搜尋引擎對大多數網站是沒有意義的;再有像imagestrippers,對于大多數非圖形類網站來說也沒有太大的意義,但是卻耗用了大量的帶寬。
2、 可以制止搜尋引擎對非公開頁面的爬行與索引,如網站的背景程式、管理程式,事實上,對于某些在運作中面臨頁面的網站來說,如果沒有配置robots協定,搜尋引擎甚至會索引那些臨時檔案。
Robots協定可能給我們帶來的風險:
3、 給攻擊者指明了網站的目錄結構和私密資料的所在位置。雖然在WEB伺服器的安全措施配置得當的前提下這不是很大的問題,但是降低了那些不懷好意者的攻擊難度。
Robots協定可以保護網絡安全,以免網絡陷入混亂的狀态,可以在資訊多元化的時代為網絡傳播保駕護航。