robots協定
robots協定也叫robots.txt(統一小寫)是一種存放于網站根目錄下的ASCII編碼的文本檔案,它通常告訴網絡搜尋引擎的漫遊器(又稱網絡蜘蛛),此網站中的哪些内容是不應被搜尋引擎的漫遊器擷取的,哪些是可以被漫遊器擷取的。因為一些系統中的URL是大小寫敏感的,是以robots.txt的檔案名應統一為小寫。robots.txt應放置于網站的根目錄下。如果想單獨定義搜尋引擎的漫遊器通路子目錄時的行為,那麼可以将自定的設定合并到根目錄下的robots.txt,或者使用robots中繼資料(Metadata,又稱中繼資料)。
robots協定并不是一個規範,而隻是約定俗成的,是以并不能保證網站的隐私。
例如:https://www.baidu.com/robots.txt
nginx配置如下:
location =/robots.txt {
default_type text/html;
add_header Content-Type "text/plain; charset=UTF-8";
return 200 "User-Agent: *\nDisallow: /";
}