一:什麼是robots.txt ?
robots.txt是網站和搜尋引擎的協定的純文字檔案。
當一個搜尋引擎蜘蛛來通路站點時,它首先爬行來檢查該站點根目錄下是否存在robots.txt。如果存在,根據檔案内容來确定通路範圍,如果沒有,蜘蛛就沿着連結抓取。robots.txt放在項目根目錄下。(ps: 檔案名必須全部小寫)
二:基本文法 ?
User-agent:定義禁止搜尋引擎名字。百度(Baiduspide)、谷歌(Googlebot)、360(360Spider)等。 *号代表全部搜尋引擎 Disallow:不允許收錄
Allow:允許收錄
#:注釋
三:具體執行個體
1、全站屏蔽所有蜘蛛:
User-agent: *
Disallow: /
2、全站允許所有蜘蛛:
User-agent: *
Disallow:
3、屏蔽某個目錄,但抓取目錄下的檔案或檔案夾
如:屏蔽所有蜘蛛抓取根目錄下的wap檔案夾,但抓取裡面字尾名為html檔案
User-agent: /
Disallow: /wap/
Allow: /wap/*.html
4、禁止具體搜尋引擎的抓取網站,比如百度,禁止百度索引網站
User-agent: Baiduspider
Disallow: /
注意: (1). 第一個英文要大寫,冒号是英文狀态下,冒号後面有一個空格,這幾點一定不能寫錯;
(2). 路徑後面有斜杠和沒有斜杠的差別:
比如 Disallow: /images/ 有斜杠是禁止抓取images整個檔案夾;
Disallow: /images 沒有斜杠意思是凡是路徑裡面有/images關鍵詞的都會被屏蔽;
(3). 出于安全考慮,需禁止浏覽器直接通路robots.txt