robots.txt怎麼寫
1、允許所有搜尋引擎通路
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
在這裡大家要注意下,可以最直接的建一個空檔案 “robots.txt”然後放到網站的根目錄。
2、禁止所有搜尋引擎通路
User-agent: *
Disallow: /
或者
User-agent: *
allow:
3、禁止所有搜尋引擎通路網站中的幾個部分,在這裡我用a、b、c目錄來代替
User-agent: *
Disallow: /a/
Disallow: /b/
Disallow: /c/
如果是允許,則是
Allow: /a/
Allow: /b/
Allow: /c/
4、禁止某個搜尋引擎的通路,我用w來代替
User-agent: w
Disallow: /
或
User-agent: w
Disallow: /d/*.htm
在Disallow:後面加 /d/*.htm的意思是禁止通路/d/目錄下的所有以”.htm”為字尾的URL,包含子目錄。
5、隻允許某個搜尋引擎的通路,我用e來代替
User-agent: e
Disallow:
在Disallow:後面不加任何東西,意思是僅允許e通路該網站。
6、使用”$”限制通路url
User-agent: *
Allow: .htm$
Disallow: /
意思是僅允許通路以”.htm”為字尾的URL
7、禁止通路網站中所有的動态頁面
User-agent: *
Disallow: /*?*
8、禁止搜尋引擎F抓取網站上所有圖檔
User-agent: F
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
意思是隻允許引擎抓取網頁,禁止抓取任何圖檔(嚴格來說,是禁止抓取jpg、jpeg、gif、png、bmp格式的圖檔。)
9、隻允許搜尋引擎E抓取網頁和.gif格式圖檔
User-agent: E
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$
意思是隻允許抓取網頁和gif格式圖檔,不允許抓取其他格式圖檔