天天看點

robots 協定介紹

robots.txt怎麼寫

  1、允許所有搜尋引擎通路

  User-agent: *

  Disallow:

  或者

  User-agent: *

  Allow: /

  在這裡大家要注意下,可以最直接的建一個空檔案 “robots.txt”然後放到網站的根目錄。

  2、禁止所有搜尋引擎通路

  User-agent: *

  Disallow: /

  或者

  User-agent: *

  allow:

  3、禁止所有搜尋引擎通路網站中的幾個部分,在這裡我用a、b、c目錄來代替

  User-agent: *

  Disallow: /a/

  Disallow: /b/

  Disallow: /c/

  如果是允許,則是

  Allow: /a/

  Allow: /b/

  Allow: /c/

  4、禁止某個搜尋引擎的通路,我用w來代替

  User-agent: w

  Disallow: /

  或

  User-agent: w

  Disallow: /d/*.htm

  在Disallow:後面加 /d/*.htm的意思是禁止通路/d/目錄下的所有以”.htm”為字尾的URL,包含子目錄。

  5、隻允許某個搜尋引擎的通路,我用e來代替

  User-agent: e

  Disallow:

  在Disallow:後面不加任何東西,意思是僅允許e通路該網站。

  6、使用”$”限制通路url

  User-agent: *

  Allow: .htm$

  Disallow: /

  意思是僅允許通路以”.htm”為字尾的URL

  7、禁止通路網站中所有的動态頁面

  User-agent: *

  Disallow: /*?*

  8、禁止搜尋引擎F抓取網站上所有圖檔

  User-agent: F

  Disallow: .jpg$

  Disallow: .jpeg$

  Disallow: .gif$

  Disallow: .png$

  Disallow: .bmp$

  意思是隻允許引擎抓取網頁,禁止抓取任何圖檔(嚴格來說,是禁止抓取jpg、jpeg、gif、png、bmp格式的圖檔。)

  9、隻允許搜尋引擎E抓取網頁和.gif格式圖檔

  User-agent: E

  Allow: .gif$

  Disallow: .jpg$

  Disallow: .jpeg$

  Disallow: .png$

  Disallow: .bmp$

  意思是隻允許抓取網頁和gif格式圖檔,不允許抓取其他格式圖檔