robots.txt寫法大全和robots.txt文法的作用
1如果允許所有搜尋引擎通路網站的所有部分的話 我們可以建立一個空白的文本文檔,命名為robots.txt放在網站的根目錄下即可。
robots.txt寫法如下:
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
2如果我們禁止所有搜尋引擎通路網站的所有部分的話
robots.txt寫法如下:
User-agent: *
Disallow: /
3如果我們需要某一個搜尋引擎的抓取的話,比如百度,禁止百度索引我們的網站的話
robots.txt寫法如下:
User-agent: Baiduspider
Disallow: /
4如果我們禁止Google索引我們的網站的話,其實跟示例3一樣,就是User-agent:頭檔案的蜘蛛名字改成谷歌的Googlebot
即可
robots.txt寫法如下:
User-agent: Googlebot
Disallow: /
5如果我們禁止除Google外的一切搜尋引擎索引我們的網站話
robots.txt寫法如下:
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
6如果我們禁止除百度外的一切搜尋引擎索引我們的網站的話
robots.txt寫法如下:
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
7如果我們需要禁止蜘蛛通路某個目錄,比如禁止admin、css、images等目錄被索引的話
robots.txt寫法如下:
User-agent: *
Disallow: /css/
Disallow: /admin/
Disallow: /images/
8如果我們允許蜘蛛通路我們網站的某個目錄中的某些特定網址的話
robots.txt寫法如下:
User-agent: *
Allow: /css/my
Allow: /admin/html
Allow: /images/index
Disallow: /css/
Disallow: /admin/
Disallow: /images/
9我們看某些網站的robots.txt裡的Disallow或者Allow裡會看很多的符号,比如問号星号什麼的,如果使用“”,主要是限制通路某個字尾的域名,禁止通路/html/目錄下的所有以”.htm”為字尾的URL(包含子目錄)。
robots.txt寫法如下:
User-agent: *
Disallow: /html/.htm
10如果我們使用“” 的 話 是 僅 允 許 訪 問 某 目 錄 下 某 個 後 綴 的 文 件 r o b o t s . t x t 寫 法 如 下 : U s e r − a g e n t : ∗ A l l o w : . a s p ”的話是僅允許通路某目錄下某個字尾的檔案 robots.txt寫法如下: User-agent: * Allow: .asp”的話是僅允許通路某目錄下某個字尾的檔案robots.txt寫法如下:User−agent:∗Allow:.asp
Disallow: /
11如果我們禁止索引網站中所有的動态頁面(這裡限制的是有“?”的域名,例如index.asp?id=1)
robots.txt寫法如下:
User-agent: *
Disallow: /?
有些時候,我們為了節省伺服器資源,需要禁止各類搜尋引擎來索引我們網站上的圖檔,這裡的辦法除了使用“Disallow: /images/”這樣的直接屏蔽檔案夾的方式之外,還可以采取直接屏蔽圖檔字尾名的方式。
示例12
如果我們禁止Google搜尋引擎抓取我們網站上的所有圖檔(如果你的網站使用其他字尾的圖檔名稱,在這裡也可以直接添加)
robots.txt寫法如下:
User-agent: Googlebot
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
13如果我們禁止百度搜尋引擎抓取我們網站上的所有圖檔的話
robots.txt寫法如下:
User-agent: Baiduspider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
14除了百度之外和Google之外,禁止其他搜尋引擎抓取你網站的圖檔
(注意,在這裡為了讓各位看的更明白,是以使用一個比較笨的辦法——對于單個搜尋引擎單獨定義。)
robots.txt寫法如下:
User-agent: Baiduspider
Allow: .jpeg$
Allow: .gif$
Allow: .png$
Allow: .bmp$
User-agent: Googlebot
Allow: .jpeg$
Allow: .gif$
Allow: .png$
Allow: .bmp$
User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
15僅僅允許百度抓取網站上的“JPG”格式檔案
(其他搜尋引擎的辦法也和這個一樣,隻是修改一下搜尋引擎的蜘蛛名稱即可)
robots.txt寫法如下:
User-agent: Baiduspider
Allow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
16僅僅禁止百度抓取網站上的“JPG”格式檔案
robots.txt寫法如下:
User-agent: Baiduspider
Disallow: .jpg$
17如果 ? 表示一個會話 ID,您可排除所有包含該 ID 的網址,確定 Googlebot 不會抓取重複的網頁。但是,以 ? 結尾的網址可能是您要包含的網頁版本。在此情況下,沃恩可将與 Allow 指令配合使用。
robots.txt寫法如下:
User-agent:*
Allow:/?$
Disallow:/?
Disallow:/ ?
一行将攔截包含 ? 的網址(具體而言,它将攔截所有以您的域名開頭、後接任意字元串,然後是問号 (?),而後又是任意字元串的網址)。Allow: /?$ 一行将允許包含任何以 ? 結尾的網址(具體而言,它将允許包含所有以您的域名開頭、後接任意字元串,然後是問号 (?),問号之後沒有任何字元的網址)。
18如果我們想禁止搜尋引擎對一些目錄或者某些URL通路的話,可以截取部分的名字
robots.txt寫法如下:
User-agent:*
Disallow: /plus/feedback.php?
以上内容供大家參考下即可。