超詳細robots.txt寫法大全和禁止目錄收錄及指定頁面

robots.txt寫法大全和robots.txt文法的作用

1如果允許所有搜尋引擎通路網站的所有部分的話我們可以建立一個空白的文本文檔，命名為robots.txt放在網站的根目錄下即可。

robots.txt寫法如下：

User-agent: *

Disallow:

或者

User-agent: *

Allow: /

2如果我們禁止所有搜尋引擎通路網站的所有部分的話

robots.txt寫法如下：

User-agent: *

Disallow: /

3如果我們需要某一個搜尋引擎的抓取的話，比如百度，禁止百度索引我們的網站的話

robots.txt寫法如下：

User-agent: Baiduspider

Disallow: /

4如果我們禁止Google索引我們的網站的話，其實跟示例3一樣，就是User-agent:頭檔案的蜘蛛名字改成谷歌的Googlebot

即可

robots.txt寫法如下：

User-agent: Googlebot

Disallow: /

5如果我們禁止除Google外的一切搜尋引擎索引我們的網站話

robots.txt寫法如下：

User-agent: Googlebot

Disallow:

User-agent: *

Disallow: /

6如果我們禁止除百度外的一切搜尋引擎索引我們的網站的話

robots.txt寫法如下：

User-agent: Baiduspider

Disallow:

User-agent: *

Disallow: /

7如果我們需要禁止蜘蛛通路某個目錄，比如禁止admin、css、images等目錄被索引的話

robots.txt寫法如下：

User-agent: *

Disallow: /css/

Disallow: /admin/

Disallow: /images/

8如果我們允許蜘蛛通路我們網站的某個目錄中的某些特定網址的話

robots.txt寫法如下：

User-agent: *

Allow: /css/my

Allow: /admin/html

Allow: /images/index

Disallow: /css/

Disallow: /admin/

Disallow: /images/

9我們看某些網站的robots.txt裡的Disallow或者Allow裡會看很多的符号，比如問号星号什麼的，如果使用“”，主要是限制通路某個字尾的域名，禁止通路/html/目錄下的所有以”.htm”為字尾的URL(包含子目錄)。

robots.txt寫法如下：

User-agent: *

Disallow: /html/.htm

10如果我們使用“” 的話是僅允許訪問某目錄下某個後綴的文件 r o b o t s . t x t 寫法如下： U s e r − a g e n t : ∗ A l l o w : . a s p ”的話是僅允許通路某目錄下某個字尾的檔案 robots.txt寫法如下： User-agent: * Allow: .asp”的話是僅允許通路某目錄下某個字尾的檔案robots.txt寫法如下：User−agent:∗Allow:.asp

Disallow: /

11如果我們禁止索引網站中所有的動态頁面（這裡限制的是有“?”的域名，例如index.asp?id=1）

robots.txt寫法如下：

User-agent: *

Disallow: /?

有些時候，我們為了節省伺服器資源，需要禁止各類搜尋引擎來索引我們網站上的圖檔，這裡的辦法除了使用“Disallow: /images/”這樣的直接屏蔽檔案夾的方式之外，還可以采取直接屏蔽圖檔字尾名的方式。

示例12

如果我們禁止Google搜尋引擎抓取我們網站上的所有圖檔(如果你的網站使用其他字尾的圖檔名稱，在這裡也可以直接添加)

robots.txt寫法如下：

User-agent: Googlebot

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

13如果我們禁止百度搜尋引擎抓取我們網站上的所有圖檔的話

robots.txt寫法如下：

User-agent: Baiduspider

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

14除了百度之外和Google之外，禁止其他搜尋引擎抓取你網站的圖檔

(注意，在這裡為了讓各位看的更明白，是以使用一個比較笨的辦法——對于單個搜尋引擎單獨定義。)

robots.txt寫法如下：

User-agent: Baiduspider

Allow: .jpeg$

Allow: .gif$

Allow: .png$

Allow: .bmp$

User-agent: Googlebot

Allow: .jpeg$

Allow: .gif$

Allow: .png$

Allow: .bmp$

User-agent: *

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

15僅僅允許百度抓取網站上的“JPG”格式檔案

（其他搜尋引擎的辦法也和這個一樣，隻是修改一下搜尋引擎的蜘蛛名稱即可）

robots.txt寫法如下：

User-agent: Baiduspider

Allow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

16僅僅禁止百度抓取網站上的“JPG”格式檔案

robots.txt寫法如下：

User-agent: Baiduspider

Disallow: .jpg$

17如果 ? 表示一個會話 ID，您可排除所有包含該 ID 的網址，確定 Googlebot 不會抓取重複的網頁。但是，以 ? 結尾的網址可能是您要包含的網頁版本。在此情況下，沃恩可将與 Allow 指令配合使用。

robots.txt寫法如下：

User-agent:*

Allow:/?$

Disallow:/?

Disallow:/ ?

一行将攔截包含 ? 的網址（具體而言，它将攔截所有以您的域名開頭、後接任意字元串，然後是問号 (?)，而後又是任意字元串的網址）。Allow: /?$ 一行将允許包含任何以 ? 結尾的網址（具體而言，它将允許包含所有以您的域名開頭、後接任意字元串，然後是問号 (?)，問号之後沒有任何字元的網址）。

18如果我們想禁止搜尋引擎對一些目錄或者某些URL通路的話，可以截取部分的名字

robots.txt寫法如下：

User-agent:*

Disallow: /plus/feedback.php?

以上内容供大家參考下即可。

超詳細robots.txt寫法大全和禁止目錄收錄及指定頁面

繼續閱讀

seo技巧篇

最新資料：微信及WeChat月活12.5億多，2021年第二季遊戲收入430億元

仿京東收貨位址

ubuntu設定全攻略

Ubuntu安裝RealPlayer全攻略

Django 實作單點登入（SSO）

正确了解和判斷PR劫持的方法（站長必看）

lucene 關鍵字高亮

傳說中比google和百度牛的十佳搜尋類網站

百度、新浪、Mixi、Apache社群贊助的開源key-value分布式存儲系統[轉載]

手機軟體抓包工具及其使用方法

Linux之父警告全球程式員：我剛釋出的5.12核心有bug，你們千萬别用

門戶通專訪月光部落格：第一部落格是如何打造成的

門戶通專訪草根站長九天狼：做站貴在堅持

專家訪談：搜尋開源力量：Lucene技術前景

30天了解30種技術系列---(10)面向Cloud的搜尋引擎 ElasticSearch