robots.txt寫法大全和robots.txt文法的作用

1、如果允許所有搜尋引擎通路網站的所有部分，可以建立一個空白的文本文檔，命名為robots.txt放在網站的根目錄下即可，robots.txt寫法如下：

User-agent: *
Disallow:
或者
User-agent: *
Allow: /

2、如果我們禁止所有搜尋引擎通路網站的所有部分，robots.txt寫法如下：

User-agent: *
Disallow: /

3、如果需要某一個搜尋引擎的抓取的話，比如百度，禁止百度索引我們的網站，robots.txt寫法如下：

User-agent: Baiduspider
Disallow: /

4、如果禁止Google索引網站，跟示例3一樣，就是User-agent:頭檔案的蜘蛛名字改成谷歌的Googlebot即可，robots.txt寫法如下：

User-agent: Googlebot
Disallow: /

5、如果禁止除Google外的一切搜尋引擎索引網站，robots.txt寫法如下：

User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /

6、如果禁止除百度外的一切搜尋引擎索引網站，robots.txt寫法如下：

User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /

7、如果需要禁止蜘蛛通路某個目錄，比如禁止admin、css、images等目錄被索引，robots.txt寫法如下：

User-agent: *
Disallow: /css/
Disallow: /admin/
Disallow: /images/

8、如果允許蜘蛛通路網站的某個目錄中的某些特定網址，robots.txt寫法如下：

User-agent: *
Allow: /css/my
Allow: /admin/html
Allow: /images/index
Disallow: /css/
Disallow: /admin/
Disallow: /images/

9、我們看某些網站的robots.txt裡的Disallow或者Allow裡會看很多的符号，比如問号星号，如果使用“*”，主要是限制通路某個字尾的域名，禁止通路/html/目錄下的所有以”.htm”為字尾的URL(包含子目錄)，robots.txt寫法如下：

User-agent: *
Disallow: /html/*.htm

10、如果使用“$”的話是僅允許通路某目錄下某個字尾的檔案，robots.txt寫法如下：

User-agent: *
Allow: .asp$
Disallow: /

11、如果禁止索引網站中所有的動态頁面（這裡限制的是有“?”的域名，例如index.asp?id=1），robots.txt寫法如下：

User-agent: *
Disallow: /*?*

12、有些時候，為了節省伺服器資源，需要禁止各類搜尋引擎來索引我們網站上的圖檔，這裡的辦法除了使用“Disallow: /images/”這樣的直接屏蔽檔案夾的方式之外，還可以采取直接屏蔽圖檔字尾名的方式。

如果我們禁止Google搜尋引擎抓取網站上的所有圖檔（如果網站使用其他字尾的圖檔名稱，在這裡也可以直接添加），robots.txt寫法如下：

User-agent: Googlebot
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$

13、如果禁止百度搜尋引擎抓取網站上的所有圖檔

robots.txt寫法如下：

User-agent: Baiduspider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$

14、除了百度之外和Google之外，禁止其他搜尋引擎抓取網站的圖檔，robots.txt寫法如下：

（注意：在這裡為了讓各位看的更明白，是以使用一個比較笨的辦法，對于單個搜尋引擎單獨定義。）

User-agent: Baiduspider
Allow: .jpeg$
Allow: .gif$
Allow: .png$
Allow: .bmp$
User-agent: Googlebot
Allow: .jpeg$
Allow: .gif$
Allow: .png$
Allow: .bmp$
User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$

15、僅僅允許百度抓取網站上的“JPG”格式檔案，robots.txt寫法如下：

（其他搜尋引擎的辦法也和這個一樣，隻是修改一下搜尋引擎的蜘蛛名稱即可）

User-agent: Baiduspider
Allow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$

16、僅僅禁止百度抓取網站上的“JPG”格式檔案，robots.txt寫法如下：

User-agent: Baiduspider
Disallow: .jpg$

17、如果 “?” 表示一個會話 ID，您可排除所有包含該 ID 的網址，確定 Googlebot 不會抓取重複的網頁。但是，以 “?” 結尾的網址可能是您要包含的網頁版本。在此情況下，Disallow 可與 Allow 指令配合使用，robots.txt寫法如下：

User-agent:*
Allow:/*?$
Disallow:/*?
Disallow:/ *?

Allow: /*?$ 這一行将允許包含任何以 “?” 結尾的網址（具體而言，它将允許包含所有以域名開頭、後接任意字元串，然後是問号 “?”，問号之後沒有任何字元的網址）。

18、如果想禁止搜尋引擎對一些目錄或者某些URL通路，可以截取部分的名字，robots.txt寫法如下：

User-agent:*
Disallow: /plus/feedback.php?

robots.txt寫法大全和robots.txt文法的作用

繼續閱讀

Webots串級機械臂模組化仿真過程-詳細！

編寫站點robots檔案

requests 庫 & robots 協定

robots.txt相關知識點

Robots協定小記

nginx配置robots協定

個人掌握知識分享SEO(搜尋引擎優化) robots檔案優化

python網絡爬蟲基礎，盜亦有道

依據機械特性選取合适的電機系統

Webots小車與Gampping建圖仿真與ORB3算法實踐

蜘蛛協定寫法

豆瓣robots.txt分析

工業機器人連載系列丨NO.11 robotstudio的安裝與認識

網絡爬蟲根據尺寸分類

SEO初級|網站結構優化—robots.txt檔案

超詳細robots.txt寫法大全和禁止目錄收錄及指定頁面