robots.txt相關知識點

2023-04-13 03:36:49

一：什麼是robots.txt ?

robots.txt是網站和搜尋引擎的協定的純文字檔案。

當一個搜尋引擎蜘蛛來通路站點時，它首先爬行來檢查該站點根目錄下是否存在robots.txt。如果存在，根據檔案内容來确定通路範圍，如果沒有，蜘蛛就沿着連結抓取。robots.txt放在項目根目錄下。（ps: 檔案名必須全部小寫）

二：基本文法？

User-agent:定義禁止搜尋引擎名字。百度(Baiduspide)、谷歌(Googlebot)、360(360Spider)等。 *号代表全部搜尋引擎 Disallow:不允許收錄

Allow:允許收錄

#:注釋

三：具體執行個體

1、全站屏蔽所有蜘蛛：

User-agent: *

Disallow: /

2、全站允許所有蜘蛛：

User-agent: *

Disallow:

3、屏蔽某個目錄，但抓取目錄下的檔案或檔案夾

如：屏蔽所有蜘蛛抓取根目錄下的wap檔案夾，但抓取裡面字尾名為html檔案

User-agent: /

Disallow: /wap/

Allow: /wap/*.html

4、禁止具體搜尋引擎的抓取網站，比如百度，禁止百度索引網站

User-agent: Baiduspider

Disallow: /

注意： (1). 第一個英文要大寫，冒号是英文狀态下，冒号後面有一個空格，這幾點一定不能寫錯；

(2). 路徑後面有斜杠和沒有斜杠的差別：

比如 Disallow: /images/ 有斜杠是禁止抓取images整個檔案夾；

Disallow: /images 沒有斜杠意思是凡是路徑裡面有/images關鍵詞的都會被屏蔽；

(3). 出于安全考慮，需禁止浏覽器直接通路robots.txt

繼續閱讀