天天看點

robots.txt相關知識點

一:什麼是robots.txt ?

      robots.txt是網站和搜尋引擎的協定的純文字檔案。

     當一個搜尋引擎蜘蛛來通路站點時,它首先爬行來檢查該站點根目錄下是否存在robots.txt。如果存在,根據檔案内容來确定通路範圍,如果沒有,蜘蛛就沿着連結抓取。robots.txt放在項目根目錄下。(ps: 檔案名必須全部小寫)

二:基本文法 ?

      User-agent:定義禁止搜尋引擎名字。百度(Baiduspide)、谷歌(Googlebot)、360(360Spider)等。 *号代表全部搜尋引擎                  Disallow:不允許收錄

       Allow:允許收錄

       #:注釋

三:具體執行個體

1、全站屏蔽所有蜘蛛:

     User-agent: *

     Disallow: /

2、全站允許所有蜘蛛:

     User-agent: *

     Disallow: 

3、屏蔽某個目錄,但抓取目錄下的檔案或檔案夾

   如:屏蔽所有蜘蛛抓取根目錄下的wap檔案夾,但抓取裡面字尾名為html檔案

         User-agent: /

         Disallow: /wap/

         Allow: /wap/*.html

4、禁止具體搜尋引擎的抓取網站,比如百度,禁止百度索引網站

        User-agent: Baiduspider

        Disallow: /

注意: (1). 第一個英文要大寫,冒号是英文狀态下,冒号後面有一個空格,這幾點一定不能寫錯;

            (2). 路徑後面有斜杠和沒有斜杠的差別:

                  比如  Disallow: /images/ 有斜杠是禁止抓取images整個檔案夾;

                            Disallow: /images 沒有斜杠意思是凡是路徑裡面有/images關鍵詞的都會被屏蔽;

            (3). 出于安全考慮,需禁止浏覽器直接通路robots.txt