天天看點

蜘蛛協定寫法

 Robots協定(也 稱為爬蟲協定、機器人協定等)的全稱是“網絡爬蟲排除标準”(Robots Exclusion Protocol),網站通過Robots協定告訴搜尋 引擎哪些頁面可以抓取,哪些頁面不能抓取。陳寶文提醒Robots檔案名是不能改變的,檔案必須放置在網站根目錄才能生效,當搜尋引擎來到網站第一個通路的頁面就是 robots檔案。

  1. User—Agent: 定義搜尋引擎類型(定義robots對哪個搜尋引擎生效)
  2. User—Agent:BaiduSpider (定義該協定隻對百度搜尋引擎生效)

    User—Agent:*(定義該協定協定對所有搜尋引擎生效)

  3. Disallow: 定義搜尋引擎禁止抓取收錄位址
  4. Disallow:/ (代表着整站禁止搜尋引擎抓取,/代表着網站根目錄),如果前期做了整站禁止搜尋引擎抓取,後期蜘蛛将很長一段時間不會來網站進行抓取内容。

    Disallow:/ data/ (代表着禁止蜘蛛抓取data目錄後所有的頁面)

    Disallow:/d (代表着data檔案後邊的網頁被屏蔽)

  5. 原因:/d和路徑中出現的目錄詞是相比對的的,是以都會被屏蔽掉

    Disallow:/*?*   屏蔽所有動态路徑(動态連結中存在着?符号比對)

    Disallow:/ *.js$  (屏蔽所有js檔案)

  6. Allow: 定義允許抓取收錄位址

    Allow:/seojishu/ (代表着seojishu檔案允許被抓取)

  7. Disallow:/ a/   導緻全站會被屏蔽,因為Disallow:/後邊出現空格,建議寫完robots在百度站長工具中效驗一下是否有誤。

如:

https://mp.csdn.net/robots.txt

蜘蛛協定寫法