Robots協定(也 稱為爬蟲協定、機器人協定等)的全稱是“網絡爬蟲排除标準”(Robots Exclusion Protocol),網站通過Robots協定告訴搜尋 引擎哪些頁面可以抓取,哪些頁面不能抓取。陳寶文提醒Robots檔案名是不能改變的,檔案必須放置在網站根目錄才能生效,當搜尋引擎來到網站第一個通路的頁面就是 robots檔案。
- User—Agent: 定義搜尋引擎類型(定義robots對哪個搜尋引擎生效)
-
User—Agent:BaiduSpider (定義該協定隻對百度搜尋引擎生效)
User—Agent:*(定義該協定協定對所有搜尋引擎生效)
- Disallow: 定義搜尋引擎禁止抓取收錄位址
-
Disallow:/ (代表着整站禁止搜尋引擎抓取,/代表着網站根目錄),如果前期做了整站禁止搜尋引擎抓取,後期蜘蛛将很長一段時間不會來網站進行抓取内容。
Disallow:/ data/ (代表着禁止蜘蛛抓取data目錄後所有的頁面)
Disallow:/d (代表着data檔案後邊的網頁被屏蔽)
-
原因:/d和路徑中出現的目錄詞是相比對的的,是以都會被屏蔽掉
Disallow:/*?* 屏蔽所有動态路徑(動态連結中存在着?符号比對)
Disallow:/ *.js$ (屏蔽所有js檔案)
-
Allow: 定義允許抓取收錄位址
Allow:/seojishu/ (代表着seojishu檔案允許被抓取)
- Disallow:/ a/ 導緻全站會被屏蔽,因為Disallow:/後邊出現空格,建議寫完robots在百度站長工具中效驗一下是否有誤。
如:
https://mp.csdn.net/robots.txt