蜘蛛協定寫法

2023-05-18 14:12:47

Robots協定（也稱為爬蟲協定、機器人協定等）的全稱是“網絡爬蟲排除标準”（Robots Exclusion Protocol），網站通過Robots協定告訴搜尋引擎哪些頁面可以抓取，哪些頁面不能抓取。陳寶文提醒Robots檔案名是不能改變的，檔案必須放置在網站根目錄才能生效，當搜尋引擎來到網站第一個通路的頁面就是 robots檔案。

User—Agent：定義搜尋引擎類型（定義robots對哪個搜尋引擎生效）
User—Agent：BaiduSpider （定義該協定隻對百度搜尋引擎生效）

User—Agent：*（定義該協定協定對所有搜尋引擎生效）
Disallow：定義搜尋引擎禁止抓取收錄位址
Disallow：/ （代表着整站禁止搜尋引擎抓取，/代表着網站根目錄），如果前期做了整站禁止搜尋引擎抓取，後期蜘蛛将很長一段時間不會來網站進行抓取内容。

Disallow：/ data/ （代表着禁止蜘蛛抓取data目錄後所有的頁面）

Disallow：/d （代表着data檔案後邊的網頁被屏蔽）
原因：/d和路徑中出現的目錄詞是相比對的的，是以都會被屏蔽掉

Disallow：/*？* 屏蔽所有動态路徑（動态連結中存在着？符号比對）

Disallow：/ *.js$ （屏蔽所有js檔案）
Allow：定義允許抓取收錄位址

Allow：/seojishu/ （代表着seojishu檔案允許被抓取）
Disallow：/ a/ 導緻全站會被屏蔽，因為Disallow：/後邊出現空格，建議寫完robots在百度站長工具中效驗一下是否有誤。

如：

https://mp.csdn.net/robots.txt

蜘蛛協定寫法

蜘蛛協定寫法

繼續閱讀

軟體測試——Web測試基礎理論知識思維導圖

學習筆記圖解HTTP 第五章：與HTTP協作的Web伺服器用單台虛拟主機實作多個域名通信資料轉發程式：代理、網關、隧道儲存資源的緩存在HTTP出現之前的協定

如何學好web前端

web前端技術這裡介紹web的一些基本知識。

LoadRunner測試執行結果龐大的解決方案

LR中檢查點函數簡析

Vue+SpringMVC簡單互動實踐入門前言Vue前端編寫背景基于SpringMVC搭建過程

web前端布局練手項目

HTML5Canvas 酷炫效果

趕工心得（一）

web OS —— goowy.com

緻意—程式員

十大酷炫屌的圖像懸停特效

前後端分離之跨域問題

何為全棧工程師？你是否應該成為一名全棧工程師？

配置網頁内容通路