Robots
-
簡介
robots是網站跟爬蟲間的協定,用簡單直接的txt格式文本方式告訴對應的爬蟲被允許的權限,也就是說robots.txt是搜尋引擎中通路網站的時候要檢視的第一個檔案,該協定僅約定俗成,道德限制,無法律效益和實質性的安全意義
- 舉例
User-agent: Baiduspider
Disallow: /baidu
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
User-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
可以看下百度自己的robots https://www.baidu.com/robots.txt
-
文法
User-agent: 描述搜尋引擎robot的名字
Disallow: 描述不希望被通路到的一個URL
Allow: 描述希望被通路的一組URL
DisAllow 和 Allow 之間的順序是有意義的,robot會根據第一個比對成功的Allow或Disallow行确定是否通路某個URL
-
工具
robots 生成工具
-
參考連結
https://baike.baidu.com/item/robots/5243374?fr=aladdin