天天看點

Robots協定小記

Robots

  • 簡介

    robots是網站跟爬蟲間的協定,用簡單直接的txt格式文本方式告訴對應的爬蟲被允許的權限,也就是說robots.txt是搜尋引擎中通路網站的時候要檢視的第一個檔案,該協定僅約定俗成,道德限制,無法律效益和實質性的安全意義

  • 舉例
User-agent: Baiduspider
Disallow: /baidu
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
           

可以看下百度自己的robots https://www.baidu.com/robots.txt

  • 文法

    User-agent: 描述搜尋引擎robot的名字

    Disallow: 描述不希望被通路到的一個URL

    Allow: 描述希望被通路的一組URL

    DisAllow 和 Allow 之間的順序是有意義的,robot會根據第一個比對成功的Allow或Disallow行确定是否通路某個URL

  • 工具

    robots 生成工具

  • 參考連結

    https://baike.baidu.com/item/robots/5243374?fr=aladdin

繼續閱讀