1. Robots協定的作用與形式
Robots全稱為Robot Exclusion Standard ,即網絡爬蟲排除标準
作用:網站告知網絡爬蟲哪些頁面可以抓取,哪些不行
形式:在網站根目錄下的robots.txt檔案
(如果無robots.txt檔案,可以随便爬取該網站的任何内容)
2. Robots協定基本文法
# 注釋,*代表所有,/代表根目錄
User-agent: *
Disallow: /
3. Robots協定的使用
網絡爬蟲:自動或人工識别robots.txt檔案,在進行内容爬取
限制性:Robots協定是建議但非限制性,網絡爬蟲可以不遵守,但存在法律風險
4. 對Robots協定的了解
通路量很小:可以遵守 通路量較大:建議遵守 | 非商業且偶然:建議遵守 商業利益:必須遵守 | 必須遵守 |
爬取網頁 玩轉網頁 | 爬取網站 爬取系列網站 | 爬取全網 |
(如果一天通路幾次或者一小時通路一次,這種不頻繁的爬取,可以不遵守Robots協定)
5. 案例:京東的Robots協定
https://www.jd.com/robots.txt
User-agent: *
Disallow: /?*
Disallow: /pop/*.html
Disallow: /pinpai/*.html?*
User-agent: EtaoSpider
Disallow: /
User-agent: HuihuiSpider