天天看點

Python網絡爬蟲(二)——Robots協定

1. Robots協定的作用與形式

Robots全稱為Robot Exclusion Standard ,即網絡爬蟲排除标準

作用:網站告知網絡爬蟲哪些頁面可以抓取,哪些不行

形式:在網站根目錄下的robots.txt檔案

(如果無robots.txt檔案,可以随便爬取該網站的任何内容)

2. Robots協定基本文法

# 注釋,*代表所有,/代表根目錄

User-agent: *

Disallow: /

3. Robots協定的使用

網絡爬蟲:自動或人工識别robots.txt檔案,在進行内容爬取

限制性:Robots協定是建議但非限制性,網絡爬蟲可以不遵守,但存在法律風險

4. 對Robots協定的了解

通路量很小:可以遵守

通路量較大:建議遵守

非商業且偶然:建議遵守

商業利益:必須遵守

必須遵守
爬取網頁 玩轉網頁 爬取網站 爬取系列網站 爬取全網

(如果一天通路幾次或者一小時通路一次,這種不頻繁的爬取,可以不遵守Robots協定)

5. 案例:京東的Robots協定

https://www.jd.com/robots.txt

User-agent: *

Disallow: /?*

Disallow: /pop/*.html

Disallow: /pinpai/*.html?*

User-agent: EtaoSpider

Disallow: /

User-agent: HuihuiSpider