Python網絡爬蟲（二）——Robots協定

2023-03-14 12:05:16

1. Robots協定的作用與形式

Robots全稱為Robot Exclusion Standard ，即網絡爬蟲排除标準

作用：網站告知網絡爬蟲哪些頁面可以抓取，哪些不行

形式：在網站根目錄下的robots.txt檔案

（如果無robots.txt檔案，可以随便爬取該網站的任何内容）

2. Robots協定基本文法

# 注釋，*代表所有，/代表根目錄

User-agent: *

Disallow: /

3. Robots協定的使用

網絡爬蟲：自動或人工識别robots.txt檔案，在進行内容爬取

限制性：Robots協定是建議但非限制性，網絡爬蟲可以不遵守，但存在法律風險

4. 對Robots協定的了解

通路量很小：可以遵守

通路量較大：建議遵守

非商業且偶然：建議遵守

商業利益：必須遵守

必須遵守

爬取網頁玩轉網頁

爬取網站爬取系列網站

爬取全網

（如果一天通路幾次或者一小時通路一次，這種不頻繁的爬取，可以不遵守Robots協定）

5. 案例：京東的Robots協定

https://www.jd.com/robots.txt

User-agent: *

Disallow: /?*

Disallow: /pop/*.html

Disallow: /pinpai/*.html?*

User-agent: EtaoSpider

Disallow: /

User-agent: HuihuiSpider

Python網絡爬蟲（二）——Robots協定

1. Robots協定的作用與形式

2. Robots協定基本文法

3. Robots協定的使用

4. 對Robots協定的了解

5. 案例：京東的Robots協定

繼續閱讀

來自python的【條件控制/語句循環/break/continue/else/pass】一、條件控制二、語句循環

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入