前言

上一節學習了requests庫，這一節學習robots協定

限制爬蟲的方法

審查爬蟲來源，需要網站作者有一定的程式設計基礎
聲明robots協定，一般放在網站的根目錄下，robots.txt檔案

京東robots協定

京東robots連結

User-agent: *

Disallow: /?*

Disallow: /pop/.html

Disallow: /pinpai/.html?*

User-agent: EtaoSpider

Disallow: /

User-agent: HuihuiSpider

Disallow: /

User-agent: GwdangSpider

Disallow: /

User-agent: WochachaSpider

Disallow: /

其他robots協定

百度robots協定

新浪robots協定

qq的robots協定

qq新聞robots協定

國家教育部無robots協定

網站不提供robots協定則全網可以随意爬取

robots協定的使用

任意爬蟲檔案應該可以自動識别robots.txt檔案
不遵守爬蟲協定則可能面臨法律風險
低頻率的爬蟲通路網站是允許的，但不可商用

總結

爬蟲協定說明：

User-angent: *表示所有使用者

Disallow：/表示所有目錄不可爬取

Python網絡爬蟲與資訊提取（2）—— 爬蟲協定前言限制爬蟲的方法京東robots協定其他robots協定robots協定的使用總結

前言

限制爬蟲的方法

京東robots協定

其他robots協定

robots協定的使用

總結

繼續閱讀

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

sort()函數到底是怎樣進行數字排序的

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入