python爬蟲内置庫之urllib.robotparser--- robots.txt的解析器

2023-06-25 10:55:58

此子產品提供單個類，

RobotFileParser

用于回答有關特定使用者代理是否可以在釋出該

robots.txt

檔案的網站上擷取URL的問題。有關

robots.txt

檔案結構的更多詳細資訊，請參閱http://www.robotstxt.org/orig.html。

class

urllib.robotparser.

RobotFileParser

（url ='' ）

此類提供了

robots.txt

在url處讀取，解析和回答有關檔案的問題的方法。

set_url

（url ）

設定引用

robots.txt

檔案的URL 。

read

()

讀取

robots.txt

URL并将其提供給解析器。

parse

（行）

解析線條參數。

can_fetch

（useragent，url ）

傳回

True

是否允許useragent 根據解析檔案中包含的規則擷取url

robots.txt

。

mtime

()

傳回

robots.txt

上次提取檔案的時間。這對于需要

robots.txt

定期檢查新檔案的長期運作的Web蜘蛛非常有用。

modified

()

将

robots.txt

檔案上次提取的時間設定為目前時間。

crawl_delay

（使用者）

傳回有問題的useragent的

Crawl-delay

參數值。如果沒有此類參數或者它不适用于指定的useragent，或者此參數的條目具有無效文法，則傳回。

robots.txt

robots.txt

None

3.6 新版功能.

request_rate

（使用者）

傳回的内容

Request-rate

從參數

robots.txt

作為命名的元組。如果沒有此類參數或者它不适用于指定的useragent，或者此參數的條目具有無效文法，則傳回。

RequestRate(requests, seconds)

robots.txt

None

3.6 新版功能.

以下示例示範了

RobotFileParser

該類的基本用法：

>>>

>>> import urllib.robotparser
>>> rp = urllib.robotparser.RobotFileParser()
>>> rp.set_url("http://www.musi-cal.com/robots.txt")
>>> rp.read()
>>> rrate = rp.request_rate("*")
>>> rrate.requests
3
>>> rrate.seconds
20
>>> rp.crawl_delay("*")
6
>>> rp.can_fetch("*", "http://www.musi-cal.com/cgi-bin/search?city=San+Francisco")
False
>>> rp.can_fetch("*", "http://www.musi-cal.com/")
True

python爬蟲内置庫之urllib.robotparser--- robots.txt的解析器

繼續閱讀

Python爬蟲之網站超清圖檔爬取(2021.3.29)

Python入門級爬取百度百科詞條

16Python爬蟲---Scrapy常用指令

Python爬蟲基本庫的使用第二章基本庫的使用

Python爬蟲（四）lxml、xpath安裝子產品導入查找節點屬性查找 @ 符号使用謂語選取未知節點擷取文本和屬性

爬蟲學習之04-request子產品擷取糗事百科一張熱圖

python3下用selenium庫和chrome的headless模式實作網頁抓取（注釋中有用phantomJS的小段代碼）

【Python爬蟲案例學習19】多程序爬取某圖檔網站

python爬蟲實戰之爬取成語大全

【爬取百度首頁】-将整個html源碼儲存-headers使用一、網頁分析二、代碼實作與步驟三、結果分析

爬取百度貼吧

爬取貓眼電影--靜态網頁反爬與多線程/多程序爬取網頁解析爬取代碼多線程與多程序

requests子產品進行人人網模拟登陸

2023爬蟲學習筆記 -- 多線程操作

Python爬蟲學習（1）

Boss直聘Python爬蟲實戰