内置設定參考
以下是所有可用Scrapy設定的清單,按字母順序排列,以及它們的預設值和适用範圍。
範圍(如果可用)顯示設定的使用位置,如果它與任何特定元件相關聯。在那種情況下,将顯示該元件的子產品,通常是擴充,中間件或管道。它還意味着必須啟用該元件才能使設定産生任何效果。
AWS_ACCESS_KEY_ID
預設:
None
需要通路Amazon Web服務的代碼使用的AWS通路密鑰,例如S3 Feed存儲後端。
AWS_SECRET_ACCESS_KEY
None
需要通路Amazon Web服務的代碼使用的AWS密鑰,例如S3 Feed存儲後端。
AWS_ENDPOINT_URL
None
用于類似S3的存儲的端點URL,例如Minio或s3.scality。僅支援
botocore
庫。
AWS_USE_SSL
None
如果要禁用SSL連接配接以與S3或類似S3的存儲進行通信,請使用此選項。預設情況下,将使用SSL。僅支援
botocore
AWS_VERIFY
None
驗證Scrapy與S3或類似S3的存儲之間的SSL連接配接。預設情況下,将進行SSL驗證。僅支援
botocore
AWS_REGION_NAME
None
與AWS用戶端關聯的區域的名稱。僅支援
botocore
BOT_NAME
'scrapybot'
此Scrapy項目實作的機器人名稱(也稱為項目名稱)。這将預設用于建構User-Agent,也用于日志記錄。
使用該
startproject
指令建立項目時,它會自動填充項目名稱。
CONCURRENT_ITEMS
100
在項目處理器(也稱為項目管道)中并行處理的最大并發項數(每個響應)。
CONCURRENT_REQUESTS
16
Scrapy下載下傳程式将執行的最大并發(即同時)請求數。
CONCURRENT_REQUESTS_PER_DOMAIN
8
将對任何單個域執行的最大并發(即同時)請求數。
另請參閱:AutoThrottle擴充及其
AUTOTHROTTLE_TARGET_CONCURRENCY
選項。
CONCURRENT_REQUESTS_PER_IP
将對任何單個IP執行的最大并發(即同時)請求數。如果非零,
CONCURRENT_REQUESTS_PER_DOMAIN
則忽略該 設定,而使用此設定。換句話說,并發限制将應用于每個IP,而不是每個域。
此設定還會影響
DOWNLOAD_DELAY
和 AutoThrottle擴充:如果
CONCURRENT_REQUESTS_PER_IP
非零,則按 IP而不是每個域強制執行下載下傳延遲。
DEFAULT_ITEM_CLASS
'scrapy.item.Item'
将用于執行個體化Scrapy shell中的項的預設類。
DEFAULT_REQUEST_HEADERS
預設:
{
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
}
用于Scrapy HTTP請求的預設标頭。他們居住在
DefaultHeadersMiddleware
。
DEPTH_LIMIT
範圍:
scrapy.spidermiddlewares.depth.DepthMiddleware
允許為任何站點爬網的最大深度。如果為零,則不會施加任何限制。
DEPTH_PRIORITY
scrapy.spidermiddlewares.depth.DepthMiddleware
一個整數,用于根據深度調整請求優先級:
- 如果為零(預設),則不從深度進行優先級調整
- 正值将降低優先級,即稍後将處理更高深度的請求 ; 這在進行廣度優先爬網(BFO)時常用
- 負值将增加優先級,即更快的深度請求将被更快地處理(DFO)
另請參閱:Scrapy是以廣度優先還是深度優先順序爬行?關于為BFO或DFO調整Scrapy。
注意
此設定調整優先級以相反的方式相對于其他優先級設定
REDIRECT_PRIORITY_ADJUST
和
RETRY_PRIORITY_ADJUST
DEPTH_STATS_VERBOSE
False
scrapy.spidermiddlewares.depth.DepthMiddleware
是否收集詳細的深度統計資料。如果啟用此選項,則會在統計資訊中收集每個深度的請求數。
DNSCACHE_ENABLED
True
是否啟用DNS記憶體緩存。
DNSCACHE_SIZE
10000
DNS記憶體緩存大小。
DNS_TIMEOUT
60
在幾秒鐘内處理DNS查詢的逾時。支援浮動。
下載下傳
'scrapy.core.downloader.Downloader'
用于抓取的下載下傳程式。
DOWNLOADER_HTTPCLIENTFACTORY
'scrapy.core.downloader.webclient.ScrapyHTTPClientFactory'
定義
protocol.ClientFactory
用于HTTP / 1.0連接配接(for
HTTP10DownloadHandler
)的Twisted 類。
HTTP / 1.0現在很少或使用,是以您可以放心地忽略此設定,除非你使用雙絞線<11.1,如果你真的想使用HTTP / 1.0,并覆寫
DOWNLOAD_HANDLERS_BASE
了
http(s)
相應的方案,即
'scrapy.core.downloader.handlers.http.HTTP10DownloadHandler'
DOWNLOADER_CLIENTCONTEXTFACTORY
'scrapy.core.downloader.contextfactory.ScrapyClientContextFactory'
表示要使用的ContextFactory的類路徑。
這裡,“ContextFactory”是SSL / TLS上下文的Twisted術語,定義了要使用的TLS / SSL協定版本,是否進行證書驗證,甚至啟用用戶端身份驗證(以及其他各種事情)。
Scrapy預設上下文工廠不執行遠端伺服器證書驗證。這通常适用于網頁抓取。
如果确實需要啟用遠端伺服器證書驗證,Scrapy還有另一個可以設定的上下文工廠類
'scrapy.core.downloader.contextfactory.BrowserLikeContextFactory'
,它使用平台的證書來驗證遠端端點。 僅當您使用Twisted> = 14.0時才可用。
如果您确實使用自定義ContextFactory,請確定它
method
在init 接受參數(這是
OpenSSL.SSL
方法映射
DOWNLOADER_CLIENT_TLS_METHOD
)。
DOWNLOADER_CLIENT_TLS_METHOD
'TLS'
使用此設定可自定義預設HTTP / 1.1下載下傳程式使用的TLS / SSL方法。
此設定必須是以下字元串值之一:
-
:映射到OpenSSL'TLS'
(又名TLS_method()
),它允許協定協商,從平台支援的最高點開始; 預設,推薦SSLv23_method()
-
:此值強制HTTPS連接配接使用TLS 1.0版; 如果你想要Scrapy的行為<1.1,請設定此項'TLSv1.0'
-
:強制TLS版本1.1'TLSv1.1'
-
:強制TLS版本1.2'TLSv1.2'
-
:強制SSL版本3(不推薦)'SSLv3'
我們建議您使用PyOpenSSL> = 0.13和Twisted> = 0.13或更高(如果可以,Twisted> = 14.0)。
DOWNLOADER_MIDDLEWARES
預設::
{}
包含項目中啟用的下載下傳器中間件及其訂單的dict。有關更多資訊,請參閱激活下載下傳中間件。
DOWNLOADER_MIDDLEWARES_BASE
{
'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100,
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300,
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350,
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 400,
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 500,
'scrapy.downloadermiddlewares.retry.RetryMiddleware': 550,
'scrapy.downloadermiddlewares.ajaxcrawl.AjaxCrawlMiddleware': 560,
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580,
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590,
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600,
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750,
'scrapy.downloadermiddlewares.stats.DownloaderStats': 850,
'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900,
}
包含Scrapy中預設啟用的下載下傳器中間件的dict。低訂單更接近引擎,高訂單更接近下載下傳。您永遠不應該在項目中修改此設定,
DOWNLOADER_MIDDLEWARES
而是修改 。有關更多資訊,請參閱 激活下載下傳中間件。
DOWNLOADER_STATS
True
是否啟用下載下傳程式統計資訊收集。
DOWNLOAD_DELAY
在從同一網站下載下傳連續頁面之前,下載下傳程式應等待的時間(以秒為機關)。這可用于限制爬行速度,以避免過于嚴重地擊中伺服器。支援十進制數。例:
DOWNLOAD_DELAY = 0.25 # 250 ms of delay
此設定也受
RANDOMIZE_DOWNLOAD_DELAY
設定(預設情況下啟用)的影響。預設情況下,Scrapy不會在請求之間等待一段固定的時間,而是使用0.5 *
DOWNLOAD_DELAY
和1.5 * 之間的随機間隔
DOWNLOAD_DELAY
當
CONCURRENT_REQUESTS_PER_IP
非零時,每個IP位址而不是每個域強制執行延遲。
您還可以通過設定
download_delay
spider屬性來更改每個蜘蛛的此設定。
DOWNLOAD_HANDLERS
{}
包含項目中啟用的請求下載下傳程式處理程式的dict。請參閱
DOWNLOAD_HANDLERS_BASE
格式。
DOWNLOAD_HANDLERS_BASE
{
'file': 'scrapy.core.downloader.handlers.file.FileDownloadHandler',
'http': 'scrapy.core.downloader.handlers.http.HTTPDownloadHandler',
'https': 'scrapy.core.downloader.handlers.http.HTTPDownloadHandler',
's3': 'scrapy.core.downloader.handlers.s3.S3DownloadHandler',
'ftp': 'scrapy.core.downloader.handlers.ftp.FTPDownloadHandler',
}
包含Scrapy中預設啟用的請求下載下傳處理程式的dict。您永遠不應該在項目中修改此設定,
DOWNLOAD_HANDLERS
而是修改 。
您可以通過配置設定
None
其URI方案來禁用任何這些下載下傳處理程式
DOWNLOAD_HANDLERS
。例如,要禁用内置的FTP處理程式(無需替換),請将其放在
settings.py
:
DOWNLOAD_HANDLERS = {
'ftp': None,
}
DOWNLOAD_TIMEOUT
180
下載下傳程式在逾時之前等待的時間(以秒為機關)。
可以使用
download_timeout
spider屬性為每個spider設定此逾時,使用
download_timeout
Request.meta鍵為每個請求設定此逾時。
DOWNLOAD_MAXSIZE
預設值:1073741824(1024MB)
下載下傳程式将下載下傳的最大響應大小(以位元組為機關)。
如果要禁用它,請将其設定為0。
download_maxsize
spider屬性為每個蜘蛛設定此大小,使用
download_maxsize
Request.meta鍵為每個請求設定此大小。
此功能需要Twisted> = 11.1。
DOWNLOAD_WARNSIZE
預設值:33554432(32MB)
下載下傳程式将開始警告的響應大小(以位元組為機關)。
download_warnsize
download_warnsize
DOWNLOAD_FAIL_ON_DATALOSS
True
是否在響應中斷時失敗,即聲明
Content-Length
與伺服器發送的内容不比對或者分塊響應未正确完成。如果
True
,這些響應會引發
ResponseFailed([_DataLoss])
錯誤。如果
False
,這些響應被傳遞并且标志
dataloss
被添加到響應中,即: 是。
'dataloss'
in
response.flagsTrue
(可選)可以使用
download_fail_on_dataloss
Request.meta鍵為每個請求設定
False
在從伺服器配置錯誤到網絡錯誤再到資料損壞的幾種情況下,可能會發生損壞的響應或資料丢失錯誤。由使用者決定處理損壞的響應是否有意義,因為它們可能包含部分或不完整的内容。如果
RETRY_ENABLED
是,
True
并且此設定設定為
True
,
ResponseFailed([_DataLoss])
則将像往常一樣重試失敗。
DUPEFILTER_CLASS
'scrapy.dupefilters.RFPDupeFilter'
用于檢測和過濾重複請求的類。
預設(
RFPDupeFilter
)過濾器使用該
scrapy.utils.request.request_fingerprint
功能基于請求指紋。為了更改檢查重複項的方式,您可以子類化
RFPDupeFilter
并覆寫其
request_fingerprint
方法。此方法應接受scrapy
Request
對象并傳回其指紋(字元串)。
您可以通過設定
DUPEFILTER_CLASS
為禁用對重複請求的過濾
'scrapy.dupefilters.BaseDupeFilter'
。但是要非常小心,因為你可以進入爬行循環。通常最好将
dont_filter
參數設定為不應過濾
True
的特定參數
Request
DUPEFILTER_DEBUG
False
預設情況下,
RFPDupeFilter
僅記錄第一個重複請求。設定
DUPEFILTER_DEBUG
為
True
将使其記錄所有重複的請求。
編輯
預設值:(
vi
在Unix系統上)或IDLE編輯器(在Windows上)
用于使用
edit
指令編輯蜘蛛的編輯器。此外,如果
EDITOR
設定了環境變量,則
edit
指令将優先于預設設定。
擴充
{}
包含項目中啟用的擴充名及其訂單的dict。
EXTENSIONS_BASE
{
'scrapy.extensions.corestats.CoreStats': 0,
'scrapy.extensions.telnet.TelnetConsole': 0,
'scrapy.extensions.memusage.MemoryUsage': 0,
'scrapy.extensions.memdebug.MemoryDebugger': 0,
'scrapy.extensions.closespider.CloseSpider': 0,
'scrapy.extensions.feedexport.FeedExporter': 0,
'scrapy.extensions.logstats.LogStats': 0,
'scrapy.extensions.spiderstate.SpiderState': 0,
'scrapy.extensions.throttle.AutoThrottle': 0,
}
包含Scrapy中預設可用擴充名的dict及其順序。此設定包含所有穩定的内置擴充。請記住,其中一些需要通過設定啟用。
有關詳細資訊,請參閱擴充程式使用者指南 和可用擴充程式清單。
FEED_TEMPDIR
Feed Temp dir允許您在使用FTP Feed存儲和 Amazon S3上載之前設定自定義檔案夾以儲存搜尋器臨時檔案。
FTP_PASSIVE_MODE
True
在啟動FTP傳輸時是否使用被動模式。
FTP_PASSWORD
"guest"
該密碼才能使用FTP連接配接時,有沒有
"ftp_password"
在
Request
元。
解釋RFC 1635,雖然通常使用密碼“guest”或匿名FTP的一個電子郵件位址,但某些FTP伺服器明确要求使用者的電子郵件位址,并且不允許使用“訪客”密碼登入。
FTP_USER
"anonymous"
使用者名使用的FTP連接配接時,有沒有
"ftp_user"
Request
ITEM_PIPELINES
{}
包含要使用的項目管道的dict及其指令。訂單值是任意的,但通常在0-1000範圍内定義它們。在更高訂單之前降低訂單處理。
例:
ITEM_PIPELINES = {
'mybot.pipelines.validate.ValidateMyItem': 300,
'mybot.pipelines.validate.StoreMyItem': 800,
}
ITEM_PIPELINES_BASE
{}
包含Scrapy中預設啟用的管道的dict。您永遠不應該在項目中修改此設定,
ITEM_PIPELINES
而是修改。
LOG_ENABLED
True
是否啟用日志記錄。
LOG_ENCODING
'utf-8'
用于記錄的編碼。
LOG_FILE
None
用于記錄輸出的檔案名。如果
None
,将使用标準錯誤。
LOG_FORMAT
'%(asctime)s
[%(name)s]
%(levelname)s:
%(message)s'
用于格式化日志消息的字元串。有關可用占位符的完整清單,請參閱Python日志記錄文檔。
LOG_DATEFORMAT
'%Y-%m-%d
%H:%M:%S'
用于格式化日期/時間的字元串,用于擴充
%(asctime)s
占位符
LOG_FORMAT
。有關可用指令的完整清單,請參閱Python datetime文檔。
LOG_LEVEL
'DEBUG'
記錄的最低級别。可用級别包括:CRITICAL,ERROR,WARNING,INFO,DEBUG。有關更多資訊,請參閱記錄。
LOG_STDOUT
False
如果
True
,您的程序的所有标準輸出(和錯誤)将重定向到日志。例如,如果
print('hello')
它将出現在Scrapy日志中。
LOG_SHORT_NAMES
False
True
,日志将隻包含根路徑。如果設定為
False
則顯示負責日志輸出的元件
MEMDEBUG_ENABLED
False
是否啟用記憶體調試。
MEMDEBUG_NOTIFY
[]
啟用記憶體調試時,如果此設定不為空,則會将記憶體報告發送到指定的位址,否則報告将寫入日志。
MEMDEBUG_NOTIFY = ['[email protected]']
MEMUSAGE_ENABLED
True
scrapy.extensions.memusage
是否啟用記憶體使用擴充。此擴充程式跟蹤程序使用的峰值記憶體(将其寫入統計資訊)。它還可以選擇在超出記憶體限制時關閉Scrapy程序(請參閱參考資料
MEMUSAGE_LIMIT_MB
),并在發生時通過電子郵件通知(請參閱參考資料
MEMUSAGE_NOTIFY_MAIL
請參閱記憶體使用擴充。
MEMUSAGE_LIMIT_MB
scrapy.extensions.memusage
關閉Scrapy之前允許的最大記憶體量(以兆位元組為機關)(如果MEMUSAGE_ENABLED為True)。如果為零,則不執行檢查。
MEMUSAGE_CHECK_INTERVAL_SECONDS
版本1.1中的新功能。
60.0
scrapy.extensions.memusage
的記憶體使用擴充 會檢查目前存儲器使用,相對于限制由設定
MEMUSAGE_LIMIT_MB
MEMUSAGE_WARNING_MB
,以固定時間間隔。
這将設定這些間隔的長度,以秒為機關。
MEMUSAGE_NOTIFY_MAIL
False
scrapy.extensions.memusage
如果已達到記憶體限制,則通知的電子郵件清單。
MEMUSAGE_NOTIFY_MAIL = ['[email protected]']
MEMUSAGE_WARNING_MB
scrapy.extensions.memusage
發送警告電子郵件通知之前允許的最大記憶體量(以兆位元組為機關)。如果為零,則不會産生警告。
NEWSPIDER_MODULE
''
genspider
指令子產品在哪裡建立新的蜘蛛。
NEWSPIDER_MODULE = 'mybot.spiders_dev'
RANDOMIZE_DOWNLOAD_DELAY
True
如果啟用,Scrapy将在從同一網站擷取請求時等待一段随機時間(介于0.5 *
DOWNLOAD_DELAY
和1.5 *之間
DOWNLOAD_DELAY
這種随機化降低了爬行程式被分析請求的站點檢測(并随後被阻止)的機會,這些站點在其請求之間的時間内尋找統計上顯着的相似性。
随機化政策與wget
--random-wait
選項使用的相同。
DOWNLOAD_DELAY
為零(預設),則此選項無效。
REACTOR_THREADPOOL_MAXSIZE
10
Twisted Reactor線程池大小的最大限制。這是各種Scrapy元件使用的常見多用途線程池。螺紋DNS解析器,BlockingFeedStorage,S3FilesStore僅舉幾例。如果遇到阻塞IO不足的問題,請增加此值。
REDIRECT_MAX_TIMES
20
定義可以重定向請求的最大次數。在此最大值之後,請求的響應将按原樣傳回。我們使用Firefox預設值來執行相同的任務。
REDIRECT_PRIORITY_ADJUST
+2
scrapy.downloadermiddlewares.redirect.RedirectMiddleware
相對于原始請求調整重定向請求優先級:
- 正優先級調整(預設)意味着更高的優先級。
- 負優先級調整意味着較低的優先級。
RETRY_PRIORITY_ADJUST
-1
scrapy.downloadermiddlewares.retry.RetryMiddleware
相對于原始請求調整重試請求優先級:
- 正優先級調整意味着更高的優先級。
- 負優先級調整(預設)表示優先級較低。
ROBOTSTXT_OBEY
False
scrapy.downloadermiddlewares.robotstxt
如果啟用,Scrapy将尊重robots.txt政策。有關更多資訊,請參閱 RobotsTxtMiddleware。
雖然預設值是
False
出于曆史原因,但預設情況下會在指令生成的settings.py檔案中啟用此選項。
scrapy
startproject
排程器
'scrapy.core.scheduler.Scheduler'
用于爬網的排程程式。
SCHEDULER_DEBUG
False
設定為
True
将記錄有關請求排程程式的調試資訊。如果請求無法序列化到磁盤,則此目前日志(僅一次)。Stats counter(
scheduler/unserializable
)跟蹤發生這種情況的次數。
日志中的示例條目:
1956-01-31 00:00:00+0800 [scrapy.core.scheduler] ERROR: Unable to serialize request:
<GET http://example.com> - reason: cannot serialize <Request at 0x9a7c7ec>
(type Request)> - no more unserializable requests will be logged
(see 'scheduler/unserializable' stats counter)
SCHEDULER_DISK_QUEUE
'scrapy.squeues.PickleLifoDiskQueue'
排程程式将使用的磁盤隊列類型。其他可用的類型有
scrapy.squeues.PickleFifoDiskQueue
scrapy.squeues.MarshalFifoDiskQueue
scrapy.squeues.MarshalLifoDiskQueue
SCHEDULER_MEMORY_QUEUE
'scrapy.squeues.LifoMemoryQueue'
排程程式使用的記憶體中隊列的類型。其他可用的類型是:
scrapy.squeues.FifoMemoryQueue
SCHEDULER_PRIORITY_QUEUE
'queuelib.PriorityQueue'
排程程式使用的優先級隊列的類型。
SPIDER_CONTRACTS
{}
包含項目中啟用的蜘蛛合同的dict,用于測試蜘蛛。有關更多資訊,請參閱蜘蛛合同。
SPIDER_CONTRACTS_BASE
{
'scrapy.contracts.default.UrlContract' : 1,
'scrapy.contracts.default.ReturnsContract': 2,
'scrapy.contracts.default.ScrapesContract': 3,
}
包含scrapy預設情況下啟用的scrapy合約的dict。您永遠不應該在項目中修改此設定,
SPIDER_CONTRACTS
而是修改。有關更多資訊,請參閱蜘蛛合同。
None
其類路徑來禁用任何這些合同
SPIDER_CONTRACTS
。例如,要禁用内置功能
ScrapesContract
,請将其放入
settings.py
SPIDER_CONTRACTS = {
'scrapy.contracts.default.ScrapesContract': None,
}
SPIDER_LOADER_CLASS
'scrapy.spiderloader.SpiderLoader'
将用于加載蜘蛛的類,必須實作 SpiderLoader API。
SPIDER_LOADER_WARN_ONLY
版本1.3.3中的新功能。
False
預設情況下,當scrapy嘗試從中導入蜘蛛類時
SPIDER_MODULES
,如果有任何
ImportError
異常,它将大聲失敗。但您可以選擇将此異常靜音并通過設定将其轉換為簡單警告。
SPIDER_LOADER_WARN_ONLY
=
True
有些scrapy指令使用此設定運作
True
已經(即他們隻會發出警告并不會失敗),因為他們實際上并不需要加載蜘蛛類的工作: , , ,。
scrapy
runspiderscrapy
settingsscrapy``startprojectscrapy
version
SPIDER_MIDDLEWARES
{}
包含項目中啟用的蜘蛛中間件及其指令的dict。有關更多資訊,請參閱激活蜘蛛中間件。
SPIDER_MIDDLEWARES_BASE
{
'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware': 50,
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware': 500,
'scrapy.spidermiddlewares.referer.RefererMiddleware': 700,
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware': 800,
'scrapy.spidermiddlewares.depth.DepthMiddleware': 900,
}
包含Scrapy中預設啟用的蜘蛛中間件及其指令的dict。低訂單更接近引擎,高訂單更接近蜘蛛。有關更多資訊,請參閱激活蜘蛛中間件。
SPIDER_MODULES
[]
Scrapy将尋找蜘蛛的子產品清單。
SPIDER_MODULES = ['mybot.spiders_prod', 'mybot.spiders_dev']
STATS_CLASS
'scrapy.statscollectors.MemoryStatsCollector'
用于收集統計資訊的類,必須實作 Stats Collector API。
STATS_DUMP
True
蜘蛛完成後,将Scrapy統計資料(轉到Scrapy日志)轉儲。
有關詳細資訊,請參閱:統計資訊收集。
STATSMAILER_RCPTS
[]
空清單)
在蜘蛛完成刮擦後發送Scrapy統計資料。有關詳情
StatsMailer
,請參閱 。
TELNETCONSOLE_ENABLED
True
一個布爾值,指定是否 啟用telnet控制台(如果其擴充名也已啟用)。
TELNETCONSOLE_PORT
[6023,
6073]
用于telnet控制台的端口範圍。如果設定為
None
或
,則使用動态配置設定的端口。有關詳細資訊,請參閱 Telnet控制台。
TEMPLATES_DIR
預設值:
templates
dir在scrapy子產品中
使用
startproject
指令建立新項目時使用指令查找模闆的目錄以及使用指令建立 新蜘蛛的目錄
genspider
。
項目名稱不得與
project
子目錄中的自定義檔案或目錄的名稱沖突。
URLLENGTH_LIMIT
2083
spidermiddlewares.urllength
允許抓取的網址的最大網址長度。有關此設定的預設值的詳細資訊,請參閱:https://
http://boutell.com/newfaq/misc/urllength.htmlUSER_AGENT
"Scrapy/VERSION
(+https://scrapy.org)"
爬網時使用的預設User-Agent,除非被覆寫。