scrapy常用設定參考手冊

内置設定參考

以下是所有可用Scrapy設定的清單，按字母順序排列，以及它們的預設值和适用範圍。

範圍（如果可用）顯示設定的使用位置，如果它與任何特定元件相關聯。在那種情況下，将顯示該元件的子產品，通常是擴充，中間件或管道。它還意味着必須啟用該元件才能使設定産生任何效果。

AWS_ACCESS_KEY_ID

預設：

None

需要通路Amazon Web服務的代碼使用的AWS通路密鑰，例如S3 Feed存儲後端。

AWS_SECRET_ACCESS_KEY

None

需要通路Amazon Web服務的代碼使用的AWS密鑰，例如S3 Feed存儲後端。

AWS_ENDPOINT_URL

None

用于類似S3的存儲的端點URL，例如Minio或s3.scality。僅支援

botocore

庫。

AWS_USE_SSL

None

如果要禁用SSL連接配接以與S3或類似S3的存儲進行通信，請使用此選項。預設情況下，将使用SSL。僅支援

botocore

AWS_VERIFY

None

驗證Scrapy與S3或類似S3的存儲之間的SSL連接配接。預設情況下，将進行SSL驗證。僅支援

botocore

AWS_REGION_NAME

None

與AWS用戶端關聯的區域的名稱。僅支援

botocore

BOT_NAME

'scrapybot'

此Scrapy項目實作的機器人名稱（也稱為項目名稱）。這将預設用于建構User-Agent，也用于日志記錄。

使用該

startproject

指令建立項目時，它會自動填充項目名稱。

CONCURRENT_ITEMS

在項目處理器（也稱為項目管道）中并行處理的最大并發項數（每個響應）。

CONCURRENT_REQUESTS

Scrapy下載下傳程式将執行的最大并發（即同時）請求數。

CONCURRENT_REQUESTS_PER_DOMAIN

将對任何單個域執行的最大并發（即同時）請求數。

另請參閱：AutoThrottle擴充及其

AUTOTHROTTLE_TARGET_CONCURRENCY

選項。

CONCURRENT_REQUESTS_PER_IP

将對任何單個IP執行的最大并發（即同時）請求數。如果非零，

CONCURRENT_REQUESTS_PER_DOMAIN

則忽略該設定，而使用此設定。換句話說，并發限制将應用于每個IP，而不是每個域。

此設定還會影響

DOWNLOAD_DELAY

和 AutoThrottle擴充：如果

CONCURRENT_REQUESTS_PER_IP

非零，則按 IP而不是每個域強制執行下載下傳延遲。

DEFAULT_ITEM_CLASS

'scrapy.item.Item'

将用于執行個體化Scrapy shell中的項的預設類。

DEFAULT_REQUEST_HEADERS

預設：

{
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'en',
}

用于Scrapy HTTP請求的預設标頭。他們居住在

DefaultHeadersMiddleware

。

DEPTH_LIMIT

範圍：

scrapy.spidermiddlewares.depth.DepthMiddleware

允許為任何站點爬網的最大深度。如果為零，則不會施加任何限制。

DEPTH_PRIORITY

scrapy.spidermiddlewares.depth.DepthMiddleware

一個整數，用于根據深度調整請求優先級：

如果為零（預設），則不從深度進行優先級調整
正值将降低優先級，即稍後将處理更高深度的請求 ; 這在進行廣度優先爬網（BFO）時常用
負值将增加優先級，即更快的深度請求将被更快地處理（DFO）

另請參閱：Scrapy是以廣度優先還是深度優先順序爬行？關于為BFO或DFO調整Scrapy。

注意

此設定調整優先級以相反的方式相對于其他優先級設定

REDIRECT_PRIORITY_ADJUST

和

RETRY_PRIORITY_ADJUST

DEPTH_STATS_VERBOSE

False

scrapy.spidermiddlewares.depth.DepthMiddleware

是否收集詳細的深度統計資料。如果啟用此選項，則會在統計資訊中收集每個深度的請求數。

DNSCACHE_ENABLED

True

是否啟用DNS記憶體緩存。

DNSCACHE_SIZE

DNS記憶體緩存大小。

DNS_TIMEOUT

在幾秒鐘内處理DNS查詢的逾時。支援浮動。

下載下傳

'scrapy.core.downloader.Downloader'

用于抓取的下載下傳程式。

DOWNLOADER_HTTPCLIENTFACTORY

'scrapy.core.downloader.webclient.ScrapyHTTPClientFactory'

定義

protocol.ClientFactory

用于HTTP / 1.0連接配接（for

HTTP10DownloadHandler

）的Twisted 類。

HTTP / 1.0現在很少或使用，是以您可以放心地忽略此設定，除非你使用雙絞線<11.1，如果你真的想使用HTTP / 1.0，并覆寫

DOWNLOAD_HANDLERS_BASE

了

http(s)

相應的方案，即

'scrapy.core.downloader.handlers.http.HTTP10DownloadHandler'

DOWNLOADER_CLIENTCONTEXTFACTORY

'scrapy.core.downloader.contextfactory.ScrapyClientContextFactory'

表示要使用的ContextFactory的類路徑。

這裡，“ContextFactory”是SSL / TLS上下文的Twisted術語，定義了要使用的TLS / SSL協定版本，是否進行證書驗證，甚至啟用用戶端身份驗證（以及其他各種事情）。

Scrapy預設上下文工廠不執行遠端伺服器證書驗證。這通常适用于網頁抓取。

如果确實需要啟用遠端伺服器證書驗證，Scrapy還有另一個可以設定的上下文工廠類

'scrapy.core.downloader.contextfactory.BrowserLikeContextFactory'

，它使用平台的證書來驗證遠端端點。僅當您使用Twisted> = 14.0時才可用。

如果您确實使用自定義ContextFactory，請確定它

method

在init 接受參數（這是

OpenSSL.SSL

方法映射

DOWNLOADER_CLIENT_TLS_METHOD

）。

DOWNLOADER_CLIENT_TLS_METHOD

'TLS'

使用此設定可自定義預設HTTP / 1.1下載下傳程式使用的TLS / SSL方法。

此設定必須是以下字元串值之一：

'TLS' ：映射到OpenSSL TLS_method() （又名 SSLv23_method() ），它允許協定協商，從平台支援的最高點開始; 預設，推薦
'TLSv1.0' ：此值強制HTTPS連接配接使用TLS 1.0版; 如果你想要Scrapy的行為<1.1，請設定此項
'TLSv1.1' ：強制TLS版本1.1
'TLSv1.2' ：強制TLS版本1.2
'SSLv3' ：強制SSL版本3（不推薦）

我們建議您使用PyOpenSSL> = 0.13和Twisted> = 0.13或更高（如果可以，Twisted> = 14.0）。

DOWNLOADER_MIDDLEWARES

預設：：

{}

包含項目中啟用的下載下傳器中間件及其訂單的dict。有關更多資訊，請參閱激活下載下傳中間件。

DOWNLOADER_MIDDLEWARES_BASE

{
    'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100,
    'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300,
    'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350,
    'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 400,
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 500,
    'scrapy.downloadermiddlewares.retry.RetryMiddleware': 550,
    'scrapy.downloadermiddlewares.ajaxcrawl.AjaxCrawlMiddleware': 560,
    'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590,
    'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600,
    'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750,
    'scrapy.downloadermiddlewares.stats.DownloaderStats': 850,
    'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900,
}

包含Scrapy中預設啟用的下載下傳器中間件的dict。低訂單更接近引擎，高訂單更接近下載下傳。您永遠不應該在項目中修改此設定，

DOWNLOADER_MIDDLEWARES

而是修改。有關更多資訊，請參閱激活下載下傳中間件。

DOWNLOADER_STATS

True

是否啟用下載下傳程式統計資訊收集。

DOWNLOAD_DELAY

在從同一網站下載下傳連續頁面之前，下載下傳程式應等待的時間（以秒為機關）。這可用于限制爬行速度，以避免過于嚴重地擊中伺服器。支援十進制數。例：

DOWNLOAD_DELAY = 0.25    # 250 ms of delay

此設定也受

RANDOMIZE_DOWNLOAD_DELAY

設定（預設情況下啟用）的影響。預設情況下，Scrapy不會在請求之間等待一段固定的時間，而是使用0.5 *

DOWNLOAD_DELAY

和1.5 * 之間的随機間隔

DOWNLOAD_DELAY

當

CONCURRENT_REQUESTS_PER_IP

非零時，每個IP位址而不是每個域強制執行延遲。

您還可以通過設定

download_delay

spider屬性來更改每個蜘蛛的此設定。

DOWNLOAD_HANDLERS

{}

包含項目中啟用的請求下載下傳程式處理程式的dict。請參閱

DOWNLOAD_HANDLERS_BASE

格式。

DOWNLOAD_HANDLERS_BASE

{
    'file': 'scrapy.core.downloader.handlers.file.FileDownloadHandler',
    'http': 'scrapy.core.downloader.handlers.http.HTTPDownloadHandler',
    'https': 'scrapy.core.downloader.handlers.http.HTTPDownloadHandler',
    's3': 'scrapy.core.downloader.handlers.s3.S3DownloadHandler',
    'ftp': 'scrapy.core.downloader.handlers.ftp.FTPDownloadHandler',
}

包含Scrapy中預設啟用的請求下載下傳處理程式的dict。您永遠不應該在項目中修改此設定，

DOWNLOAD_HANDLERS

而是修改。

您可以通過配置設定

None

其URI方案來禁用任何這些下載下傳處理程式

DOWNLOAD_HANDLERS

。例如，要禁用内置的FTP處理程式（無需替換），請将其放在

settings.py

：

DOWNLOAD_HANDLERS = {
    'ftp': None,
}

DOWNLOAD_TIMEOUT

下載下傳程式在逾時之前等待的時間（以秒為機關）。

可以使用

download_timeout

spider屬性為每個spider設定此逾時，使用

download_timeout

Request.meta鍵為每個請求設定此逾時。

DOWNLOAD_MAXSIZE

預設值：1073741824（1024MB）

下載下傳程式将下載下傳的最大響應大小（以位元組為機關）。

如果要禁用它，請将其設定為0。

download_maxsize

spider屬性為每個蜘蛛設定此大小，使用

download_maxsize

Request.meta鍵為每個請求設定此大小。

此功能需要Twisted> = 11.1。

DOWNLOAD_WARNSIZE

預設值：33554432（32MB）

下載下傳程式将開始警告的響應大小（以位元組為機關）。

download_warnsize

download_warnsize

DOWNLOAD_FAIL_ON_DATALOSS

True

是否在響應中斷時失敗，即聲明

Content-Length

與伺服器發送的内容不比對或者分塊響應未正确完成。如果

True

，這些響應會引發

ResponseFailed([_DataLoss])

錯誤。如果

False

，這些響應被傳遞并且标志

dataloss

被添加到響應中，即：是。

'dataloss'

in

response.flagsTrue

（可選）可以使用

download_fail_on_dataloss

Request.meta鍵為每個請求設定

False

在從伺服器配置錯誤到網絡錯誤再到資料損壞的幾種情況下，可能會發生損壞的響應或資料丢失錯誤。由使用者決定處理損壞的響應是否有意義，因為它們可能包含部分或不完整的内容。如果

RETRY_ENABLED

是，

True

并且此設定設定為

True

，

ResponseFailed([_DataLoss])

則将像往常一樣重試失敗。

DUPEFILTER_CLASS

'scrapy.dupefilters.RFPDupeFilter'

用于檢測和過濾重複請求的類。

預設（

RFPDupeFilter

）過濾器使用該

scrapy.utils.request.request_fingerprint

功能基于請求指紋。為了更改檢查重複項的方式，您可以子類化

RFPDupeFilter

并覆寫其

request_fingerprint

方法。此方法應接受scrapy

Request

對象并傳回其指紋（字元串）。

您可以通過設定

DUPEFILTER_CLASS

為禁用對重複請求的過濾

'scrapy.dupefilters.BaseDupeFilter'

。但是要非常小心，因為你可以進入爬行循環。通常最好将

dont_filter

參數設定為不應過濾

True

的特定參數

Request

DUPEFILTER_DEBUG

False

預設情況下，

RFPDupeFilter

僅記錄第一個重複請求。設定

DUPEFILTER_DEBUG

為

True

将使其記錄所有重複的請求。

編輯

預設值:(

vi

在Unix系統上）或IDLE編輯器（在Windows上）

用于使用

edit

指令編輯蜘蛛的編輯器。此外，如果

EDITOR

設定了環境變量，則

edit

指令将優先于預設設定。

擴充

{}

包含項目中啟用的擴充名及其訂單的dict。

EXTENSIONS_BASE

{
    'scrapy.extensions.corestats.CoreStats': 0,
    'scrapy.extensions.telnet.TelnetConsole': 0,
    'scrapy.extensions.memusage.MemoryUsage': 0,
    'scrapy.extensions.memdebug.MemoryDebugger': 0,
    'scrapy.extensions.closespider.CloseSpider': 0,
    'scrapy.extensions.feedexport.FeedExporter': 0,
    'scrapy.extensions.logstats.LogStats': 0,
    'scrapy.extensions.spiderstate.SpiderState': 0,
    'scrapy.extensions.throttle.AutoThrottle': 0,
}

包含Scrapy中預設可用擴充名的dict及其順序。此設定包含所有穩定的内置擴充。請記住，其中一些需要通過設定啟用。

有關詳細資訊，請參閱擴充程式使用者指南和可用擴充程式清單。

FEED_TEMPDIR

Feed Temp dir允許您在使用FTP Feed存儲和 Amazon S3上載之前設定自定義檔案夾以儲存搜尋器臨時檔案。

FTP_PASSIVE_MODE

True

在啟動FTP傳輸時是否使用被動模式。

FTP_PASSWORD

"guest"

該密碼才能使用FTP連接配接時，有沒有

"ftp_password"

在

Request

元。

解釋RFC 1635，雖然通常使用密碼“guest”或匿名FTP的一個電子郵件位址，但某些FTP伺服器明确要求使用者的電子郵件位址，并且不允許使用“訪客”密碼登入。

FTP_USER

"anonymous"

使用者名使用的FTP連接配接時，有沒有

"ftp_user"

Request

ITEM_PIPELINES

{}

包含要使用的項目管道的dict及其指令。訂單值是任意的，但通常在0-1000範圍内定義它們。在更高訂單之前降低訂單處理。

例：

ITEM_PIPELINES = {
    'mybot.pipelines.validate.ValidateMyItem': 300,
    'mybot.pipelines.validate.StoreMyItem': 800,
}

ITEM_PIPELINES_BASE

{}

包含Scrapy中預設啟用的管道的dict。您永遠不應該在項目中修改此設定，

ITEM_PIPELINES

而是修改。

LOG_ENABLED

True

是否啟用日志記錄。

LOG_ENCODING

'utf-8'

用于記錄的編碼。

LOG_FILE

None

用于記錄輸出的檔案名。如果

None

，将使用标準錯誤。

LOG_FORMAT

'%(asctime)s

[%(name)s]

%(levelname)s:

%(message)s'

用于格式化日志消息的字元串。有關可用占位符的完整清單，請參閱Python日志記錄文檔。

LOG_DATEFORMAT

'%Y-%m-%d

%H:%M:%S'

用于格式化日期/時間的字元串，用于擴充

%(asctime)s

占位符

LOG_FORMAT

。有關可用指令的完整清單，請參閱Python datetime文檔。

LOG_LEVEL

'DEBUG'

記錄的最低級别。可用級别包括：CRITICAL，ERROR，WARNING，INFO，DEBUG。有關更多資訊，請參閱記錄。

LOG_STDOUT

False

如果

True

，您的程序的所有标準輸出（和錯誤）将重定向到日志。例如，如果

print('hello')

它将出現在Scrapy日志中。

LOG_SHORT_NAMES

False

True

，日志将隻包含根路徑。如果設定為

False

則顯示負責日志輸出的元件

MEMDEBUG_ENABLED

False

是否啟用記憶體調試。

MEMDEBUG_NOTIFY

[]

啟用記憶體調試時，如果此設定不為空，則會将記憶體報告發送到指定的位址，否則報告将寫入日志。

MEMDEBUG_NOTIFY = ['[email protected]']

MEMUSAGE_ENABLED

True

scrapy.extensions.memusage

是否啟用記憶體使用擴充。此擴充程式跟蹤程序使用的峰值記憶體（将其寫入統計資訊）。它還可以選擇在超出記憶體限制時關閉Scrapy程序（請參閱參考資料

MEMUSAGE_LIMIT_MB

），并在發生時通過電子郵件通知（請參閱參考資料

MEMUSAGE_NOTIFY_MAIL

請參閱記憶體使用擴充。

MEMUSAGE_LIMIT_MB

scrapy.extensions.memusage

關閉Scrapy之前允許的最大記憶體量（以兆位元組為機關）（如果MEMUSAGE_ENABLED為True）。如果為零，則不執行檢查。

MEMUSAGE_CHECK_INTERVAL_SECONDS

版本1.1中的新功能。

60.0

scrapy.extensions.memusage

的記憶體使用擴充會檢查目前存儲器使用，相對于限制由設定

MEMUSAGE_LIMIT_MB

MEMUSAGE_WARNING_MB

，以固定時間間隔。

這将設定這些間隔的長度，以秒為機關。

MEMUSAGE_NOTIFY_MAIL

False

scrapy.extensions.memusage

如果已達到記憶體限制，則通知的電子郵件清單。

MEMUSAGE_NOTIFY_MAIL = ['[email protected]']

MEMUSAGE_WARNING_MB

scrapy.extensions.memusage

發送警告電子郵件通知之前允許的最大記憶體量（以兆位元組為機關）。如果為零，則不會産生警告。

NEWSPIDER_MODULE

''

genspider

指令子產品在哪裡建立新的蜘蛛。

NEWSPIDER_MODULE = 'mybot.spiders_dev'

RANDOMIZE_DOWNLOAD_DELAY

True

如果啟用，Scrapy将在從同一網站擷取請求時等待一段随機時間（介于0.5 *

DOWNLOAD_DELAY

和1.5 *之間

DOWNLOAD_DELAY

這種随機化降低了爬行程式被分析請求的站點檢測（并随後被阻止）的機會，這些站點在其請求之間的時間内尋找統計上顯着的相似性。

随機化政策與wget

--random-wait

選項使用的相同。

DOWNLOAD_DELAY

為零（預設），則此選項無效。

REACTOR_THREADPOOL_MAXSIZE

Twisted Reactor線程池大小的最大限制。這是各種Scrapy元件使用的常見多用途線程池。螺紋DNS解析器，BlockingFeedStorage，S3FilesStore僅舉幾例。如果遇到阻塞IO不足的問題，請增加此值。

REDIRECT_MAX_TIMES

定義可以重定向請求的最大次數。在此最大值之後，請求的響應将按原樣傳回。我們使用Firefox預設值來執行相同的任務。

REDIRECT_PRIORITY_ADJUST

+2

scrapy.downloadermiddlewares.redirect.RedirectMiddleware

相對于原始請求調整重定向請求優先級：

正優先級調整（預設）意味着更高的優先級。
負優先級調整意味着較低的優先級。

RETRY_PRIORITY_ADJUST

-1

scrapy.downloadermiddlewares.retry.RetryMiddleware

相對于原始請求調整重試請求優先級：

正優先級調整意味着更高的優先級。
負優先級調整（預設）表示優先級較低。

ROBOTSTXT_OBEY

False

scrapy.downloadermiddlewares.robotstxt

如果啟用，Scrapy将尊重robots.txt政策。有關更多資訊，請參閱 RobotsTxtMiddleware。

雖然預設值是

False

出于曆史原因，但預設情況下會在指令生成的settings.py檔案中啟用此選項。

scrapy

startproject

排程器

'scrapy.core.scheduler.Scheduler'

用于爬網的排程程式。

SCHEDULER_DEBUG

False

設定為

True

将記錄有關請求排程程式的調試資訊。如果請求無法序列化到磁盤，則此目前日志（僅一次）。Stats counter（

scheduler/unserializable

）跟蹤發生這種情況的次數。

日志中的示例條目：

1956-01-31 00:00:00+0800 [scrapy.core.scheduler] ERROR: Unable to serialize request:
<GET http://example.com> - reason: cannot serialize <Request at 0x9a7c7ec>
(type Request)> - no more unserializable requests will be logged
(see 'scheduler/unserializable' stats counter)

SCHEDULER_DISK_QUEUE

'scrapy.squeues.PickleLifoDiskQueue'

排程程式将使用的磁盤隊列類型。其他可用的類型有

scrapy.squeues.PickleFifoDiskQueue

scrapy.squeues.MarshalFifoDiskQueue

scrapy.squeues.MarshalLifoDiskQueue

SCHEDULER_MEMORY_QUEUE

'scrapy.squeues.LifoMemoryQueue'

排程程式使用的記憶體中隊列的類型。其他可用的類型是：

scrapy.squeues.FifoMemoryQueue

SCHEDULER_PRIORITY_QUEUE

'queuelib.PriorityQueue'

排程程式使用的優先級隊列的類型。

SPIDER_CONTRACTS

{}

包含項目中啟用的蜘蛛合同的dict，用于測試蜘蛛。有關更多資訊，請參閱蜘蛛合同。

SPIDER_CONTRACTS_BASE

{
    'scrapy.contracts.default.UrlContract' : 1,
    'scrapy.contracts.default.ReturnsContract': 2,
    'scrapy.contracts.default.ScrapesContract': 3,
}

包含scrapy預設情況下啟用的scrapy合約的dict。您永遠不應該在項目中修改此設定，

SPIDER_CONTRACTS

而是修改。有關更多資訊，請參閱蜘蛛合同。

None

其類路徑來禁用任何這些合同

SPIDER_CONTRACTS

。例如，要禁用内置功能

ScrapesContract

，請将其放入

settings.py

SPIDER_CONTRACTS = {
    'scrapy.contracts.default.ScrapesContract': None,
}

SPIDER_LOADER_CLASS

'scrapy.spiderloader.SpiderLoader'

将用于加載蜘蛛的類，必須實作 SpiderLoader API。

SPIDER_LOADER_WARN_ONLY

版本1.3.3中的新功能。

False

預設情況下，當scrapy嘗試從中導入蜘蛛類時

SPIDER_MODULES

，如果有任何

ImportError

異常，它将大聲失敗。但您可以選擇将此異常靜音并通過設定将其轉換為簡單警告。

SPIDER_LOADER_WARN_ONLY

True

有些scrapy指令使用此設定運作

True

已經（即他們隻會發出警告并不會失敗），因為他們實際上并不需要加載蜘蛛類的工作：，，，。

scrapy

runspiderscrapy

settingsscrapy``startprojectscrapy

version

SPIDER_MIDDLEWARES

{}

包含項目中啟用的蜘蛛中間件及其指令的dict。有關更多資訊，請參閱激活蜘蛛中間件。

SPIDER_MIDDLEWARES_BASE

{
    'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware': 50,
    'scrapy.spidermiddlewares.offsite.OffsiteMiddleware': 500,
    'scrapy.spidermiddlewares.referer.RefererMiddleware': 700,
    'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware': 800,
    'scrapy.spidermiddlewares.depth.DepthMiddleware': 900,
}

包含Scrapy中預設啟用的蜘蛛中間件及其指令的dict。低訂單更接近引擎，高訂單更接近蜘蛛。有關更多資訊，請參閱激活蜘蛛中間件。

SPIDER_MODULES

[]

Scrapy将尋找蜘蛛的子產品清單。

SPIDER_MODULES = ['mybot.spiders_prod', 'mybot.spiders_dev']

STATS_CLASS

'scrapy.statscollectors.MemoryStatsCollector'

用于收集統計資訊的類，必須實作 Stats Collector API。

STATS_DUMP

True

蜘蛛完成後，将Scrapy統計資料（轉到Scrapy日志）轉儲。

有關詳細資訊，請參閱：統計資訊收集。

STATSMAILER_RCPTS

[]

空清單）

在蜘蛛完成刮擦後發送Scrapy統計資料。有關詳情

StatsMailer

，請參閱。

TELNETCONSOLE_ENABLED

True

一個布爾值，指定是否啟用telnet控制台（如果其擴充名也已啟用）。

TELNETCONSOLE_PORT

[6023,

6073]

用于telnet控制台的端口範圍。如果設定為

None

或

，則使用動态配置設定的端口。有關詳細資訊，請參閱 Telnet控制台。

TEMPLATES_DIR

預設值：

templates

dir在scrapy子產品中

使用

startproject

指令建立新項目時使用指令查找模闆的目錄以及使用指令建立新蜘蛛的目錄

genspider

。

項目名稱不得與

project

URLLENGTH_LIMIT

spidermiddlewares.urllength

允許抓取的網址的最大網址長度。有關此設定的預設值的詳細資訊，請參閱：https：//

http://boutell.com/newfaq/misc/urllength.html

USER_AGENT

"Scrapy/VERSION

(+https://scrapy.org)"

爬網時使用的預設User-Agent，除非被覆寫。