天天看點

scrapy常用設定參考手冊

内置設定參考

以下是所有可用Scrapy設定的清單,按字母順序排列,以及它們的預設值和适用範圍。

範圍(如果可用)顯示設定的使用位置,如果它與任何特定元件相關聯。在那種情況下,将顯示該元件的子產品,通常是擴充,中間件或管道。它還意味着必須啟用該元件才能使設定産生任何效果。

AWS_ACCESS_KEY_ID

預設: 

None

需要通路Amazon Web服務的代碼使用的AWS通路密鑰,例如S3 Feed存儲後端。

AWS_SECRET_ACCESS_KEY

None

需要通路Amazon Web服務的代碼使用的AWS密鑰,例如S3 Feed存儲後端。

AWS_ENDPOINT_URL

None

用于類似S3的存儲的端點URL,例如Minio或s3.scality。僅支援

botocore

庫。

AWS_USE_SSL

None

如果要禁用SSL連接配接以與S3或類似S3的存儲進行通信,請使用此選項。預設情況下,将使用SSL。僅支援

botocore

AWS_VERIFY

None

驗證Scrapy與S3或類似S3的存儲之間的SSL連接配接。預設情況下,将進行SSL驗證。僅支援

botocore

AWS_REGION_NAME

None

與AWS用戶端關聯的區域的名稱。僅支援

botocore

BOT_NAME

'scrapybot'

此Scrapy項目實作的機器人名稱(也稱為項目名稱)。這将預設用于建構User-Agent,也用于日志記錄。

使用該

startproject

指令建立項目時,它會自動填充項目名稱。

CONCURRENT_ITEMS

100

在項目處理器(也稱為項目管道)中并行處理的最大并發項數(每個響應)。

CONCURRENT_REQUESTS

16

Scrapy下載下傳程式将執行的最大并發(即同時)請求數。

CONCURRENT_REQUESTS_PER_DOMAIN

8

将對任何單個域執行的最大并發(即同時)請求數。

另請參閱:AutoThrottle擴充及其 

AUTOTHROTTLE_TARGET_CONCURRENCY

選項。

CONCURRENT_REQUESTS_PER_IP

将對任何單個IP執行的最大并發(即同時)請求數。如果非零,

CONCURRENT_REQUESTS_PER_DOMAIN

則忽略該 設定,而使用此設定。換句話說,并發限制将應用于每個IP,而不是每個域。

此設定還會影響

DOWNLOAD_DELAY

和 AutoThrottle擴充:如果

CONCURRENT_REQUESTS_PER_IP

 非零,則按 IP而不是每個域強制執行下載下傳延遲。

DEFAULT_ITEM_CLASS

'scrapy.item.Item'

将用于執行個體化Scrapy shell中的項的預設類。

DEFAULT_REQUEST_HEADERS

預設:

{
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'en',
}

           

用于Scrapy HTTP請求的預設标頭。他們居住在 

DefaultHeadersMiddleware

DEPTH_LIMIT

範圍: 

scrapy.spidermiddlewares.depth.DepthMiddleware

允許為任何站點爬網的最大深度。如果為零,則不會施加任何限制。

DEPTH_PRIORITY

scrapy.spidermiddlewares.depth.DepthMiddleware

一個整數,用于根據深度調整請求優先級:

  • 如果為零(預設),則不從深度進行優先級調整
  • 正值将降低優先級,即稍後将處理更高深度的請求 ; 這在進行廣度優先爬網(BFO)時常用
  • 負值将增加優先級,即更快的深度請求将被更快地處理(DFO)

另請參閱:Scrapy是以廣度優先還是深度優先順序爬行?關于為BFO或DFO調整Scrapy。

注意

此設定調整優先級以相反的方式相對于其他優先級設定

REDIRECT_PRIORITY_ADJUST

RETRY_PRIORITY_ADJUST

DEPTH_STATS_VERBOSE

False

scrapy.spidermiddlewares.depth.DepthMiddleware

是否收集詳細的深度統計資料。如果啟用此選項,則會在統計資訊中收集每個深度的請求數。

DNSCACHE_ENABLED

True

是否啟用DNS記憶體緩存。

DNSCACHE_SIZE

10000

DNS記憶體緩存大小。

DNS_TIMEOUT

60

在幾秒鐘内處理DNS查詢的逾時。支援浮動。

下載下傳

'scrapy.core.downloader.Downloader'

用于抓取的下載下傳程式。

DOWNLOADER_HTTPCLIENTFACTORY

'scrapy.core.downloader.webclient.ScrapyHTTPClientFactory'

定義

protocol.ClientFactory

 用于HTTP / 1.0連接配接(for 

HTTP10DownloadHandler

)的Twisted 類。

HTTP / 1.0現在很少或使用,是以您可以放心地忽略此設定,除非你使用雙絞線<11.1,如果你真的想使用HTTP / 1.0,并覆寫

DOWNLOAD_HANDLERS_BASE

http(s)

相應的方案,即

'scrapy.core.downloader.handlers.http.HTTP10DownloadHandler'

DOWNLOADER_CLIENTCONTEXTFACTORY

'scrapy.core.downloader.contextfactory.ScrapyClientContextFactory'

表示要使用的ContextFactory的類路徑。

這裡,“ContextFactory”是SSL / TLS上下文的Twisted術語,定義了要使用的TLS / SSL協定版本,是否進行證書驗證,甚至啟用用戶端身份驗證(以及其他各種事情)。

Scrapy預設上下文工廠不執行遠端伺服器證書驗證。這通常适用于網頁抓取。

如果确實需要啟用遠端伺服器證書驗證,Scrapy還有另一個可以設定的上下文工廠類

'scrapy.core.downloader.contextfactory.BrowserLikeContextFactory'

,它使用平台的證書來驗證遠端端點。 僅當您使用Twisted> = 14.0時才可用。

如果您确實使用自定義ContextFactory,請確定它

method

 在init 接受參數(這是

OpenSSL.SSL

方法映射 

DOWNLOADER_CLIENT_TLS_METHOD

)。

DOWNLOADER_CLIENT_TLS_METHOD

'TLS'

使用此設定可自定義預設HTTP / 1.1下載下傳程式使用的TLS / SSL方法。

此設定必須是以下字元串值之一:

  • 'TLS'

    :映射到OpenSSL 

    TLS_method()

    (又名

    SSLv23_method()

    ),它允許協定協商,從平台支援的最高點開始; 預設,推薦
  • 'TLSv1.0'

    :此值強制HTTPS連接配接使用TLS 1.0版; 如果你想要Scrapy的行為<1.1,請設定此項
  • 'TLSv1.1'

    :強制TLS版本1.1
  • 'TLSv1.2'

    :強制TLS版本1.2
  • 'SSLv3'

    :強制SSL版本3(不推薦)

我們建議您使用PyOpenSSL> = 0.13和Twisted> = 0.13或更高(如果可以,Twisted> = 14.0)。

DOWNLOADER_MIDDLEWARES

預設:: 

{}

包含項目中啟用的下載下傳器中間件及其訂單的dict。有關更多資訊,請參閱激活下載下傳中間件。

DOWNLOADER_MIDDLEWARES_BASE

{
    'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100,
    'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300,
    'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350,
    'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 400,
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 500,
    'scrapy.downloadermiddlewares.retry.RetryMiddleware': 550,
    'scrapy.downloadermiddlewares.ajaxcrawl.AjaxCrawlMiddleware': 560,
    'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590,
    'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600,
    'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750,
    'scrapy.downloadermiddlewares.stats.DownloaderStats': 850,
    'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900,
}

           

包含Scrapy中預設啟用的下載下傳器中間件的dict。低訂單更接近引擎,高訂單更接近下載下傳。您永遠不應該在項目中修改此設定,

DOWNLOADER_MIDDLEWARES

而是修改 。有關更多資訊,請參閱 激活下載下傳中間件。

DOWNLOADER_STATS

True

是否啟用下載下傳程式統計資訊收集。

DOWNLOAD_DELAY

在從同一網站下載下傳連續頁面之前,下載下傳程式應等待的時間(以秒為機關)。這可用于限制爬行速度,以避免過于嚴重地擊中伺服器。支援十進制數。例:

DOWNLOAD_DELAY = 0.25    # 250 ms of delay

           

此設定也受

RANDOMIZE_DOWNLOAD_DELAY

 設定(預設情況下啟用)的影響。預設情況下,Scrapy不會在請求之間等待一段固定的時間,而是使用0.5 * 

DOWNLOAD_DELAY

和1.5 * 之間的随機間隔

DOWNLOAD_DELAY

CONCURRENT_REQUESTS_PER_IP

非零時,每個IP位址而不是每個域強制執行延遲。

您還可以通過設定

download_delay

 spider屬性來更改每個蜘蛛的此設定。

DOWNLOAD_HANDLERS

{}

包含項目中啟用的請求下載下傳程式處理程式的dict。請參閱

DOWNLOAD_HANDLERS_BASE

格式。

DOWNLOAD_HANDLERS_BASE

{
    'file': 'scrapy.core.downloader.handlers.file.FileDownloadHandler',
    'http': 'scrapy.core.downloader.handlers.http.HTTPDownloadHandler',
    'https': 'scrapy.core.downloader.handlers.http.HTTPDownloadHandler',
    's3': 'scrapy.core.downloader.handlers.s3.S3DownloadHandler',
    'ftp': 'scrapy.core.downloader.handlers.ftp.FTPDownloadHandler',
}

           

包含Scrapy中預設啟用的請求下載下傳處理程式的dict。您永遠不應該在項目中修改此設定,

DOWNLOAD_HANDLERS

而是修改 。

您可以通過配置設定

None

其URI方案來禁用任何這些下載下傳處理程式

DOWNLOAD_HANDLERS

。例如,要禁用内置的FTP處理程式(無需替換),請将其放在

settings.py

DOWNLOAD_HANDLERS = {
    'ftp': None,
}

           

DOWNLOAD_TIMEOUT

180

下載下傳程式在逾時之前等待的時間(以秒為機關)。

可以使用

download_timeout

 spider屬性為每個spider設定此逾時,使用

download_timeout

Request.meta鍵為每個請求設定此逾時。

DOWNLOAD_MAXSIZE

預設值:1073741824(1024MB)

下載下傳程式将下載下傳的最大響應大小(以位元組為機關)。

如果要禁用它,請将其設定為0。

download_maxsize

 spider屬性為每個蜘蛛設定此大小,使用

download_maxsize

Request.meta鍵為每個請求設定此大小。

此功能需要Twisted> = 11.1。

DOWNLOAD_WARNSIZE

預設值:33554432(32MB)

下載下傳程式将開始警告的響應大小(以位元組為機關)。

download_warnsize

download_warnsize

DOWNLOAD_FAIL_ON_DATALOSS

True

是否在響應中斷時失敗,即聲明 

Content-Length

與伺服器發送的内容不比對或者分塊響應未正确完成。如果

True

,這些響應會引發 

ResponseFailed([_DataLoss])

錯誤。如果

False

,這些響應被傳遞并且标志

dataloss

被添加到響應中,即: 是。

'dataloss'

in

response.flagsTrue

(可選)可以使用

download_fail_on_dataloss

Request.meta鍵為每個請求設定 

False

在從伺服器配置錯誤到網絡錯誤再到資料損壞的幾種情況下,可能會發生損壞的響應或資料丢失錯誤。由使用者決定處理損壞的響應是否有意義,因為它們可能包含部分或不完整的内容。如果

RETRY_ENABLED

是,

True

并且此設定設定為

True

ResponseFailed([_DataLoss])

則将像往常一樣重試失敗。

DUPEFILTER_CLASS

'scrapy.dupefilters.RFPDupeFilter'

用于檢測和過濾重複請求的類。

預設(

RFPDupeFilter

)過濾器使用該

scrapy.utils.request.request_fingerprint

功能基于請求指紋。為了更改檢查重複項的方式,您可以子類化

RFPDupeFilter

并覆寫其

request_fingerprint

方法。此方法應接受scrapy 

Request

對象并傳回其指紋(字元串)。

您可以通過設定

DUPEFILTER_CLASS

為禁用對重複請求的過濾 

'scrapy.dupefilters.BaseDupeFilter'

。但是要非常小心,因為你可以進入爬行循環。通常最好将

dont_filter

參數設定為不應過濾

True

的特定參數 

Request

DUPEFILTER_DEBUG

False

預設情況下,

RFPDupeFilter

僅記錄第一個重複請求。設定

DUPEFILTER_DEBUG

True

将使其記錄所有重複的請求。

編輯

預設值:( 

vi

在Unix系統上)或IDLE編輯器(在Windows上)

用于使用

edit

指令編輯蜘蛛的編輯器。此外,如果

EDITOR

設定了環境變量,則

edit

 指令将優先于預設設定。

擴充

{}

包含項目中啟用的擴充名及其訂單的dict。

EXTENSIONS_BASE

{
    'scrapy.extensions.corestats.CoreStats': 0,
    'scrapy.extensions.telnet.TelnetConsole': 0,
    'scrapy.extensions.memusage.MemoryUsage': 0,
    'scrapy.extensions.memdebug.MemoryDebugger': 0,
    'scrapy.extensions.closespider.CloseSpider': 0,
    'scrapy.extensions.feedexport.FeedExporter': 0,
    'scrapy.extensions.logstats.LogStats': 0,
    'scrapy.extensions.spiderstate.SpiderState': 0,
    'scrapy.extensions.throttle.AutoThrottle': 0,
}

           

包含Scrapy中預設可用擴充名的dict及其順序。此設定包含所有穩定的内置擴充。請記住,其中一些需要通過設定啟用。

有關詳細資訊,請參閱擴充程式使用者指南 和可用擴充程式清單。

FEED_TEMPDIR

Feed Temp dir允許您在使用FTP Feed存儲和 Amazon S3上載之前設定自定義檔案夾以儲存搜尋器臨時檔案。

FTP_PASSIVE_MODE

True

在啟動FTP傳輸時是否使用被動模式。

FTP_PASSWORD

"guest"

該密碼才能使用FTP連接配接時,有沒有

"ftp_password"

 在

Request

元。

解釋RFC 1635,雖然通常使用密碼“guest”或匿名FTP的一個電子郵件位址,但某些FTP伺服器明确要求使用者的電子郵件位址,并且不允許使用“訪客”密碼登入。

FTP_USER

"anonymous"

使用者名使用的FTP連接配接時,有沒有

"ftp_user"

Request

ITEM_PIPELINES

{}

包含要使用的項目管道的dict及其指令。訂單值是任意的,但通常在0-1000範圍内定義它們。在更高訂單之前降低訂單處理。

例:

ITEM_PIPELINES = {
    'mybot.pipelines.validate.ValidateMyItem': 300,
    'mybot.pipelines.validate.StoreMyItem': 800,
}

           

ITEM_PIPELINES_BASE

{}

包含Scrapy中預設啟用的管道的dict。您永遠不應該在項目中修改此設定,

ITEM_PIPELINES

而是修改。

LOG_ENABLED

True

是否啟用日志記錄。

LOG_ENCODING

'utf-8'

用于記錄的編碼。

LOG_FILE

None

用于記錄輸出的檔案名。如果

None

,将使用标準錯誤。

LOG_FORMAT

'%(asctime)s

[%(name)s]

%(levelname)s:

%(message)s'

用于格式化日志消息的字元串。有關可用占位符的完整清單,請參閱Python日志記錄文檔。

LOG_DATEFORMAT

'%Y-%m-%d

%H:%M:%S'

用于格式化日期/時間的字元串,用于擴充

%(asctime)s

占位符

LOG_FORMAT

。有關可用指令的完整清單,請參閱Python datetime文檔。

LOG_LEVEL

'DEBUG'

記錄的最低級别。可用級别包括:CRITICAL,ERROR,WARNING,INFO,DEBUG。有關更多資訊,請參閱記錄。

LOG_STDOUT

False

如果

True

,您的程序的所有标準輸出(和錯誤)将重定向到日志。例如,如果

print('hello')

它将出現在Scrapy日志中。

LOG_SHORT_NAMES

False

True

,日志将隻包含根路徑。如果設定為

False

 則顯示負責日志輸出的元件

MEMDEBUG_ENABLED

False

是否啟用記憶體調試。

MEMDEBUG_NOTIFY

[]

啟用記憶體調試時,如果此設定不為空,則會将記憶體報告發送到指定的位址,否則報告将寫入日志。

MEMDEBUG_NOTIFY = ['[email protected]']

           

MEMUSAGE_ENABLED

True

scrapy.extensions.memusage

是否啟用記憶體使用擴充。此擴充程式跟蹤程序使用的峰值記憶體(将其寫入統計資訊)。它還可以選擇在超出記憶體限制時關閉Scrapy程序(請參閱參考資料

MEMUSAGE_LIMIT_MB

),并在發生時通過電子郵件通知(請參閱參考資料

MEMUSAGE_NOTIFY_MAIL

請參閱記憶體使用擴充。

MEMUSAGE_LIMIT_MB

scrapy.extensions.memusage

關閉Scrapy之前允許的最大記憶體量(以兆位元組為機關)(如果MEMUSAGE_ENABLED為True)。如果為零,則不執行檢查。

MEMUSAGE_CHECK_INTERVAL_SECONDS

版本1.1中的新功能。

60.0

scrapy.extensions.memusage

的記憶體使用擴充 會檢查目前存儲器使用,相對于限制由設定 

MEMUSAGE_LIMIT_MB

MEMUSAGE_WARNING_MB

,以固定時間間隔。

這将設定這些間隔的長度,以秒為機關。

MEMUSAGE_NOTIFY_MAIL

False

scrapy.extensions.memusage

如果已達到記憶體限制,則通知的電子郵件清單。

MEMUSAGE_NOTIFY_MAIL = ['[email protected]']

           

MEMUSAGE_WARNING_MB

scrapy.extensions.memusage

發送警告電子郵件通知之前允許的最大記憶體量(以兆位元組為機關)。如果為零,則不會産生警告。

NEWSPIDER_MODULE

''

genspider

指令子產品在哪裡建立新的蜘蛛。

NEWSPIDER_MODULE = 'mybot.spiders_dev'

           

RANDOMIZE_DOWNLOAD_DELAY

True

如果啟用,Scrapy将在從同一網站擷取請求時等待一段随機時間(介于0.5 * 

DOWNLOAD_DELAY

和1.5 *之間

DOWNLOAD_DELAY

這種随機化降低了爬行程式被分析請求的站點檢測(并随後被阻止)的機會,這些站點在其請求之間的時間内尋找統計上顯着的相似性。

随機化政策與wget 

--random-wait

選項使用的相同。

DOWNLOAD_DELAY

為零(預設),則此選項無效。

REACTOR_THREADPOOL_MAXSIZE

10

Twisted Reactor線程池大小的最大限制。這是各種Scrapy元件使用的常見多用途線程池。螺紋DNS解析器,BlockingFeedStorage,S3FilesStore僅舉幾例。如果遇到阻塞IO不足的問題,請增加此值。

REDIRECT_MAX_TIMES

20

定義可以重定向請求的最大次數。在此最大值之後,請求的響應将按原樣傳回。我們使用Firefox預設值來執行相同的任務。

REDIRECT_PRIORITY_ADJUST

+2

scrapy.downloadermiddlewares.redirect.RedirectMiddleware

相對于原始請求調整重定向請求優先級:

  • 正優先級調整(預設)意味着更高的優先級。
  • 負優先級調整意味着較低的優先級。

RETRY_PRIORITY_ADJUST

-1

scrapy.downloadermiddlewares.retry.RetryMiddleware

相對于原始請求調整重試請求優先級:

  • 正優先級調整意味着更高的優先級。
  • 負優先級調整(預設)表示優先級較低。

ROBOTSTXT_OBEY

False

scrapy.downloadermiddlewares.robotstxt

如果啟用,Scrapy将尊重robots.txt政策。有關更多資訊,請參閱 RobotsTxtMiddleware。

雖然預設值是

False

出于曆史原因,但預設情況下會在指令生成的settings.py檔案中啟用此選項。

scrapy

startproject

排程器

'scrapy.core.scheduler.Scheduler'

用于爬網的排程程式。

SCHEDULER_DEBUG

False

設定為

True

将記錄有關請求排程程式的調試資訊。如果請求無法序列化到磁盤,則此目前日志(僅一次)。Stats counter(

scheduler/unserializable

)跟蹤發生這種情況的次數。

日志中的示例條目:

1956-01-31 00:00:00+0800 [scrapy.core.scheduler] ERROR: Unable to serialize request:
<GET http://example.com> - reason: cannot serialize <Request at 0x9a7c7ec>
(type Request)> - no more unserializable requests will be logged
(see 'scheduler/unserializable' stats counter)

           

SCHEDULER_DISK_QUEUE

'scrapy.squeues.PickleLifoDiskQueue'

排程程式将使用的磁盤隊列類型。其他可用的類型有

scrapy.squeues.PickleFifoDiskQueue

scrapy.squeues.MarshalFifoDiskQueue

scrapy.squeues.MarshalLifoDiskQueue

SCHEDULER_MEMORY_QUEUE

'scrapy.squeues.LifoMemoryQueue'

排程程式使用的記憶體中隊列的類型。其他可用的類型是: 

scrapy.squeues.FifoMemoryQueue

SCHEDULER_PRIORITY_QUEUE

'queuelib.PriorityQueue'

排程程式使用的優先級隊列的類型。

SPIDER_CONTRACTS

{}

包含項目中啟用的蜘蛛合同的dict,用于測試蜘蛛。有關更多資訊,請參閱蜘蛛合同。

SPIDER_CONTRACTS_BASE

{
    'scrapy.contracts.default.UrlContract' : 1,
    'scrapy.contracts.default.ReturnsContract': 2,
    'scrapy.contracts.default.ScrapesContract': 3,
}

           

包含scrapy預設情況下啟用的scrapy合約的dict。您永遠不應該在項目中修改此設定,

SPIDER_CONTRACTS

 而是修改。有關更多資訊,請參閱蜘蛛合同。

None

其類路徑來禁用任何這些合同

SPIDER_CONTRACTS

。例如,要禁用内置功能

ScrapesContract

,請将其放入

settings.py

SPIDER_CONTRACTS = {
    'scrapy.contracts.default.ScrapesContract': None,
}

           

SPIDER_LOADER_CLASS

'scrapy.spiderloader.SpiderLoader'

将用于加載蜘蛛的類,必須實作 SpiderLoader API。

SPIDER_LOADER_WARN_ONLY

版本1.3.3中的新功能。

False

預設情況下,當scrapy嘗試從中導入蜘蛛類時

SPIDER_MODULES

,如果有任何

ImportError

異常,它将大聲失敗。但您可以選擇将此異常靜音并通過設定将其轉換為簡單警告。

SPIDER_LOADER_WARN_ONLY

=

True

有些scrapy指令使用此設定運作

True

 已經(即他們隻會發出警告并不會失敗),因為他們實際上并不需要加載蜘蛛類的工作: , , ,。

scrapy

runspiderscrapy

settingsscrapy``startprojectscrapy

version

SPIDER_MIDDLEWARES

{}

包含項目中啟用的蜘蛛中間件及其指令的dict。有關更多資訊,請參閱激活蜘蛛中間件。

SPIDER_MIDDLEWARES_BASE

{
    'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware': 50,
    'scrapy.spidermiddlewares.offsite.OffsiteMiddleware': 500,
    'scrapy.spidermiddlewares.referer.RefererMiddleware': 700,
    'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware': 800,
    'scrapy.spidermiddlewares.depth.DepthMiddleware': 900,
}

           

包含Scrapy中預設啟用的蜘蛛中間件及其指令的dict。低訂單更接近引擎,高訂單更接近蜘蛛。有關更多資訊,請參閱激活蜘蛛中間件。

SPIDER_MODULES

[]

Scrapy将尋找蜘蛛的子產品清單。

SPIDER_MODULES = ['mybot.spiders_prod', 'mybot.spiders_dev']

           

STATS_CLASS

'scrapy.statscollectors.MemoryStatsCollector'

用于收集統計資訊的類,必須實作 Stats Collector API。

STATS_DUMP

True

蜘蛛完成後,将Scrapy統計資料(轉到Scrapy日志)轉儲。

有關詳細資訊,請參閱:統計資訊收集。

STATSMAILER_RCPTS

[]

空清單)

在蜘蛛完成刮擦後發送Scrapy統計資料。有關詳情

StatsMailer

,請參閱 。

TELNETCONSOLE_ENABLED

True

一個布爾值,指定是否 啟用telnet控制台(如果其擴充名也已啟用)。

TELNETCONSOLE_PORT

[6023,

6073]

用于telnet控制台的端口範圍。如果設定為

None

,則使用動态配置設定的端口。有關詳細資訊,請參閱 Telnet控制台。

TEMPLATES_DIR

預設值:

templates

dir在scrapy子產品中

使用

startproject

指令建立新項目時使用指令查找模闆的目錄以及使用指令建立 新蜘蛛的目錄

genspider

 。

項目名稱不得與

project

子目錄中的自定義檔案或目錄的名稱沖突。

URLLENGTH_LIMIT

2083

spidermiddlewares.urllength

允許抓取的網址的最大網址長度。有關此設定的預設值的詳細資訊,請參閱:https://

http://boutell.com/newfaq/misc/urllength.html

USER_AGENT

"Scrapy/VERSION

(+https://scrapy.org)"

爬網時使用的預設User-Agent,除非被覆寫。