參考文檔http://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/settings.html#topics-settings-ref
-
AUTOTHROTTLE_START_DELAY = 3
開始下載下傳時限速并延遲時間
-
AUTOTHROTTLE_MAX_DELAY = 60
高并發請求時最大延遲時間
-
AWS_ACCESS_KEY_ID
它是用于通路亞馬遜網絡服務。
預設值:無
-
AWS_SECRET_ACCESS_KEY
它是用于通路亞馬遜網絡服務。
-
BOT_NAME
它是一種可以用于建構使用者代理機器人的名稱。
預設值:“scrapybot”
eg:BOT_NAME=“scrapybot”
-
CONCURRENT_ITEMS
在用來并行地處理所述物品處理器的現有項目的最大數目。
預設 Item 并發數:100
-
CONCURRENT_REQUESTS
其中Scrapy下載下傳執行現有的最大請求數。
預設值:16
并發是指scrapy同時處理的request的數量,預設的全局并發限制為16,可增加這個值,增加多少取決于爬蟲占CPU多少,設定前最好測試一下,一般占在80-90%為好
-
CONCURRENT_REQUESTS_PER_DOMAIN
現有的最大請求數,對于任何單域同時進行。
預設值:8
-
CONCURRENT_REQUESTS_PER_IP
現有的請求的最大數量的同時執行任何單一的IP。
預設值:0(0表示忽略)
-
COOKIES_ENABLED = False
禁止cookies,有些站點會從cookies中判斷是否為爬蟲
-
DEFAULT_ITEM_CLASS
它是用來表示商品一類。
預設值:“scrapy.item.Item”
-
DEFAULT_REQUEST_HEADERS
它是用于Scrapy的HTTP請求的預設标題。
預設值:
{
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
}
複制
-
DEPTH_LIMIT
因為蜘蛛的最大深度抓取任何網站。
預設值:0
爬取網站最大允許的深度(depth)值。如果為0,則沒有限制
-
DEPTH_PRIORITY
整數值。用于根據深度調整request優先級。如果為0,則不根據深度進行優先級調整。
預設值:0
-
DEPTH_STATS
它指出是否收集詳細的統計資料與否。
預設值:True
-
DEPTH_STATS_VERBOSE
當啟用此設定,請求數統計中的每個詳細深入的收集。
預設值:False
-
DNSCACHE_ENABLED
它是用來啟用記憶體緩存DNS。
預設值:True
-
DNSCACHE_SIZE
它定義了在記憶體中緩存DNS的大小。
預設值:10000
-
DNS_TIMEOUT
它是用來設定逾時DNS處理的查詢。
預設值:60
-
DOWNLOADER
它是用來抓取過程中下載下傳。
預設值:“scrapy.core.downloader.Downloader”
-
DOWNLOADER_MIDDLEWARES
這是辭典保持下載下傳中間件和他們的訂單。
預設值: {}
-
DOWNLOADER_MIDDLEWARES_BASE
這是預設啟用的一個辭典保持下載下傳中間件。
預設值:
{
'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100,
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300,
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350,
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 400,
'scrapy.downloadermiddlewares.retry.RetryMiddleware': 500,
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 550,
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580,
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590,
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600,
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750,
'scrapy.downloadermiddlewares.chunked.ChunkedTransferMiddleware': 830,
'scrapy.downloadermiddlewares.stats.DownloaderStats': 850,
'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900,
}
複制
包含Scrapy預設啟用的下載下傳中間件的字典。 永遠不要在項目中修改該設定,而是修改
DOWNLOADER_MIDDLEWARES
-
DOWNLOADER_STATS
此設定用于啟用下載下傳統計。
預設值:True
-
DOWNLOAD_DELAY
它定義的總時間下載下傳它從下載下傳網站的網頁之前。
預設值:0
下載下傳器在下載下傳同一個網站下一個頁面前需要等待的時間。該選項可以用來限制爬取速度, 減輕伺服器壓力。同時也支援小數。
預設情況下,Scrapy在兩個請求間不等待一個固定的值, 而是使用0.5到1.5之間的一個随機值 * DOWNLOAD_DELAY 的結果作為等待間隔。
-
DOWNLOAD_HANDLERS
它與下載下傳處理程式的字典。
預設值: {}
-
DOWNLOAD_HANDLERS_BASE
它與預設情況下啟用下載下傳處理程式的字典。
預設值:
{
'file': 'scrapy.core.downloader.handlers.file.FileDownloadHandler',
'http': 'scrapy.core.downloader.handlers.http.HttpDownloadHandler',
'https': 'scrapy.core.downloader.handlers.http.HttpDownloadHandler',
's3': 'scrapy.core.downloader.handlers.s3.S3DownloadHandler',
}
複制
-
DOWNLOAD_TIMEOUT
它的總時間下載下傳到之前等待逾時。
預設值:180
-
DOWNLOAD_MAXSIZE
這是響應的下載下傳器下載下傳的最大尺寸。
預設值:1073741824 (1024MB)
-
DOWNLOAD_WARNSIZE
它定義為響應下載下傳警告的大小。
預設值:33554432 (32MB)
-
DUPEFILTER_CLASS
這是用于檢測和是重複的請求的濾波的類。
預設值:“scrapy.dupefilters.RFPDupeFilter”
-
DUPEFILTER_DEBUG
當設定為true此設定記錄所有重複的過濾器。
預設值:False
-
EDITOR
它是用來編輯使用編輯指令蜘蛛。
預設值:取決于環境
-
EXTENSIONS
它是具有在項目中啟用的擴充字典。
預設值: {}
-
EXTENSIONS_BASE
它是具有内置的擴充字典。
預設值:
{
'scrapy.extensions.corestats.CoreStats': 0,
'scrapy.telnet.TelnetConsole': 0,
'scrapy.extensions.memusage.MemoryUsage': 0,
'scrapy.extensions.memdebug.MemoryDebugger': 0,
'scrapy.extensions.closespider.CloseSpider': 0,
'scrapy.extensions.feedexport.FeedExporter': 0,
'scrapy.extensions.logstats.LogStats': 0,
'scrapy.extensions.spiderstate.SpiderState': 0,
'scrapy.extensions.throttle.AutoThrottle': 0,
}
複制
-
FEED_TEMPDIR
它是用來設定,其中履帶臨時檔案可以存儲自定義檔案夾的目錄。
-
ITEM_PIPELINES
它是具有管線的字典。
預設值: {}
-
ITEM_PIPELINES_BASE
預設:
儲存項目中預設啟用的pipeline的字典。 永遠不要在項目中修改該設定,而是修改{}
。ITEM_PIPELINES
-
LOG_ENABLED
它定義如果日志被啟用。
預設值:True
-
LOG_ENCODING
它定義了将用于記錄的編碼類型。
預設值: ‘UTF-8’
-
LOG_FILE
它是用于記錄的輸出檔案的名稱。logging輸出的檔案名。如果為None,則使用标準錯誤輸出(standard error)。
預設值:無
-
LOG_FORMAT
它是利用它的日志資訊可以被格式化的字元串。
預設值:’%(asctime)s [%(name)s] %(levelname)s: %(message)s’
-
LOG_DATEFORMAT
它是利用它的日期/時間可以格式化字元串。
預設值: ‘%Y-%m-%d %H:%M:%S’
-
LOG_LEVEL
它定義最低日志級别。
預設值:“DEBUG”
log的最低級别。可選的級别有: CRITICAL、 ERROR、WARNING、INFO、DEBUG 。
-
LOG_STDOUT
此設定如果設定為true ,所有侑過程輸出會出現在日志中。
預設值:False
-
MEMDEBUG_ENABLED
它定義如果記憶體調試啟用。
預設值:False
-
MEMDEBUG_NOTIFY
它定義啟用記憶體調試時,發送到特定位址的記憶體報告。
預設值: []
-
MEMUSAGE_ENABLED
它定義如果存儲器使用是當scrapy過程超過存儲器限制被啟用。
預設值:False
-
MEMUSAGE_LIMIT_MB
如果定義了存儲器的最大限制(in megabytes)被允許。在關閉Scrapy之前所允許的最大記憶體數(機關: MB)(如果 MEMUSAGE_ENABLED為True)。 如果為0,将不做限制。
預設值:0
-
MEMUSAGE_CHECK_INTERVAL_SECONDS
它用于通過設定間隔的長度,以檢查本記憶體使用情況。
預設值:60.0
-
MEMUSAGE_NOTIFY_MAIL
它是用來當記憶體達到極限與電子郵件清單通知。
預設值:False
-
MEMUSAGE_REPORT
它定義如果記憶體使用情況報告要在關閉每個蜘蛛發送。
預設值:False
-
MEMUSAGE_WARNING_MB
它定義被發送警告之前被允許的總存儲。
預設值:0
-
NEWSPIDER_MODULE
這是其中使用創造了新的蜘蛛子產品genspider指令。
預設值: ‘’
-
RANDOMIZE_DOWNLOAD_DELAY
它定義的時候了Scrapy等待下載下傳的同時從網站上請求一個随機量。如果啟用,當從相同的網站擷取資料時,Scrapy将會等待一個随機的值 (0.5到1.5之間的一個随機值 *
預設值:TrueDOWNLOAD_DELAY
-
REACTOR_THREADPOOL_MAXSIZE
它定義為在反應器線程池的最大尺寸。
預設值:10
-
REDIRECT_MAX_TIMES
它定義了一個請求多少次可以重定向。
預設值:20
-
REDIRECT_PRIORITY_ADJUST
設定時,該設定,調整的請求重定向優先級。修改重定向請求相對于原始請求的優先級。 負數意味着更多優先級
預設值:+2
-
RETRY_PRIORITY_ADJUST
設定時,該設定,調整請求重試的優先權。
預設值:-1
-
RETRY_ENABLED = False
對于失敗的HTTP請求(如逾時)進行重試會降低爬取效率,當爬取目标基數很大時,舍棄部分資料不影響大局,提高效率
-
ROBOTSTXT_OBEY
當設定為Scrapy遵循robots.txt政策true 。
預設值:False
robots.txt 是遵循 Robot協定 的一個檔案,它儲存在網站的伺服器中,它的作用是,告訴搜尋引擎爬蟲,本網站哪些目錄下的網頁 不希望 你進行爬取收錄。在Scrapy啟動後,會在第一時間通路網站的 robots.txt 檔案,然後決定該網站的爬取範圍。
-
SCHEDULER
它定義了用于抓取目的排程。
預設值:“scrapy.core.scheduler.Scheduler”
-
SPIDER_CONTRACTS
它是在有項目蜘蛛合同測試蜘蛛的字典。
預設值: {}
-
SPIDER_CONTRACTS_BASE
這是保持其在Scrapy預設啟用Scrapy合同的字典。
預設值:
{
'scrapy.contracts.default.UrlContract' : 1,
'scrapy.contracts.default.ReturnsContract': 2,
'scrapy.contracts.default.ScrapesContract': 3,
}
複制
-
SPIDER_LOADER_CLASS
它定義了實作一個類SpiderLoader API來加載蜘蛛。
預設值:“scrapy.spiderloader.SpiderLoader”
-
SPIDER_MIDDLEWARES
這是拿着蜘蛛中間件的字典。
預設值: {}
-
SPIDER_MIDDLEWARES_BASE
這是在Scrapy預設啟用一個辭典保持蜘蛛中間件。
預設值:
{
'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware': 50,
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware': 500,
'scrapy.spidermiddlewares.referer.RefererMiddleware': 700,
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware': 800,
'scrapy.spidermiddlewares.depth.DepthMiddleware': 900,
}
複制
-
SPIDER_MODULES
它是一種含有蜘蛛其中Scrapy将尋找子產品清單。
預設值: []
-
STATS_CLASS
這是實作一類Stats Collector API來收集統計資訊。
預設值:“scrapy.statscollectors.MemoryStatsCollector”
-
STATS_DUMP
當設定此設定true ,轉儲統計到日志中。
預設值:True
-
STATSMAILER_RCPTS
一旦蜘蛛刮完畢,Scrapy使用此設定發送統計資料。
預設值: []
-
TELNETCONSOLE_ENABLED
它定義是否啟用telnetconsole。
預設值:True
-
TELNETCONSOLE_PORT
它定義了Telnet控制台端口。
預設值:[6023,6073]
-
TEMPLATES_DIR
它是包含可以在建立新的項目中使用的模闆目錄。
預設值: templates scrapy子產品内部目錄
-
URLLENGTH_LIMIT
它定義了将被允許抓取的網址的長度為URL的最大極限。
預設值:2083
-
USER_AGENT
它定義了在抓取網站所使用的使用者代理。
預設值: “Scrapy / VERSION“
- setting模闆檔案
# -*- coding: utf-8 -*-
# Scrapy settings for companyNews project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
# http://doc.scrapy.org/en/latest/topics/settings.html
# http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html
# http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html
from DBSetting import host_redis,port_redis,db_redis,password_redis
#它是一種可以用于建構使用者代理機器人的名稱,預設值:'scrapybot'
BOT_NAME = 'companyNews'
# 它是一種含有蜘蛛其中Scrapy将尋找子產品清單,預設值: []
SPIDER_MODULES = ['companyNews.spiders']
# 預設: '',使用 genspider 指令建立新spider的子產品。
NEWSPIDER_MODULE = 'companyNews.spiders'
#-----------------------日志檔案配置-----------------------------------
# 預設: True,是否啟用logging。
# LOG_ENABLED=True
# 預設: 'utf-8',logging使用的編碼。
# LOG_ENCODING='utf-8'
# 它是利用它的日志資訊可以被格式化的字元串。預設值:'%(asctime)s [%(name)s] %(levelname)s: %(message)s'
# LOG_FORMAT='%(asctime)s [%(name)s] %(levelname)s: %(message)s'
# 它是利用它的日期/時間可以格式化字元串。預設值: '%Y-%m-%d %H:%M:%S'
# LOG_DATEFORMAT='%Y-%m-%d %H:%M:%S'
#日志檔案名
#LOG_FILE = "dg.log"
#日志檔案級别,預設值:“DEBUG”,log的最低級别。可選的級别有: CRITICAL、 ERROR、WARNING、INFO、DEBUG 。
LOG_LEVEL = 'WARNING'
# -----------------------------robots協定---------------------------------------------
# Obey robots.txt rules
# robots.txt 是遵循 Robot協定 的一個檔案,它儲存在網站的伺服器中,它的作用是,告訴搜尋引擎爬蟲,
# 本網站哪些目錄下的網頁 不希望 你進行爬取收錄。在Scrapy啟動後,會在第一時間通路網站的 robots.txt 檔案,
# 然後決定該網站的爬取範圍。
# ROBOTSTXT_OBEY = True
# 對于失敗的HTTP請求(如逾時)進行重試會降低爬取效率,當爬取目标基數很大時,舍棄部分資料不影響大局,提高效率
RETRY_ENABLED = False
#請求下載下傳逾時時間,預設180秒
DOWNLOAD_TIMEOUT=20
# 這是響應的下載下傳器下載下傳的最大尺寸,預設值:1073741824 (1024MB)
# DOWNLOAD_MAXSIZE=1073741824
# 它定義為響應下載下傳警告的大小,預設值:33554432 (32MB)
# DOWNLOAD_WARNSIZE=33554432
# ------------------------全局并發數的一些配置:-------------------------------
# Configure maximum concurrent requests performed by Scrapy (default: 16)
# 預設 Request 并發數:16
# CONCURRENT_REQUESTS = 32
# 預設 Item 并發數:100
# CONCURRENT_ITEMS = 100
# The download delay setting will honor only one of:
# 預設每個域名的并發數:8
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
# 每個IP的最大并發數:0表示忽略
# CONCURRENT_REQUESTS_PER_IP = 0
# Configure a delay for requests for the same website (default: 0)
# See http://scrapy.readthedocs.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
#DOWNLOAD_DELAY 會影響 CONCURRENT_REQUESTS,不能使并發顯現出來,設定下載下傳延遲
#DOWNLOAD_DELAY = 3
# Disable cookies (enabled by default)
#禁用cookies,有些站點會從cookies中判斷是否為爬蟲
# COOKIES_ENABLED = True
# COOKIES_DEBUG = True
# Crawl responsibly by identifying yourself (and your website) on the user-agent
# 它定義了在抓取網站所使用的使用者代理,預設值:“Scrapy / VERSION“
#USER_AGENT = ' (+http://www.yourdomain.com)'
# Override the default request headers:
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
}
# Enable or disable spider middlewares
# See http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html
SPIDER_MIDDLEWARES = {
'companyNews.middlewares.UserAgentmiddleware': 401,
'companyNews.middlewares.ProxyMiddleware':426,
}
# Enable or disable downloader middlewares
# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
'companyNews.middlewares.UserAgentmiddleware': 400,
'companyNews.middlewares.ProxyMiddleware':425,
# 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware':423,
# 'companyNews.middlewares.CookieMiddleware': 700,
}
MYEXT_ENABLED=True # 開啟擴充
IDLE_NUMBER=12 # 配置空閑持續時間機關為 360個 ,一個時間機關為5s
# Enable or disable extensions
# See http://scrapy.readthedocs.org/en/latest/topics/extensions.html
# 在 EXTENSIONS 配置,激活擴充
EXTENSIONS = {
# 'scrapy.extensions.telnet.TelnetConsole': None,
'companyNews.extensions.RedisSpiderSmartIdleClosedExensions': 500,
}
# Configure item pipelines
# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
# 注意:自定義pipeline的優先級需高于Redispipeline,因為RedisPipeline不會傳回item,
# 是以如果RedisPipeline優先級高于自定義pipeline,那麼自定義pipeline無法擷取到item
ITEM_PIPELINES = {
#将清除的項目在redis進行處理,# 将RedisPipeline注冊到pipeline元件中(這樣才能将資料存入Redis)
# 'scrapy_redis.pipelines.RedisPipeline': 400,
'companyNews.pipelines.companyNewsPipeline': 300,# 自定義pipeline視情況選擇性注冊(可選)
}
# Enable and configure HTTP caching (disabled by default)
# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
# ----------------scrapy預設已經自帶了緩存,配置如下-----------------
# 打開緩存
#HTTPCACHE_ENABLED = True
# 設定緩存過期時間(機關:秒)
#HTTPCACHE_EXPIRATION_SECS = 0
# 緩存路徑(預設為:.scrapy/httpcache)
#HTTPCACHE_DIR = 'httpcache'
# 忽略的狀态碼
#HTTPCACHE_IGNORE_HTTP_CODES = []
# HTTPERROR_ALLOWED_CODES = [302, 301]
# 緩存模式(檔案緩存)
#HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'
#-----------------Scrapy-Redis分布式爬蟲相關設定如下--------------------------
# Enables scheduling storing requests queue in redis.
#啟用Redis排程存儲請求隊列,使用Scrapy-Redis的排程器,不再使用scrapy的排程器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# Ensure all spiders share same duplicates filter through redis.
#確定所有的爬蟲通過Redis去重,使用Scrapy-Redis的去重元件,不再使用scrapy的去重元件
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 預設請求序列化使用的是pickle 但是我們可以更改為其他類似的。PS:這玩意兒2.X的可以用。3.X的不能用
# SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"
# 使用優先級排程請求隊列 (預設使用),
# 使用Scrapy-Redis的從請求集合中取出請求的方式,三種方式擇其一即可:
# 分别按(1)請求的優先級/(2)隊列FIFO/(先進先出)(3)棧FILO 取出請求(先進後出)
# SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'
# 可選用的其它隊列
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.FifoQueue'
# SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.LifoQueue'
# Don't cleanup redis queues, allows to pause/resume crawls.
#不清除Redis隊列、這樣可以暫停/恢複 爬取,
# 允許暫停,redis請求記錄不會丢失(重新開機爬蟲不會重頭爬取已爬過的頁面)
#SCHEDULER_PERSIST = True
#----------------------redis的位址配置-------------------------------------
# Specify the full Redis URL for connecting (optional).
# If set, this takes precedence over the REDIS_HOST and REDIS_PORT settings.
# 指定用于連接配接redis的URL(可選)
# 如果設定此項,則此項優先級高于設定的REDIS_HOST 和 REDIS_PORT
# REDIS_URL = 'redis://root:密碼@主機IP:端口'
# REDIS_URL = 'redis://root:[email protected]:6379'
REDIS_URL = 'redis://root:%s@%s:%s'%(password_redis,host_redis,port_redis)
# 自定義的redis參數(連接配接逾時之類的)
REDIS_PARAMS={'db': db_redis}
# Specify the host and port to use when connecting to Redis (optional).
# 指定連接配接到redis時使用的端口和位址(可選)
#REDIS_HOST = '127.0.0.1'
#REDIS_PORT = 6379
#REDIS_PASS = '19940225'
#-----------------------------------------暫時用不到-------------------------------------------------------
# 它定義了将被允許抓取的網址的長度為URL的最大極限,預設值:2083
# URLLENGTH_LIMIT=2083
# 爬取網站最大允許的深度(depth)值,預設值0。如果為0,則沒有限制
# DEPTH_LIMIT = 3
# 整數值。用于根據深度調整request優先級。如果為0,則不根據深度進行優先級調整。
# DEPTH_PRIORITY=3
# 最大空閑時間防止分布式爬蟲因為等待而關閉
# 這隻有當上面設定的隊列類是SpiderQueue或SpiderStack時才有效
# 并且當您的蜘蛛首次啟動時,也可能會阻止同一時間啟動(由于隊列為空)
# SCHEDULER_IDLE_BEFORE_CLOSE = 10
# 序列化項目管道作為redis Key存儲
# REDIS_ITEMS_KEY = '%(spider)s:items'
# 預設使用ScrapyJSONEncoder進行項目序列化
# You can use any importable path to a callable object.
# REDIS_ITEMS_SERIALIZER = 'json.dumps'
# 自定義redis用戶端類
# REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient'
# 如果為True,則使用redis的'spop'進行操作。
# 如果需要避免起始網址清單出現重複,這個選項非常有用。開啟此選項urls必須通過sadd添加,否則會出現類型錯誤。
# REDIS_START_URLS_AS_SET = False
# RedisSpider和RedisCrawlSpider預設 start_usls 鍵
# REDIS_START_URLS_KEY = '%(name)s:start_urls'
# 設定redis使用utf-8之外的編碼
# REDIS_ENCODING = 'latin1'
# Disable Telnet Console (enabled by default)
# 它定義是否啟用telnetconsole,預設值:True
#TELNETCONSOLE_ENABLED = False
# Enable and configure the AutoThrottle extension (disabled by default)
# See http://doc.scrapy.org/en/latest/topics/autothrottle.html
#AUTOTHROTTLE_ENABLED = True
# The initial download delay
# 開始下載下傳時限速并延遲時間
#AUTOTHROTTLE_START_DELAY = 5
# The maximum download delay to be set in case of high latencies
#高并發請求時最大延遲時間
#AUTOTHROTTLE_MAX_DELAY = 60
# The average number of requests Scrapy should be sending in parallel to
# each remote server
#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
#AUTOTHROTTLE_DEBUG = False
# REDIRECT_ENABLED = False
複制
參考:https://blog.csdn.net/henry620/article/details/55505662
https://www.cnblogs.com/lambs/p/9134566.html
https://www.cnblogs.com/zhaof/p/7198407.html
https://blog.csdn.net/qq_39268193/article/details/80572328