scrapy setting配置及說明

參考文檔http://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/settings.html#topics-settings-ref

AUTOTHROTTLE_START_DELAY = 3

開始下載下傳時限速并延遲時間
AUTOTHROTTLE_MAX_DELAY = 60

高并發請求時最大延遲時間
AWS_ACCESS_KEY_ID

它是用于通路亞馬遜網絡服務。

預設值：無
AWS_SECRET_ACCESS_KEY

它是用于通路亞馬遜網絡服務。
BOT_NAME

它是一種可以用于建構使用者代理機器人的名稱。

預設值：“scrapybot”

eg:BOT_NAME=“scrapybot”
CONCURRENT_ITEMS

在用來并行地處理所述物品處理器的現有項目的最大數目。

預設 Item 并發數：100
CONCURRENT_REQUESTS

其中Scrapy下載下傳執行現有的最大請求數。

預設值：16

并發是指scrapy同時處理的request的數量，預設的全局并發限制為16，可增加這個值，增加多少取決于爬蟲占CPU多少，設定前最好測試一下，一般占在80-90%為好
CONCURRENT_REQUESTS_PER_DOMAIN

現有的最大請求數，對于任何單域同時進行。

預設值：8
CONCURRENT_REQUESTS_PER_IP

現有的請求的最大數量的同時執行任何單一的IP。

預設值：0(0表示忽略)
COOKIES_ENABLED = False

禁止cookies，有些站點會從cookies中判斷是否為爬蟲
DEFAULT_ITEM_CLASS

它是用來表示商品一類。

預設值：“scrapy.item.Item”
DEFAULT_REQUEST_HEADERS

它是用于Scrapy的HTTP請求的預設标題。

預設值：

{ 
 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 
 'Accept-Language': 'en', 
}

複制

DEPTH_LIMIT

因為蜘蛛的最大深度抓取任何網站。

預設值：0

爬取網站最大允許的深度(depth)值。如果為0，則沒有限制
DEPTH_PRIORITY

整數值。用于根據深度調整request優先級。如果為0，則不根據深度進行優先級調整。

預設值：0
DEPTH_STATS

它指出是否收集詳細的統計資料與否。

預設值：True
DEPTH_STATS_VERBOSE

當啟用此設定，請求數統計中的每個詳細深入的收集。

預設值：False
DNSCACHE_ENABLED

它是用來啟用記憶體緩存DNS。

預設值：True
DNSCACHE_SIZE

它定義了在記憶體中緩存DNS的大小。

預設值：10000
DNS_TIMEOUT

它是用來設定逾時DNS處理的查詢。

預設值：60
DOWNLOADER

它是用來抓取過程中下載下傳。

預設值：“scrapy.core.downloader.Downloader”
DOWNLOADER_MIDDLEWARES

這是辭典保持下載下傳中間件和他們的訂單。

預設值： {}
DOWNLOADER_MIDDLEWARES_BASE

這是預設啟用的一個辭典保持下載下傳中間件。

預設值：

{
    'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100,
    'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300,
    'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350,
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 400,
    'scrapy.downloadermiddlewares.retry.RetryMiddleware': 500,
    'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 550,
    'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590,
    'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600,
    'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750,
    'scrapy.downloadermiddlewares.chunked.ChunkedTransferMiddleware': 830,
    'scrapy.downloadermiddlewares.stats.DownloaderStats': 850,
    'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900,
}

複制

包含Scrapy預設啟用的下載下傳中間件的字典。永遠不要在項目中修改該設定，而是修改

DOWNLOADER_MIDDLEWARES

DOWNLOADER_STATS

此設定用于啟用下載下傳統計。

預設值：True
DOWNLOAD_DELAY

它定義的總時間下載下傳它從下載下傳網站的網頁之前。

預設值：0

下載下傳器在下載下傳同一個網站下一個頁面前需要等待的時間。該選項可以用來限制爬取速度，減輕伺服器壓力。同時也支援小數。

預設情況下，Scrapy在兩個請求間不等待一個固定的值，而是使用0.5到1.5之間的一個随機值 * DOWNLOAD_DELAY 的結果作為等待間隔。

DOWNLOAD_HANDLERS

它與下載下傳處理程式的字典。

預設值： {}
DOWNLOAD_HANDLERS_BASE

它與預設情況下啟用下載下傳處理程式的字典。

預設值：

{
    'file': 'scrapy.core.downloader.handlers.file.FileDownloadHandler',
    'http': 'scrapy.core.downloader.handlers.http.HttpDownloadHandler',
    'https': 'scrapy.core.downloader.handlers.http.HttpDownloadHandler',
    's3': 'scrapy.core.downloader.handlers.s3.S3DownloadHandler',
}

複制

DOWNLOAD_TIMEOUT

它的總時間下載下傳到之前等待逾時。

預設值：180
DOWNLOAD_MAXSIZE

這是響應的下載下傳器下載下傳的最大尺寸。

預設值：1073741824 (1024MB)
DOWNLOAD_WARNSIZE

它定義為響應下載下傳警告的大小。

預設值：33554432 (32MB)
DUPEFILTER_CLASS

這是用于檢測和是重複的請求的濾波的類。

預設值：“scrapy.dupefilters.RFPDupeFilter”
DUPEFILTER_DEBUG

當設定為true此設定記錄所有重複的過濾器。

預設值：False
EDITOR

它是用來編輯使用編輯指令蜘蛛。

預設值：取決于環境
EXTENSIONS

它是具有在項目中啟用的擴充字典。

預設值： {}
EXTENSIONS_BASE

它是具有内置的擴充字典。

預設值：

{
    'scrapy.extensions.corestats.CoreStats': 0,
    'scrapy.telnet.TelnetConsole': 0,
    'scrapy.extensions.memusage.MemoryUsage': 0,
    'scrapy.extensions.memdebug.MemoryDebugger': 0,
    'scrapy.extensions.closespider.CloseSpider': 0,
    'scrapy.extensions.feedexport.FeedExporter': 0,
    'scrapy.extensions.logstats.LogStats': 0,
    'scrapy.extensions.spiderstate.SpiderState': 0,
    'scrapy.extensions.throttle.AutoThrottle': 0,
}

複制

FEED_TEMPDIR

它是用來設定，其中履帶臨時檔案可以存儲自定義檔案夾的目錄。
ITEM_PIPELINES

它是具有管線的字典。

預設值： {}
ITEM_PIPELINES_BASE

預設:
{} 儲存項目中預設啟用的pipeline的字典。永遠不要在項目中修改該設定，而是修改 ITEM_PIPELINES 。
LOG_ENABLED

它定義如果日志被啟用。

預設值：True
LOG_ENCODING

它定義了将用于記錄的編碼類型。

預設值： ‘UTF-8’
LOG_FILE

它是用于記錄的輸出檔案的名稱。logging輸出的檔案名。如果為None，則使用标準錯誤輸出(standard error)。

預設值：無
LOG_FORMAT

它是利用它的日志資訊可以被格式化的字元串。

預設值：’%(asctime)s [%(name)s] %(levelname)s: %(message)s’
LOG_DATEFORMAT

它是利用它的日期/時間可以格式化字元串。

預設值： ‘%Y-%m-%d %H:%M:%S’
LOG_LEVEL

它定義最低日志級别。

預設值：“DEBUG”

log的最低級别。可選的級别有: CRITICAL、 ERROR、WARNING、INFO、DEBUG 。
LOG_STDOUT

此設定如果設定為true ，所有侑過程輸出會出現在日志中。

預設值：False
MEMDEBUG_ENABLED

它定義如果記憶體調試啟用。

預設值：False
MEMDEBUG_NOTIFY

它定義啟用記憶體調試時，發送到特定位址的記憶體報告。

預設值： []
MEMUSAGE_ENABLED

它定義如果存儲器使用是當scrapy過程超過存儲器限制被啟用。

預設值：False
MEMUSAGE_LIMIT_MB

如果定義了存儲器的最大限制(in megabytes)被允許。在關閉Scrapy之前所允許的最大記憶體數(機關: MB)(如果 MEMUSAGE_ENABLED為True)。如果為0，将不做限制。

預設值：0
MEMUSAGE_CHECK_INTERVAL_SECONDS

它用于通過設定間隔的長度，以檢查本記憶體使用情況。

預設值：60.0
MEMUSAGE_NOTIFY_MAIL

它是用來當記憶體達到極限與電子郵件清單通知。

預設值：False
MEMUSAGE_REPORT

它定義如果記憶體使用情況報告要在關閉每個蜘蛛發送。

預設值：False
MEMUSAGE_WARNING_MB

它定義被發送警告之前被允許的總存儲。

預設值：0
NEWSPIDER_MODULE

這是其中使用創造了新的蜘蛛子產品genspider指令。

預設值： ‘’
RANDOMIZE_DOWNLOAD_DELAY

它定義的時候了Scrapy等待下載下傳的同時從網站上請求一個随機量。如果啟用，當從相同的網站擷取資料時，Scrapy将會等待一個随機的值 (0.5到1.5之間的一個随機值 *
DOWNLOAD_DELAY 預設值：True
REACTOR_THREADPOOL_MAXSIZE

它定義為在反應器線程池的最大尺寸。

預設值：10
REDIRECT_MAX_TIMES

它定義了一個請求多少次可以重定向。

預設值：20
REDIRECT_PRIORITY_ADJUST

設定時，該設定，調整的請求重定向優先級。修改重定向請求相對于原始請求的優先級。負數意味着更多優先級

預設值：+2
RETRY_PRIORITY_ADJUST

設定時，該設定，調整請求重試的優先權。

預設值：-1
RETRY_ENABLED = False

對于失敗的HTTP請求(如逾時)進行重試會降低爬取效率，當爬取目标基數很大時，舍棄部分資料不影響大局，提高效率
ROBOTSTXT_OBEY

當設定為Scrapy遵循robots.txt政策true 。

預設值：False

robots.txt 是遵循 Robot協定的一個檔案，它儲存在網站的伺服器中，它的作用是，告訴搜尋引擎爬蟲，本網站哪些目錄下的網頁不希望你進行爬取收錄。在Scrapy啟動後，會在第一時間通路網站的 robots.txt 檔案，然後決定該網站的爬取範圍。
SCHEDULER

它定義了用于抓取目的排程。

預設值：“scrapy.core.scheduler.Scheduler”
SPIDER_CONTRACTS

它是在有項目蜘蛛合同測試蜘蛛的字典。

預設值： {}
SPIDER_CONTRACTS_BASE

這是保持其在Scrapy預設啟用Scrapy合同的字典。

預設值：

{
    'scrapy.contracts.default.UrlContract' : 1,
    'scrapy.contracts.default.ReturnsContract': 2,
    'scrapy.contracts.default.ScrapesContract': 3,
}

複制

SPIDER_LOADER_CLASS

它定義了實作一個類SpiderLoader API來加載蜘蛛。

預設值：“scrapy.spiderloader.SpiderLoader”
SPIDER_MIDDLEWARES

這是拿着蜘蛛中間件的字典。

預設值： {}
SPIDER_MIDDLEWARES_BASE

這是在Scrapy預設啟用一個辭典保持蜘蛛中間件。

預設值：

{
    'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware': 50,
    'scrapy.spidermiddlewares.offsite.OffsiteMiddleware': 500,
    'scrapy.spidermiddlewares.referer.RefererMiddleware': 700,
    'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware': 800,
    'scrapy.spidermiddlewares.depth.DepthMiddleware': 900,
}

複制

SPIDER_MODULES

它是一種含有蜘蛛其中Scrapy将尋找子產品清單。

預設值： []
STATS_CLASS

這是實作一類Stats Collector API來收集統計資訊。

預設值：“scrapy.statscollectors.MemoryStatsCollector”
STATS_DUMP

當設定此設定true ，轉儲統計到日志中。

預設值：True
STATSMAILER_RCPTS

一旦蜘蛛刮完畢，Scrapy使用此設定發送統計資料。

預設值： []
TELNETCONSOLE_ENABLED

它定義是否啟用telnetconsole。

預設值：True
TELNETCONSOLE_PORT

它定義了Telnet控制台端口。

預設值：[6023，6073]
TEMPLATES_DIR

它是包含可以在建立新的項目中使用的模闆目錄。

預設值： templates scrapy子產品内部目錄
URLLENGTH_LIMIT

它定義了将被允許抓取的網址的長度為URL的最大極限。

預設值：2083
USER_AGENT

它定義了在抓取網站所使用的使用者代理。

預設值： “Scrapy / VERSION“
setting模闆檔案

# -*- coding: utf-8 -*-
# Scrapy settings for companyNews project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     http://doc.scrapy.org/en/latest/topics/settings.html
#     http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html
#     http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html
from DBSetting import host_redis,port_redis,db_redis,password_redis


#它是一種可以用于建構使用者代理機器人的名稱,預設值:'scrapybot'
BOT_NAME = 'companyNews'
# 它是一種含有蜘蛛其中Scrapy将尋找子產品清單,預設值： []
SPIDER_MODULES = ['companyNews.spiders']
# 預設: '',使用 genspider 指令建立新spider的子產品。
NEWSPIDER_MODULE = 'companyNews.spiders'
#-----------------------日志檔案配置-----------------------------------
# 預設: True,是否啟用logging。
# LOG_ENABLED=True
# 預設: 'utf-8',logging使用的編碼。
# LOG_ENCODING='utf-8'
# 它是利用它的日志資訊可以被格式化的字元串。預設值：'%(asctime)s [%(name)s] %(levelname)s: %(message)s'
# LOG_FORMAT='%(asctime)s [%(name)s] %(levelname)s: %(message)s'
# 它是利用它的日期/時間可以格式化字元串。預設值： '%Y-%m-%d %H:%M:%S'
# LOG_DATEFORMAT='%Y-%m-%d %H:%M:%S'
#日志檔案名
#LOG_FILE = "dg.log"
#日志檔案級别,預設值：“DEBUG”,log的最低級别。可選的級别有: CRITICAL、 ERROR、WARNING、INFO、DEBUG 。
LOG_LEVEL = 'WARNING'
# -----------------------------robots協定---------------------------------------------
# Obey robots.txt rules
# robots.txt 是遵循 Robot協定 的一個檔案，它儲存在網站的伺服器中，它的作用是，告訴搜尋引擎爬蟲，
# 本網站哪些目錄下的網頁 不希望 你進行爬取收錄。在Scrapy啟動後，會在第一時間通路網站的 robots.txt 檔案，
# 然後決定該網站的爬取範圍。
# ROBOTSTXT_OBEY = True

# 對于失敗的HTTP請求(如逾時)進行重試會降低爬取效率，當爬取目标基數很大時，舍棄部分資料不影響大局，提高效率
RETRY_ENABLED = False
#請求下載下傳逾時時間，預設180秒
DOWNLOAD_TIMEOUT=20
# 這是響應的下載下傳器下載下傳的最大尺寸，預設值：1073741824 (1024MB)
# DOWNLOAD_MAXSIZE=1073741824
# 它定義為響應下載下傳警告的大小，預設值：33554432 (32MB)
# DOWNLOAD_WARNSIZE=33554432
# ------------------------全局并發數的一些配置:-------------------------------
# Configure maximum concurrent requests performed by Scrapy (default: 16)
# 預設 Request 并發數：16
# CONCURRENT_REQUESTS = 32
# 預設 Item 并發數：100
# CONCURRENT_ITEMS = 100
# The download delay setting will honor only one of:
# 預設每個域名的并發數：8
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
# 每個IP的最大并發數：0表示忽略
# CONCURRENT_REQUESTS_PER_IP = 0

# Configure a delay for requests for the same website (default: 0)
# See http://scrapy.readthedocs.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
#DOWNLOAD_DELAY 會影響 CONCURRENT_REQUESTS，不能使并發顯現出來,設定下載下傳延遲
#DOWNLOAD_DELAY = 3

# Disable cookies (enabled by default)
#禁用cookies,有些站點會從cookies中判斷是否為爬蟲
# COOKIES_ENABLED = True
# COOKIES_DEBUG = True

# Crawl responsibly by identifying yourself (and your website) on the user-agent
# 它定義了在抓取網站所使用的使用者代理，預設值：“Scrapy / VERSION“
#USER_AGENT = ' (+http://www.yourdomain.com)'

# Override the default request headers:
DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
}
# Enable or disable spider middlewares
# See http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html
SPIDER_MIDDLEWARES = {
    'companyNews.middlewares.UserAgentmiddleware': 401,
    'companyNews.middlewares.ProxyMiddleware':426,
}
# Enable or disable downloader middlewares
# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
    'companyNews.middlewares.UserAgentmiddleware': 400,
    'companyNews.middlewares.ProxyMiddleware':425,
    # 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware':423,
     # 'companyNews.middlewares.CookieMiddleware': 700,
}
MYEXT_ENABLED=True      # 開啟擴充
IDLE_NUMBER=12           # 配置空閑持續時間機關為 360個 ，一個時間機關為5s
# Enable or disable extensions
# See http://scrapy.readthedocs.org/en/latest/topics/extensions.html
# 在 EXTENSIONS 配置，激活擴充
EXTENSIONS = {
    # 'scrapy.extensions.telnet.TelnetConsole': None,
    'companyNews.extensions.RedisSpiderSmartIdleClosedExensions': 500,
}
# Configure item pipelines
# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
# 注意:自定義pipeline的優先級需高于Redispipeline,因為RedisPipeline不會傳回item,
# 是以如果RedisPipeline優先級高于自定義pipeline,那麼自定義pipeline無法擷取到item
ITEM_PIPELINES = {
     #将清除的項目在redis進行處理，# 将RedisPipeline注冊到pipeline元件中(這樣才能将資料存入Redis)
    # 'scrapy_redis.pipelines.RedisPipeline': 400,
    'companyNews.pipelines.companyNewsPipeline': 300,# 自定義pipeline視情況選擇性注冊(可選)
}
# Enable and configure HTTP caching (disabled by default)
# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
# ----------------scrapy預設已經自帶了緩存，配置如下-----------------
# 打開緩存
#HTTPCACHE_ENABLED = True
# 設定緩存過期時間（機關：秒）
#HTTPCACHE_EXPIRATION_SECS = 0
# 緩存路徑(預設為：.scrapy/httpcache)
#HTTPCACHE_DIR = 'httpcache'
# 忽略的狀态碼
#HTTPCACHE_IGNORE_HTTP_CODES = []
# HTTPERROR_ALLOWED_CODES = [302, 301]
# 緩存模式(檔案緩存)
#HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

#-----------------Scrapy-Redis分布式爬蟲相關設定如下--------------------------
# Enables scheduling storing requests queue in redis.
#啟用Redis排程存儲請求隊列，使用Scrapy-Redis的排程器,不再使用scrapy的排程器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# Ensure all spiders share same duplicates filter through redis.
#確定所有的爬蟲通過Redis去重，使用Scrapy-Redis的去重元件,不再使用scrapy的去重元件
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 預設請求序列化使用的是pickle 但是我們可以更改為其他類似的。PS：這玩意兒2.X的可以用。3.X的不能用
# SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"

# 使用優先級排程請求隊列 （預設使用），
# 使用Scrapy-Redis的從請求集合中取出請求的方式,三種方式擇其一即可:
# 分别按(1)請求的優先級/(2)隊列FIFO/(先進先出)(3)棧FILO 取出請求（先進後出）
# SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'
# 可選用的其它隊列
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.FifoQueue'
# SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.LifoQueue'

# Don't cleanup redis queues, allows to pause/resume crawls.
#不清除Redis隊列、這樣可以暫停/恢複 爬取，
# 允許暫停,redis請求記錄不會丢失(重新開機爬蟲不會重頭爬取已爬過的頁面)
#SCHEDULER_PERSIST = True

#----------------------redis的位址配置-------------------------------------
# Specify the full Redis URL for connecting (optional).
# If set, this takes precedence over the REDIS_HOST and REDIS_PORT settings.
# 指定用于連接配接redis的URL（可選）
# 如果設定此項，則此項優先級高于設定的REDIS_HOST 和 REDIS_PORT
# REDIS_URL = 'redis://root:密碼@主機ＩＰ:端口'
# REDIS_URL = 'redis://root:[email protected]:6379'
REDIS_URL = 'redis://root:%s@%s:%s'%(password_redis,host_redis,port_redis)
# 自定義的redis參數（連接配接逾時之類的）
REDIS_PARAMS={'db': db_redis}
# Specify the host and port to use when connecting to Redis (optional).
# 指定連接配接到redis時使用的端口和位址（可選）
#REDIS_HOST = '127.0.0.1'
#REDIS_PORT = 6379
#REDIS_PASS = '19940225'

#-----------------------------------------暫時用不到-------------------------------------------------------
# 它定義了将被允許抓取的網址的長度為URL的最大極限，預設值：2083
# URLLENGTH_LIMIT=2083
# 爬取網站最大允許的深度(depth)值,預設值0。如果為0，則沒有限制
# DEPTH_LIMIT = 3
# 整數值。用于根據深度調整request優先級。如果為0，則不根據深度進行優先級調整。
# DEPTH_PRIORITY=3

# 最大空閑時間防止分布式爬蟲因為等待而關閉
# 這隻有當上面設定的隊列類是SpiderQueue或SpiderStack時才有效
# 并且當您的蜘蛛首次啟動時，也可能會阻止同一時間啟動（由于隊列為空）
# SCHEDULER_IDLE_BEFORE_CLOSE = 10

# 序列化項目管道作為redis Key存儲
# REDIS_ITEMS_KEY = '%(spider)s:items'

# 預設使用ScrapyJSONEncoder進行項目序列化
# You can use any importable path to a callable object.
# REDIS_ITEMS_SERIALIZER = 'json.dumps'

# 自定義redis用戶端類
# REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient'

# 如果為True，則使用redis的'spop'進行操作。
# 如果需要避免起始網址清單出現重複，這個選項非常有用。開啟此選項urls必須通過sadd添加，否則會出現類型錯誤。
# REDIS_START_URLS_AS_SET = False

# RedisSpider和RedisCrawlSpider預設 start_usls 鍵
# REDIS_START_URLS_KEY = '%(name)s:start_urls'

# 設定redis使用utf-8之外的編碼
# REDIS_ENCODING = 'latin1'

# Disable Telnet Console (enabled by default)
# 它定義是否啟用telnetconsole,預設值：True
#TELNETCONSOLE_ENABLED = False

# Enable and configure the AutoThrottle extension (disabled by default)
# See http://doc.scrapy.org/en/latest/topics/autothrottle.html
#AUTOTHROTTLE_ENABLED = True
# The initial download delay
# 開始下載下傳時限速并延遲時間
#AUTOTHROTTLE_START_DELAY = 5
# The maximum download delay to be set in case of high latencies
#高并發請求時最大延遲時間
#AUTOTHROTTLE_MAX_DELAY = 60
# The average number of requests Scrapy should be sending in parallel to
# each remote server
#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
#AUTOTHROTTLE_DEBUG = False

# REDIRECT_ENABLED = False

複制

參考：https://blog.csdn.net/henry620/article/details/55505662

https://www.cnblogs.com/lambs/p/9134566.html

https://www.cnblogs.com/zhaof/p/7198407.html

https://blog.csdn.net/qq_39268193/article/details/80572328