天天看點

scrapy setting配置及說明

參考文檔http://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/settings.html#topics-settings-ref

  • AUTOTHROTTLE_START_DELAY = 3

    開始下載下傳時限速并延遲時間

  • AUTOTHROTTLE_MAX_DELAY = 60

    高并發請求時最大延遲時間

  • AWS_ACCESS_KEY_ID

    它是用于通路亞馬遜網絡服務。

    預設值:無

  • AWS_SECRET_ACCESS_KEY

    它是用于通路亞馬遜網絡服務。

  • BOT_NAME

    它是一種可以用于建構使用者代理機器人的名稱。

    預設值:“scrapybot”

    eg:BOT_NAME=“scrapybot”

  • CONCURRENT_ITEMS

    在用來并行地處理所述物品處理器的現有項目的最大數目。

    預設 Item 并發數:100

  • CONCURRENT_REQUESTS

    其中Scrapy下載下傳執行現有的最大請求數。

    預設值:16

    并發是指scrapy同時處理的request的數量,預設的全局并發限制為16,可增加這個值,增加多少取決于爬蟲占CPU多少,設定前最好測試一下,一般占在80-90%為好

  • CONCURRENT_REQUESTS_PER_DOMAIN

    現有的最大請求數,對于任何單域同時進行。

    預設值:8

  • CONCURRENT_REQUESTS_PER_IP

    現有的請求的最大數量的同時執行任何單一的IP。

    預設值:0(0表示忽略)

  • COOKIES_ENABLED = False

    禁止cookies,有些站點會從cookies中判斷是否為爬蟲

  • DEFAULT_ITEM_CLASS

    它是用來表示商品一類。

    預設值:“scrapy.item.Item”

  • DEFAULT_REQUEST_HEADERS

    它是用于Scrapy的HTTP請求的預設标題。

    預設值:

{ 
 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 
 'Accept-Language': 'en', 
}           

複制

  • DEPTH_LIMIT

    因為蜘蛛的最大深度抓取任何網站。

    預設值:0

    爬取網站最大允許的深度(depth)值。如果為0,則沒有限制

  • DEPTH_PRIORITY

    整數值。用于根據深度調整request優先級。如果為0,則不根據深度進行優先級調整。

    預設值:0

  • DEPTH_STATS

    它指出是否收集詳細的統計資料與否。

    預設值:True

  • DEPTH_STATS_VERBOSE

    當啟用此設定,請求數統計中的每個詳細深入的收集。

    預設值:False

  • DNSCACHE_ENABLED

    它是用來啟用記憶體緩存DNS。

    預設值:True

  • DNSCACHE_SIZE

    它定義了在記憶體中緩存DNS的大小。

    預設值:10000

  • DNS_TIMEOUT

    它是用來設定逾時DNS處理的查詢。

    預設值:60

  • DOWNLOADER

    它是用來抓取過程中下載下傳。

    預設值:“scrapy.core.downloader.Downloader”

  • DOWNLOADER_MIDDLEWARES

    這是辭典保持下載下傳中間件和他們的訂單。

    預設值: {}

  • DOWNLOADER_MIDDLEWARES_BASE

    這是預設啟用的一個辭典保持下載下傳中間件。

    預設值:

{
    'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100,
    'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300,
    'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350,
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 400,
    'scrapy.downloadermiddlewares.retry.RetryMiddleware': 500,
    'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 550,
    'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590,
    'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600,
    'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750,
    'scrapy.downloadermiddlewares.chunked.ChunkedTransferMiddleware': 830,
    'scrapy.downloadermiddlewares.stats.DownloaderStats': 850,
    'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900,
}           

複制

包含Scrapy預設啟用的下載下傳中間件的字典。 永遠不要在項目中修改該設定,而是修改

DOWNLOADER_MIDDLEWARES

  • DOWNLOADER_STATS

    此設定用于啟用下載下傳統計。

    預設值:True

  • DOWNLOAD_DELAY

    它定義的總時間下載下傳它從下載下傳網站的網頁之前。

    預設值:0

下載下傳器在下載下傳同一個網站下一個頁面前需要等待的時間。該選項可以用來限制爬取速度, 減輕伺服器壓力。同時也支援小數。

預設情況下,Scrapy在兩個請求間不等待一個固定的值, 而是使用0.5到1.5之間的一個随機值 * DOWNLOAD_DELAY 的結果作為等待間隔。

  • DOWNLOAD_HANDLERS

    它與下載下傳處理程式的字典。

    預設值: {}

  • DOWNLOAD_HANDLERS_BASE

    它與預設情況下啟用下載下傳處理程式的字典。

    預設值:

{
    'file': 'scrapy.core.downloader.handlers.file.FileDownloadHandler',
    'http': 'scrapy.core.downloader.handlers.http.HttpDownloadHandler',
    'https': 'scrapy.core.downloader.handlers.http.HttpDownloadHandler',
    's3': 'scrapy.core.downloader.handlers.s3.S3DownloadHandler',
}           

複制

  • DOWNLOAD_TIMEOUT

    它的總時間下載下傳到之前等待逾時。

    預設值:180

  • DOWNLOAD_MAXSIZE

    這是響應的下載下傳器下載下傳的最大尺寸。

    預設值:1073741824 (1024MB)

  • DOWNLOAD_WARNSIZE

    它定義為響應下載下傳警告的大小。

    預設值:33554432 (32MB)

  • DUPEFILTER_CLASS

    這是用于檢測和是重複的請求的濾波的類。

    預設值:“scrapy.dupefilters.RFPDupeFilter”

  • DUPEFILTER_DEBUG

    當設定為true此設定記錄所有重複的過濾器。

    預設值:False

  • EDITOR

    它是用來編輯使用編輯指令蜘蛛。

    預設值:取決于環境

  • EXTENSIONS

    它是具有在項目中啟用的擴充字典。

    預設值: {}

  • EXTENSIONS_BASE

    它是具有内置的擴充字典。

    預設值:

{
    'scrapy.extensions.corestats.CoreStats': 0,
    'scrapy.telnet.TelnetConsole': 0,
    'scrapy.extensions.memusage.MemoryUsage': 0,
    'scrapy.extensions.memdebug.MemoryDebugger': 0,
    'scrapy.extensions.closespider.CloseSpider': 0,
    'scrapy.extensions.feedexport.FeedExporter': 0,
    'scrapy.extensions.logstats.LogStats': 0,
    'scrapy.extensions.spiderstate.SpiderState': 0,
    'scrapy.extensions.throttle.AutoThrottle': 0,
}           

複制

  • FEED_TEMPDIR

    它是用來設定,其中履帶臨時檔案可以存儲自定義檔案夾的目錄。

  • ITEM_PIPELINES

    它是具有管線的字典。

    預設值: {}

  • ITEM_PIPELINES_BASE

    預設: 

    {}

    儲存項目中預設啟用的pipeline的字典。 永遠不要在項目中修改該設定,而是修改 

    ITEM_PIPELINES

  • LOG_ENABLED

    它定義如果日志被啟用。

    預設值:True

  • LOG_ENCODING

    它定義了将用于記錄的編碼類型。

    預設值: ‘UTF-8’

  • LOG_FILE

    它是用于記錄的輸出檔案的名稱。logging輸出的檔案名。如果為None,則使用标準錯誤輸出(standard error)。

    預設值:無

  • LOG_FORMAT

    它是利用它的日志資訊可以被格式化的字元串。

    預設值:’%(asctime)s [%(name)s] %(levelname)s: %(message)s’

  • LOG_DATEFORMAT

    它是利用它的日期/時間可以格式化字元串。

    預設值: ‘%Y-%m-%d %H:%M:%S’

  • LOG_LEVEL

    它定義最低日志級别。

    預設值:“DEBUG”

    log的最低級别。可選的級别有: CRITICAL、 ERROR、WARNING、INFO、DEBUG 。

  • LOG_STDOUT

    此設定如果設定為true ,所有侑過程輸出會出現在日志中。

    預設值:False

  • MEMDEBUG_ENABLED

    它定義如果記憶體調試啟用。

    預設值:False

  • MEMDEBUG_NOTIFY

    它定義啟用記憶體調試時,發送到特定位址的記憶體報告。

    預設值: []

  • MEMUSAGE_ENABLED

    它定義如果存儲器使用是當scrapy過程超過存儲器限制被啟用。

    預設值:False

  • MEMUSAGE_LIMIT_MB

    如果定義了存儲器的最大限制(in megabytes)被允許。在關閉Scrapy之前所允許的最大記憶體數(機關: MB)(如果 MEMUSAGE_ENABLED為True)。 如果為0,将不做限制。

    預設值:0

  • MEMUSAGE_CHECK_INTERVAL_SECONDS

    它用于通過設定間隔的長度,以檢查本記憶體使用情況。

    預設值:60.0

  • MEMUSAGE_NOTIFY_MAIL

    它是用來當記憶體達到極限與電子郵件清單通知。

    預設值:False

  • MEMUSAGE_REPORT

    它定義如果記憶體使用情況報告要在關閉每個蜘蛛發送。

    預設值:False

  • MEMUSAGE_WARNING_MB

    它定義被發送警告之前被允許的總存儲。

    預設值:0

  • NEWSPIDER_MODULE

    這是其中使用創造了新的蜘蛛子產品genspider指令。

    預設值: ‘’

  • RANDOMIZE_DOWNLOAD_DELAY

    它定義的時候了Scrapy等待下載下傳的同時從網站上請求一個随機量。如果啟用,當從相同的網站擷取資料時,Scrapy将會等待一個随機的值 (0.5到1.5之間的一個随機值 * 

    DOWNLOAD_DELAY

    預設值:True
  • REACTOR_THREADPOOL_MAXSIZE

    它定義為在反應器線程池的最大尺寸。

    預設值:10

  • REDIRECT_MAX_TIMES

    它定義了一個請求多少次可以重定向。

    預設值:20

  • REDIRECT_PRIORITY_ADJUST

    設定時,該設定,調整的請求重定向優先級。修改重定向請求相對于原始請求的優先級。 負數意味着更多優先級

    預設值:+2

  • RETRY_PRIORITY_ADJUST

    設定時,該設定,調整請求重試的優先權。

    預設值:-1

  • RETRY_ENABLED = False

    對于失敗的HTTP請求(如逾時)進行重試會降低爬取效率,當爬取目标基數很大時,舍棄部分資料不影響大局,提高效率

  • ROBOTSTXT_OBEY

    當設定為Scrapy遵循robots.txt政策true 。

    預設值:False

    robots.txt 是遵循 Robot協定 的一個檔案,它儲存在網站的伺服器中,它的作用是,告訴搜尋引擎爬蟲,本網站哪些目錄下的網頁 不希望 你進行爬取收錄。在Scrapy啟動後,會在第一時間通路網站的 robots.txt 檔案,然後決定該網站的爬取範圍。

  • SCHEDULER

    它定義了用于抓取目的排程。

    預設值:“scrapy.core.scheduler.Scheduler”

  • SPIDER_CONTRACTS

    它是在有項目蜘蛛合同測試蜘蛛的字典。

    預設值: {}

  • SPIDER_CONTRACTS_BASE

    這是保持其在Scrapy預設啟用Scrapy合同的字典。

    預設值:

{
    'scrapy.contracts.default.UrlContract' : 1,
    'scrapy.contracts.default.ReturnsContract': 2,
    'scrapy.contracts.default.ScrapesContract': 3,
}           

複制

  • SPIDER_LOADER_CLASS

    它定義了實作一個類SpiderLoader API來加載蜘蛛。

    預設值:“scrapy.spiderloader.SpiderLoader”

  • SPIDER_MIDDLEWARES

    這是拿着蜘蛛中間件的字典。

    預設值: {}

  • SPIDER_MIDDLEWARES_BASE

    這是在Scrapy預設啟用一個辭典保持蜘蛛中間件。

    預設值:

{
    'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware': 50,
    'scrapy.spidermiddlewares.offsite.OffsiteMiddleware': 500,
    'scrapy.spidermiddlewares.referer.RefererMiddleware': 700,
    'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware': 800,
    'scrapy.spidermiddlewares.depth.DepthMiddleware': 900,
}           

複制

  • SPIDER_MODULES

    它是一種含有蜘蛛其中Scrapy将尋找子產品清單。

    預設值: []

  • STATS_CLASS

    這是實作一類Stats Collector API來收集統計資訊。

    預設值:“scrapy.statscollectors.MemoryStatsCollector”

  • STATS_DUMP

    當設定此設定true ,轉儲統計到日志中。

    預設值:True

  • STATSMAILER_RCPTS

    一旦蜘蛛刮完畢,Scrapy使用此設定發送統計資料。

    預設值: []

  • TELNETCONSOLE_ENABLED

    它定義是否啟用telnetconsole。

    預設值:True

  • TELNETCONSOLE_PORT

    它定義了Telnet控制台端口。

    預設值:[6023,6073]

  • TEMPLATES_DIR

    它是包含可以在建立新的項目中使用的模闆目錄。

    預設值: templates scrapy子產品内部目錄

  • URLLENGTH_LIMIT

    它定義了将被允許抓取的網址的長度為URL的最大極限。

    預設值:2083

  • USER_AGENT

    它定義了在抓取網站所使用的使用者代理。

    預設值: “Scrapy / VERSION“

  • setting模闆檔案
# -*- coding: utf-8 -*-
# Scrapy settings for companyNews project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     http://doc.scrapy.org/en/latest/topics/settings.html
#     http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html
#     http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html
from DBSetting import host_redis,port_redis,db_redis,password_redis


#它是一種可以用于建構使用者代理機器人的名稱,預設值:'scrapybot'
BOT_NAME = 'companyNews'
# 它是一種含有蜘蛛其中Scrapy将尋找子產品清單,預設值: []
SPIDER_MODULES = ['companyNews.spiders']
# 預設: '',使用 genspider 指令建立新spider的子產品。
NEWSPIDER_MODULE = 'companyNews.spiders'
#-----------------------日志檔案配置-----------------------------------
# 預設: True,是否啟用logging。
# LOG_ENABLED=True
# 預設: 'utf-8',logging使用的編碼。
# LOG_ENCODING='utf-8'
# 它是利用它的日志資訊可以被格式化的字元串。預設值:'%(asctime)s [%(name)s] %(levelname)s: %(message)s'
# LOG_FORMAT='%(asctime)s [%(name)s] %(levelname)s: %(message)s'
# 它是利用它的日期/時間可以格式化字元串。預設值: '%Y-%m-%d %H:%M:%S'
# LOG_DATEFORMAT='%Y-%m-%d %H:%M:%S'
#日志檔案名
#LOG_FILE = "dg.log"
#日志檔案級别,預設值:“DEBUG”,log的最低級别。可選的級别有: CRITICAL、 ERROR、WARNING、INFO、DEBUG 。
LOG_LEVEL = 'WARNING'
# -----------------------------robots協定---------------------------------------------
# Obey robots.txt rules
# robots.txt 是遵循 Robot協定 的一個檔案,它儲存在網站的伺服器中,它的作用是,告訴搜尋引擎爬蟲,
# 本網站哪些目錄下的網頁 不希望 你進行爬取收錄。在Scrapy啟動後,會在第一時間通路網站的 robots.txt 檔案,
# 然後決定該網站的爬取範圍。
# ROBOTSTXT_OBEY = True

# 對于失敗的HTTP請求(如逾時)進行重試會降低爬取效率,當爬取目标基數很大時,舍棄部分資料不影響大局,提高效率
RETRY_ENABLED = False
#請求下載下傳逾時時間,預設180秒
DOWNLOAD_TIMEOUT=20
# 這是響應的下載下傳器下載下傳的最大尺寸,預設值:1073741824 (1024MB)
# DOWNLOAD_MAXSIZE=1073741824
# 它定義為響應下載下傳警告的大小,預設值:33554432 (32MB)
# DOWNLOAD_WARNSIZE=33554432
# ------------------------全局并發數的一些配置:-------------------------------
# Configure maximum concurrent requests performed by Scrapy (default: 16)
# 預設 Request 并發數:16
# CONCURRENT_REQUESTS = 32
# 預設 Item 并發數:100
# CONCURRENT_ITEMS = 100
# The download delay setting will honor only one of:
# 預設每個域名的并發數:8
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
# 每個IP的最大并發數:0表示忽略
# CONCURRENT_REQUESTS_PER_IP = 0

# Configure a delay for requests for the same website (default: 0)
# See http://scrapy.readthedocs.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
#DOWNLOAD_DELAY 會影響 CONCURRENT_REQUESTS,不能使并發顯現出來,設定下載下傳延遲
#DOWNLOAD_DELAY = 3

# Disable cookies (enabled by default)
#禁用cookies,有些站點會從cookies中判斷是否為爬蟲
# COOKIES_ENABLED = True
# COOKIES_DEBUG = True

# Crawl responsibly by identifying yourself (and your website) on the user-agent
# 它定義了在抓取網站所使用的使用者代理,預設值:“Scrapy / VERSION“
#USER_AGENT = ' (+http://www.yourdomain.com)'

# Override the default request headers:
DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
}
# Enable or disable spider middlewares
# See http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html
SPIDER_MIDDLEWARES = {
    'companyNews.middlewares.UserAgentmiddleware': 401,
    'companyNews.middlewares.ProxyMiddleware':426,
}
# Enable or disable downloader middlewares
# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
    'companyNews.middlewares.UserAgentmiddleware': 400,
    'companyNews.middlewares.ProxyMiddleware':425,
    # 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware':423,
     # 'companyNews.middlewares.CookieMiddleware': 700,
}
MYEXT_ENABLED=True      # 開啟擴充
IDLE_NUMBER=12           # 配置空閑持續時間機關為 360個 ,一個時間機關為5s
# Enable or disable extensions
# See http://scrapy.readthedocs.org/en/latest/topics/extensions.html
# 在 EXTENSIONS 配置,激活擴充
EXTENSIONS = {
    # 'scrapy.extensions.telnet.TelnetConsole': None,
    'companyNews.extensions.RedisSpiderSmartIdleClosedExensions': 500,
}
# Configure item pipelines
# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
# 注意:自定義pipeline的優先級需高于Redispipeline,因為RedisPipeline不會傳回item,
# 是以如果RedisPipeline優先級高于自定義pipeline,那麼自定義pipeline無法擷取到item
ITEM_PIPELINES = {
     #将清除的項目在redis進行處理,# 将RedisPipeline注冊到pipeline元件中(這樣才能将資料存入Redis)
    # 'scrapy_redis.pipelines.RedisPipeline': 400,
    'companyNews.pipelines.companyNewsPipeline': 300,# 自定義pipeline視情況選擇性注冊(可選)
}
# Enable and configure HTTP caching (disabled by default)
# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
# ----------------scrapy預設已經自帶了緩存,配置如下-----------------
# 打開緩存
#HTTPCACHE_ENABLED = True
# 設定緩存過期時間(機關:秒)
#HTTPCACHE_EXPIRATION_SECS = 0
# 緩存路徑(預設為:.scrapy/httpcache)
#HTTPCACHE_DIR = 'httpcache'
# 忽略的狀态碼
#HTTPCACHE_IGNORE_HTTP_CODES = []
# HTTPERROR_ALLOWED_CODES = [302, 301]
# 緩存模式(檔案緩存)
#HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

#-----------------Scrapy-Redis分布式爬蟲相關設定如下--------------------------
# Enables scheduling storing requests queue in redis.
#啟用Redis排程存儲請求隊列,使用Scrapy-Redis的排程器,不再使用scrapy的排程器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# Ensure all spiders share same duplicates filter through redis.
#確定所有的爬蟲通過Redis去重,使用Scrapy-Redis的去重元件,不再使用scrapy的去重元件
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 預設請求序列化使用的是pickle 但是我們可以更改為其他類似的。PS:這玩意兒2.X的可以用。3.X的不能用
# SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"

# 使用優先級排程請求隊列 (預設使用),
# 使用Scrapy-Redis的從請求集合中取出請求的方式,三種方式擇其一即可:
# 分别按(1)請求的優先級/(2)隊列FIFO/(先進先出)(3)棧FILO 取出請求(先進後出)
# SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'
# 可選用的其它隊列
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.FifoQueue'
# SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.LifoQueue'

# Don't cleanup redis queues, allows to pause/resume crawls.
#不清除Redis隊列、這樣可以暫停/恢複 爬取,
# 允許暫停,redis請求記錄不會丢失(重新開機爬蟲不會重頭爬取已爬過的頁面)
#SCHEDULER_PERSIST = True

#----------------------redis的位址配置-------------------------------------
# Specify the full Redis URL for connecting (optional).
# If set, this takes precedence over the REDIS_HOST and REDIS_PORT settings.
# 指定用于連接配接redis的URL(可選)
# 如果設定此項,則此項優先級高于設定的REDIS_HOST 和 REDIS_PORT
# REDIS_URL = 'redis://root:密碼@主機IP:端口'
# REDIS_URL = 'redis://root:[email protected]:6379'
REDIS_URL = 'redis://root:%s@%s:%s'%(password_redis,host_redis,port_redis)
# 自定義的redis參數(連接配接逾時之類的)
REDIS_PARAMS={'db': db_redis}
# Specify the host and port to use when connecting to Redis (optional).
# 指定連接配接到redis時使用的端口和位址(可選)
#REDIS_HOST = '127.0.0.1'
#REDIS_PORT = 6379
#REDIS_PASS = '19940225'

#-----------------------------------------暫時用不到-------------------------------------------------------
# 它定義了将被允許抓取的網址的長度為URL的最大極限,預設值:2083
# URLLENGTH_LIMIT=2083
# 爬取網站最大允許的深度(depth)值,預設值0。如果為0,則沒有限制
# DEPTH_LIMIT = 3
# 整數值。用于根據深度調整request優先級。如果為0,則不根據深度進行優先級調整。
# DEPTH_PRIORITY=3

# 最大空閑時間防止分布式爬蟲因為等待而關閉
# 這隻有當上面設定的隊列類是SpiderQueue或SpiderStack時才有效
# 并且當您的蜘蛛首次啟動時,也可能會阻止同一時間啟動(由于隊列為空)
# SCHEDULER_IDLE_BEFORE_CLOSE = 10

# 序列化項目管道作為redis Key存儲
# REDIS_ITEMS_KEY = '%(spider)s:items'

# 預設使用ScrapyJSONEncoder進行項目序列化
# You can use any importable path to a callable object.
# REDIS_ITEMS_SERIALIZER = 'json.dumps'

# 自定義redis用戶端類
# REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient'

# 如果為True,則使用redis的'spop'進行操作。
# 如果需要避免起始網址清單出現重複,這個選項非常有用。開啟此選項urls必須通過sadd添加,否則會出現類型錯誤。
# REDIS_START_URLS_AS_SET = False

# RedisSpider和RedisCrawlSpider預設 start_usls 鍵
# REDIS_START_URLS_KEY = '%(name)s:start_urls'

# 設定redis使用utf-8之外的編碼
# REDIS_ENCODING = 'latin1'

# Disable Telnet Console (enabled by default)
# 它定義是否啟用telnetconsole,預設值:True
#TELNETCONSOLE_ENABLED = False

# Enable and configure the AutoThrottle extension (disabled by default)
# See http://doc.scrapy.org/en/latest/topics/autothrottle.html
#AUTOTHROTTLE_ENABLED = True
# The initial download delay
# 開始下載下傳時限速并延遲時間
#AUTOTHROTTLE_START_DELAY = 5
# The maximum download delay to be set in case of high latencies
#高并發請求時最大延遲時間
#AUTOTHROTTLE_MAX_DELAY = 60
# The average number of requests Scrapy should be sending in parallel to
# each remote server
#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
#AUTOTHROTTLE_DEBUG = False

# REDIRECT_ENABLED = False           

複制

參考:https://blog.csdn.net/henry620/article/details/55505662

https://www.cnblogs.com/lambs/p/9134566.html

https://www.cnblogs.com/zhaof/p/7198407.html

https://blog.csdn.net/qq_39268193/article/details/80572328