使用scrapy爬蟲架構批量下載下傳圖檔

2023-08-05 23:24:48

settings.py(需要在settings中配置如下内容)

ITEM_PIPELINES = {
    # 啟用scrapy自帶的圖檔下載下傳ImagesPipeline
    'scrapy.contrib.pipeline.images.ImagesPipeline': None,
    # 如果需要采用自定義的ImagesPipiline，需要将自帶的ImagesPipelin設定為None
    'chinazSpider.pipelines.ImagesPipiline': 1,
}
# 配置圖檔的儲存目錄
IMAGES_STORE = 'images'
# 在ImagesPipeline進行下載下傳圖檔時，配置圖檔對應的Item字段
IMAGES_URLS_FIELD = 'img_url'

pilelines.py

from scrapy.pipelines.images import ImagesPipeline
from scrapy.http import Request


class ImagesPipiline(ImagesPipeline):
    def get_media_requests(self, item, info):
        # 從item中擷取要下載下傳的圖檔的url，根據url構造Request()對象，并傳回該對象
        image_url = item['img_url']
        yield Request(image_url, meta={'item': item})

    def file_path(self, request, response=None, info=None):
        # 用來自定義圖檔的下載下傳路徑
        item = request.meta['item']
        # 每個分類的名稱
        category = item['sort_name'][:-2]
        # 圖檔的檔案名
        img_name = item['img_url'].split('/')[-1]
        # 通過分類名和圖檔的檔案名，拼接圖檔的相對路徑
        path = category + '/' + img_name
        return path

    def item_completed(self, results, item, info):
        # 圖檔下載下傳完成後，傳回結果result
        print(results)
        return item

使用scrapy爬蟲架構批量下載下傳圖檔

繼續閱讀

#acrossthespiderverse#MST#Titus#華棟圖書集團

國内首秀法拉利RomaSpider。一台敞篷跑車哪個角度最美？相信很多人都會說是側面，但直到見到這台RomaSpider

#法拉利RomaSpider奏響新“躍”章LaNuovaDolceVita全新上市

13年法拉利𝙁𝙚𝙧𝙧𝙖𝙧𝙞 458 Spider 4.5L，帶三大件，V8自吸直噴式汽油發動機，發變底盤工況完美，價格9

YourfriendlyneighborhoodSpider-Man🤟🏻🕸️🕷️#spiderman#蜘蛛俠#荷蘭弟

python3抓取網易雲音樂評論閑來無事，爬點網易雲音樂評論進行分析，準備做音樂推薦模型來用......

網絡爬蟲：URL去重政策之布隆過濾器(BloomFilter)的使用前言：關于BloomFilter：以前的去重政策：BloomFilter的使用：

用tornado爬素材網站用tornado爬素材網站

pyspider 爬取去哪兒旅遊攻略

【Python】scrapy架構簡介——架構、資料流、配置檔案架構圖資料流項目架構

ubuntu16.4安裝scrapy遇到的問題記錄

(究極01)Scrapy練習第三輯-貫穿GitHub

Ibelievethere'saheroinallofus.#spiderman#蜘蛛俠#荷蘭弟#湯姆赫蘭德

Spider和CrawlSpiderSpider和CrawlSpider

網絡蜘蛛Spider的邏輯Logic（二）