scrapy擷取網頁内容和圖檔下載下傳

2022-09-22 18:31:33

首先在終端指令行菜單鍵+R輸入cmd進入指令行

然後再終端輸入cd+空格把儲存的位址拉擷取:

在存儲的路徑下建立一個小的項目輸入scrapy startproject QiuShi,然後輸入cd QiuShi進入項目下再然後輸入建立scrapy genspider qiushi qiushibaike.com

建立好最後的結果是如下圖:

我們直接進入主題:點選qiushi.py進入寫代碼界面:

擷取熱圖裡面的所有内容和圖檔下載下傳;完整代碼:

# -*- coding: utf-8 -*-
import scrapy
from  .. items import QiushiItem
class QiushiSpider(scrapy.Spider):
    name = 'qiushi'
    allowed_domains = ['qiushibaike.com']
    start_urls = ['https://www.qiushibaike.com/imgrank']

    def parse(self, response):
        # 擷取文本内容
        content_list = response.xpath('//div[@class="content"]/span/text()').extract()
        # 擷取圖檔連結
        thumb_list = response.xpath('//div[@class="thumb"]/a/img/@src').extract()
      

        item = QiushiItem()
        for content in content_list:
   
            # 去掉換行
            out_list = content.strip()
            # 内容儲存txt格式
            with open('baike.txt', 'a', encoding='utf-8')as f:
                f.write(out_list)
                f.write('\n')

        for thumb in thumb_list:
            #拼接圖檔連結
            url = 'https:' + thumb
           
            item['url'] = [url]
            yield item
        # 擷取下一頁的連結
        next_url=response.xpath('//ul[@class="pagination"]/li[last()]/a/@href').extract()
    
        if len(next_url) != 0:
            # 拼接下一頁網址
            nextUrl = 'http://www.qiushibaike.com' + next_url[0]
          
            yield scrapy.Request(url=nextUrl,callback=self.parse)

我們先進入items.py:

接着我們進入settings.py配置管道:

配置好以後我們在終端輸入scrapy crawl qiushi來運作:

輸出的結果:

scrapy擷取網頁内容和圖檔下載下傳

繼續閱讀

HDU 4719 Oh My Holy FFF

CSU 1561 (More) Multiplication

CSU 1563 Lexicography

HDU 4721 Food and Productivity

ZOJ 1041 Transmitters

CSU 1562 Fun House

CodeChef PALPROB Palindromeness

UVA 10344- 23 out of 5

ZOJ 1104 Leaps Tall Buildings

HDU 2821 Pusher

UVA 1401 Remember the Word

ZOJ 2748 Free Kick

CSU 1567 Reverse Rot

JAVA 系列——>開發工具IntelliJ IDEA的安裝以及配置、快捷鍵IDEA 簡介

UVA 519 Puzzle (II)

磁盤結構及在Linux中的命名