scrapy获取网页内容和图片下载

2022-09-22 18:31:33

首先在终端命令行菜单键+R输入cmd进入命令行

然后再终端输入cd+空格把储存的地址拉获取:

在存储的路径下创建一个小的项目输入scrapy startproject QiuShi,然后输入cd QiuShi进入项目下再然后输入创建scrapy genspider qiushi qiushibaike.com

创建好最后的结果是如下图:

我们直接进入主题:点击qiushi.py进入写代码界面:

获取热图里面的所有内容和图片下载;完整代码:

# -*- coding: utf-8 -*-
import scrapy
from  .. items import QiushiItem
class QiushiSpider(scrapy.Spider):
    name = 'qiushi'
    allowed_domains = ['qiushibaike.com']
    start_urls = ['https://www.qiushibaike.com/imgrank']

    def parse(self, response):
        # 获取文本内容
        content_list = response.xpath('//div[@class="content"]/span/text()').extract()
        # 获取图片链接
        thumb_list = response.xpath('//div[@class="thumb"]/a/img/@src').extract()
      

        item = QiushiItem()
        for content in content_list:
   
            # 去掉换行
            out_list = content.strip()
            # 内容保存txt格式
            with open('baike.txt', 'a', encoding='utf-8')as f:
                f.write(out_list)
                f.write('\n')

        for thumb in thumb_list:
            #拼接图片链接
            url = 'https:' + thumb
           
            item['url'] = [url]
            yield item
        # 获取下一页的链接
        next_url=response.xpath('//ul[@class="pagination"]/li[last()]/a/@href').extract()
    
        if len(next_url) != 0:
            # 拼接下一页网址
            nextUrl = 'http://www.qiushibaike.com' + next_url[0]
          
            yield scrapy.Request(url=nextUrl,callback=self.parse)

我们先进入items.py:

接着我们进入settings.py配置管道:

配置好以后我们在终端输入scrapy crawl qiushi来运行:

输出的结果:

scrapy获取网页内容和图片下载

继续阅读

HDU 4719 Oh My Holy FFF

CSU 1561 (More) Multiplication

CSU 1563 Lexicography

HDU 4721 Food and Productivity

ZOJ 1041 Transmitters

CSU 1562 Fun House

CodeChef PALPROB Palindromeness

UVA 10344- 23 out of 5

ZOJ 1104 Leaps Tall Buildings

HDU 2821 Pusher

UVA 1401 Remember the Word

ZOJ 2748 Free Kick

CSU 1567 Reverse Rot

JAVA 系列——>开发工具IntelliJ IDEA的安装以及配置、快捷键IDEA 简介

UVA 519 Puzzle (II)

磁盘结构及在Linux中的命名