Python 使用scrapy爬虫框架爬取图片下载并保存本地

2022-09-22 18:39:13

Scrapy官方文档:http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html

基本按照文档的流程过一遍基本就会用了:

在爬取之前,先创建一个新的Scrapy项目,进入终端,输入下面命令:

scrapy startproject BiZhi

该命令将创建包含下面的内容tutorial目录:

在终端输入下面命令进入该项目:

cd BiZhi

输入我们需要爬取的网址:

scrapy genspider bizhi pic.netbian.com

我们主要编辑的如下图箭头所示:

我们先进入spiders下面的bizhi.py进行编辑:

1.下面是获取图片和下载完整代码:

# -*- coding: utf-8 -*-
import scrapy
from ..items import BizhiItem

class BizhiSpider(scrapy.Spider):
    name = 'bizhi'
    allowed_domains = ['pic.netbian.com']
    start_urls = ['http://pic.netbian.com/']

    def parse(self, response):
        # 获取图片
        picture_list = response.xpath('//ul[@class="clearfix"]/li/a//@src').extract()
        for picture in picture_list:
            # 拼接完整地址
            url = 'http://pic.netbian.com' + picture
            item = BizhiItem()
            item['url'] = [url]
            yield  item
            # 获取下一页地址链接
            next_url = response.xpath('//div[@class="page"]/a/@href').extract()
            for next in next_url:

                if len(next) != 0:
                    # 拼接下一页完整地址
                    downPageUrl = 'http://pic.netbian.com' + next

                    yield scrapy.Request(url=downPageUrl,callback=self.parse)

2.进入items.py进行编辑:

3.进入settings.py进行编辑:

Python 使用scrapy爬虫框架爬取图片下载并保存本地

Scrapy官方文档:http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html

在爬取之前,先创建一个新的Scrapy项目,进入终端,输入下面命令:

scrapy startproject BiZhi

cd BiZhi

输入我们需要爬取的网址:

scrapy genspider bizhi pic.netbian.com

scrapy crawl bizhi

继续阅读

CSU 1561 (More) Multiplication

CSU 1563 Lexicography

HDU 4721 Food and Productivity

ZOJ 1041 Transmitters

CSU 1562 Fun House

CodeChef PALPROB Palindromeness

UVA 10344- 23 out of 5

ZOJ 1104 Leaps Tall Buildings

HDU 2821 Pusher

UVA 1401 Remember the Word

ZOJ 2748 Free Kick

CSU 1567 Reverse Rot

JAVA 系列——>开发工具IntelliJ IDEA的安装以及配置、快捷键IDEA 简介

UVA 519 Puzzle (II)

如何成为一名.net 工程师?

磁盘结构及在Linux中的命名

Python 使用scrapy爬虫框架爬取图片下载并保存本地

Scrapy官方文档:​​http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html​​

在爬取之前,先创建一个新的Scrapy项目,进入终端,输入下面命令: scrapy startproject BiZhi

cd BiZhi

输入我们需要爬取的网址: scrapy genspider bizhi pic.netbian.com

scrapy crawl bizhi

继续阅读

Scrapy官方文档:http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html

在爬取之前,先创建一个新的Scrapy项目,进入终端,输入下面命令:

scrapy startproject BiZhi

输入我们需要爬取的网址:

scrapy genspider bizhi pic.netbian.com