1. Scrapy介绍

Scrapy 是一个为了爬取网站数据，提取结构性数据而编写的应用框架。Scrapy使用Twisted异步网络库处理网络通信，架构清晰，并且包含了各种中间件接口，可以灵活地完成各种要求。 Scrapy 整体架构如下图：

Scrapy爬取淘宝商品数据保存到mongodb1. Scrapy介绍2. 创建项目

Scrapy组件：

引擎(Scrapy Engine)

负责控制数据流在系统中所有组件中流动，并在相应动作发生时触发事件。

调度器(Scheduler)

调度器从引擎接受request并将他们入队，以便之后引擎请求他们时提供给引擎。

下载器(Downloader)

下载器负责获取页面数据并提供给引擎，而后提供给spider。

爬虫(Spiders)

Spider是Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。每个spider负责处理一个特定(或一些)网站。

项目管道(Pipeline)

Item Pipeline负责处理被spider提取出来的item。典型的处理有清理、验证及持久化(例如存取到数据库中)。

下载器中间件(Downloader middlewares)

下载器中间件是在引擎及下载器之间的特定钩子(specific hook)，处理Downloader传递给引擎的response。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。

Spider中间件(Spider middlewares)

Spider中间件是在引擎及Spider之间的特定钩子(specific hook)，处理spider的输入(response)和输出(items及requests)。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。

Scrapy中的数据流由执行引擎控制，其过程如下:

引擎打开一个网站(open a domain)，找到处理该网站的Spider并向该spider请求第一个要爬取的URL(s)。
引擎从Spider中获取到第一个要爬取的URL并在调度器(Scheduler)以Request调度。
引擎向调度器请求下一个要爬取的URL。
调度器返回下一个要爬取的URL给引擎，引擎将URL通过下载中间件(请求(request)方向)转发给下载器(Downloader)。
一旦页面下载完毕，下载器生成一个该页面的Response，并将其通过下载中间件(返回(response)方向)发送给引擎。
引擎从下载器中接收到Response并通过Spider中间件(输入方向)发送给Spider处理。
Spider处理Response并返回爬取到的Item及(跟进的)新的Request给引擎。
引擎将(Spider返回的)爬取到的Item给Item Pipeline，将(Spider返回的)Request给调度器。
(从第二步)重复直到调度器中没有更多地request，引擎关闭该网站。

2. 创建项目

scrapy startproject taobaoS

该命令将在taobaoS目录中创建一个Scrapy项目，结构如下：

Scrapy爬取淘宝商品数据保存到mongodb1. Scrapy介绍2. 创建项目

scrapy.cfg：项目的配置文件

items.py：项目的items文件

Scrapy爬取淘宝商品数据保存到mongodb1. Scrapy介绍2. 创建项目

middlewares：设置代理之类的中间件

pipelines.py：项目的pipelines文件，用于编写存储的文件

Scrapy爬取淘宝商品数据保存到mongodb1. Scrapy介绍2. 创建项目

settings.py：项目的设置文件

Scrapy爬取淘宝商品数据保存到mongodb1. Scrapy介绍2. 创建项目

spiders：存储爬虫的目录

创建 taobao.py 内容如下：

Scrapy爬取淘宝商品数据保存到mongodb1. Scrapy介绍2. 创建项目

使用cmd，进入项目所在的文件夹，写入命令 scrapy crawl taobao 运行爬虫得到结果

Scrapy爬取淘宝商品数据保存到mongodb1. Scrapy介绍2. 创建项目

代码地址: https://github.com/zhhaoqin/scrapy/tree/master/taobaoS

Scrapy爬取淘宝商品数据保存到mongodb1. Scrapy介绍2. 创建项目

1. Scrapy介绍

Scrapy组件：

引擎(Scrapy Engine)

调度器(Scheduler)

下载器(Downloader)

爬虫(Spiders)

项目管道(Pipeline)

下载器中间件(Downloader middlewares)

Spider中间件(Spider middlewares)

Scrapy中的数据流由执行引擎控制，其过程如下:

2. 创建项目

继续阅读

pypy3多组输入格式

用pygal分析一些github项目

tensorflow 修复python无法直接运行py文件问题

使用py脚本进行ssh远程操作，获取交换机配置信息--py踩坑

mac下安装Anaconda和pycharm

爬取多页信息——爬取自己CSDN博客

NLP处理练习

Python语言中对list、tuple的切片操作

numpy argmax 随机漫步

深度学习目标检测常用工具型代码：对检测出来的结果单独进行nms操作

对哈姆雷特进行词频统计

win10下pyt3.7安装scrapy后cmd运行相关命令SyntaxError: invalid syntax 解决办法

tf.reduce_sum函数通俗解释

python压缩映射过滤器

python2.x 判断是否安装了指定的package与自动安装

前端小白入门级仿站调用