Scrapy抓取在不同级别Request之间传递参数

2023-08-07 03:29:06

先来看一下需求，以抓取简书用户信息为例：

用户主页左侧显示的信息：(用户主要信息)
- 用户昵称(nickname)
- 关注数(subs)
- 粉丝(fans)
- 文章(articles)
- 字数(words)

以上数据从用户首页可以获取（/latest_articles），其他页面（/timeline, /followers...）都有这些数据。

Scrapy抓取在不同级别Request之间传递参数

用户主页可以得到的数据

我们还关注的信息：(反映用户活跃度的其他数据)
- 用户文章总阅读量(read_nums)
- 用户获得打赏数量(rewards)
- 用户获得评论数量(comments)
- 用户发表的评论数量(pub_comments)
- 用户注册时间(regtime)

以上数据在包含在两个(类)页面中：

1）阅读量、打赏量、评论数量3个数据在latest_articles页面上，需要汇总得到，每页中每条（每篇文章）汇总，然后分页汇总所有文章的这3个数据。

2）用户发表的其他评论和注册时间，在timeline页面上，其中用户发表的评论需要在timeline页面上每页汇总，注册时间在timeline最后一页。

Scrapy抓取在不同级别Request之间传递参数

timeline页面上要抓取的数据

一个用户完整的信息要在多个Request中获取，需要在请求之间传递参数。

直到该用户所有页面数据汇总完成，提交item。

Scrapy采用的是回调（callback）的方式，把请求处理交给下一次请求，在请求时用meta传递参数。

Request(url=item_details_url, meta={'item': item},callback=self.parse_details)

，可传递简单类型参数或对象类型参数。

def parse(self, response):
    # collect `item_urls`
    for item_url in item_urls:
        yield Request(url=item_url, callback=self.parse_item)


def parse_item(self, response):
    item = MyItem()
    # populate `item` fields  收集处理一部分数据
    yield Request(url=item_details_url, meta={'item': item},
                  callback=self.parse_details)


def parse_details(self, response):
    item = response.meta['item']
    # populate more `item` fields  再收集处理另外的数据
    return item

这样完成一个用户所有数据收集，注意以上示例代码没有包含分页递归调用。

PS:

1) 传递多个参数：

yield Request(url, meta={'item': item, 'rdt': rdt, 'comments':cmt,'rewards':rewards,'total': total, 'curpage': cur}, callback=self.parse)

取出多个参数。如果不同url过来的加上判断。（如针对分页）

item = response.meta['item']
rdt = response.meta['rdt']
total = response.meta['total']
cur = int(response.meta['curpage'])
cmt = int(response.meta['comments'])
rewards= int(response.meta['rewards'])

原文链接：http://www.jianshu.com/p/de61ed0f961d

Scrapy抓取在不同级别Request之间传递参数

一个用户完整的信息要在多个Request中获取，需要在请求之间传递参数。

继续阅读

来自python的【条件控制/语句循环/break/continue/else/pass】一、条件控制二、语句循环

无法解析的外部符号 wmain，该符号在函数 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink导出用例转换工具(XML2Excel)

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入