docker 搭建 scrapy 爬虫节点，实现单个服务器的分布式

2023-08-01 04:03:45

docker+scrapy+redis 爬虫节点

- - 创建scrapy的基础镜像
  - 根据scrapy基础镜像scrapy:v1.0 创建自己的爬虫项目镜像
  - 当然可以根据scrapy:v1.0 镜像直接运行容器实现多个容器抓取数据

创建scrapy的基础镜像

可以根据自己的实际需求创建一个scrapy镜像，上传到自己的云端或者本地。

以下是我根据自己的场景创建的scrapy的基础镜像

拉取 python:3.5镜像 docker pull python:3.5
创建scrapy镜像的Dockerfile 内容如下

FROM python:3.5
ADD . /usr/local/lib/python3.5
# 安装自己需要的包
RUN pip install scrapy && pip install pymongo &&\
pip install redis && pip install requests && pip install scrapy-redis

创建一个目录我在这里命名为 scrapy-v1

目录里包含 Dockerfile 文件 ,HtmlParser.py util.py 等自己封装的解析文件需要的工具包，生成镜像时添加到python环境中
进入scrapy-v1 执行以下命令 docker build -t scrapy:v1.0 .

根据scrapy基础镜像scrapy:v1.0 创建自己的爬虫项目镜像

创建爬虫项目的镜像Dockerfile

FROM scrapy:v1.0
ADD . /work  # 添加爬虫项目到镜像中
WORKDIR /work/spider_test/spdider_test/spiders
CMD scrapy runspider test.py

生成爬虫项目镜像，步骤同上 docker build -t myspider:v1.0 -f Dockerfile .
运行容器 docker run -d --name master myspider:v1.0 docker run -d --name slaver myspider:v1.0 可以开启多个容器抓取数据实现分布式

当然可以根据scrapy:v1.0 镜像直接运行容器实现多个容器抓取数据

具体操作可以根据自己的实际情况来实现

暂时空白

docker 搭建 scrapy 爬虫节点，实现单个服务器的分布式

docker+scrapy+redis 爬虫节点

创建scrapy的基础镜像

根据scrapy基础镜像scrapy:v1.0 创建自己的爬虫项目镜像

当然可以根据scrapy:v1.0 镜像直接运行容器实现多个容器抓取数据

继续阅读

TestLink导出用例转换工具(XML2Excel)

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Cloud Studio初体验

CentOS 7,docker安装

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【Docker】端口映射问题操作步骤

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入