win10如何使用scrapyd部署爬虫

官方文档：http://scrapyd.readthedocs.io/en/stable/

scrapy爬虫写好后，一般需要用命令行运行。scrapyd部署能够在网页端查看正在执行的任务，也能新建爬虫任务，和终止爬虫任务。优点：在网页端管理爬虫，可以控制多个爬虫任务。

1.安装

pip install scrapyd

pip install scrapyd-client

2.基本使用

2.1 运行scrapyd

在scrapy.cfg中，取消#url = http://localhost:6800/前面的“#” 。

首先切换命令行路径到Scrapy项目的根目录下，

开启scrapyd服务，输入

scrapyd

，将scrapyd运行起来

win10如何使用scrapyd部署爬虫win10如何使用scrapyd部署爬虫1.安装2.基本使用3. 查看爬虫任务4.修改scrapyd的配置一些常用命令：

然后新开一个终端切换路径至scrapy工程根目录，发布scrapyd项目，运行命令：

scrapd-deploy -p projectName

验证是否发布成功：

scrapyd-deploy -l

2.2 发布工程到scrapyd

上述命令已经开启服务，并创建了爬虫项目

2.3 创建爬虫任务

命令行输入

curl http://localhost:6800/schedule.json -d project=projectName -d spider=spiderName

3. 查看爬虫任务

在网页中输入：http://localhost:6800/

win10如何使用scrapyd部署爬虫win10如何使用scrapyd部署爬虫1.安装2.基本使用3. 查看爬虫任务4.修改scrapyd的配置一些常用命令：

4.修改scrapyd的配置

scrapyd默认保留5条日志。

默认绑定地址为127.0.0.1。如果是在服务器部署爬虫需要在其他主机访问则修改地址为0.0.0.0

pip show scrapyd

找到scrapyd的位置

win10如何使用scrapyd部署爬虫win10如何使用scrapyd部署爬虫1.安装2.基本使用3. 查看爬虫任务4.修改scrapyd的配置一些常用命令：

一些常用命令：

查看状态：
scrapyd-deploy -l
启动爬虫：
curl http://localhost:6800/schedule.json -d project=PROJECT_NAME -d spider=SPIDER_NAME
停止爬虫：
curl http://localhost:6800/cancel.json -d project=PROJECT_NAME -d job=JOB_ID
删除项目：
curl http://localhost:6800/delproject.json -d project=PROJECT_NAME
列出部署过的项目：
curl http://localhost:6800/listprojects.json
列出某个项目内的爬虫：
curl http://localhost:6800/listspiders.json?project=PROJECT_NAME
列出某个项目的job：
curl http://localhost:6800/listjobs.json?project=PROJECT_NAME

1、获取状态

http://127.0.0.1:6800/daemonstatus.json

2、获取项目列表

http://127.0.0.1:6800/listprojects.json

3、获取项目下已发布的爬虫列表

http://127.0.0.1:6800/listspiders.json?project=myproject

4、获取项目下已发布的爬虫版本列表

http://127.0.0.1:6800/listversions.json?project=myproject

5、获取爬虫运行状态

http://127.0.0.1:6800/listjobs.json?project=myproject

6、启动服务器上某一爬虫（必须是已发布到服务器的爬虫）

http://localhost:6800/schedule.json （post方式，data={"project":myproject,"spider":myspider}）

7、删除某一版本爬虫

http://127.0.0.1:6800/delversion.json （post方式，data={"project":myproject,"version":myversion}）

8、删除某一工程，包括该工程下的各版本爬虫

http://127.0.0.1:6800/delproject.json（post方式，data={"project":myproject}）

参考文章：https://www.cnblogs.com/zhongtang/p/5634545.html

重启scrapyd的方法

（1）ps aux|grep scrapyd：找到scrapyd的pid

（2） kill -9 pid 或者kill pid

（3）screen -S scrapyd 新建一个进程

（4）在进程里启动scrapyd

/usr/bin/python /usr/local/bin/scrapyd

（5）ctrl+A+D退出进程

（6）改工程的scrapy.cfg文件，如果url有#号，把url前的#去掉

（7）可以scrapyd-deploy工程了

screen参考：

https://www.ibm.com/developerworks/cn/linux/l-cn-screen/

http://man.linuxde.net/screen

杀死screen会话 screen -X -S pid quit 其中pid为screen进程号

screen -ls 列出现有screen会话列表

screen -r pid 恢复到某个screen会话

Ctrl+a +d 保留会话离开当前窗口

win10如何使用scrapyd部署爬虫win10如何使用scrapyd部署爬虫1.安装2.基本使用3. 查看爬虫任务4.修改scrapyd的配置一些常用命令：

win10如何使用scrapyd部署爬虫

1.安装

2.基本使用

2.1 运行scrapyd

2.2 发布工程到scrapyd

2.3 创建爬虫任务

3. 查看爬虫任务

win10如何使用scrapyd部署爬虫win10如何使用scrapyd部署爬虫1.安装2.基本使用3. 查看爬虫任务4.修改scrapyd的配置一些常用命令：

4.修改scrapyd的配置

一些常用命令：

继续阅读

python的判断语句及循环语句

Python自学记录——循环语句

简单的爬虫----爬取百度百科练习

python之进程_线程_协程总结

---初识python---Python

Django入门：第一个Django应用

Django项目创建之---Models（三）

python学习 Day03

变态又实用的Python学习路线，就问你学不学？

解决win10控制面板闪退问题

ubuntu 安装librosa的时候出现No matching distribution found for pytest-runner解决方法参考文献

几点有关java以及Python学习

【崔庆才教材】《Python3网络爬虫开发实战》3.4爬取猫眼电影排行代码更正（绕过美团验证码）

Python学习日记（四）

Python基础入门（中）--阿里云天池龙珠计划python训练营一、学习内容概况二、具体学习内容

两种url转向的实例