win10如何使用scrapyd部署爬蟲

官方文檔：http://scrapyd.readthedocs.io/en/stable/

scrapy爬蟲寫好後，一般需要用指令行運作。scrapyd部署能夠在網頁端檢視正在執行的任務，也能建立爬蟲任務，和終止爬蟲任務。優點：在網頁端管理爬蟲，可以控制多個爬蟲任務。

1.安裝

pip install scrapyd

pip install scrapyd-client

2.基本使用

2.1 運作scrapyd

在scrapy.cfg中，取消#url = http://localhost:6800/前面的“#” 。

首先切換指令行路徑到Scrapy項目的根目錄下，

開啟scrapyd服務，輸入

scrapyd

，将scrapyd運作起來

win10如何使用scrapyd部署爬蟲win10如何使用scrapyd部署爬蟲1.安裝2.基本使用3. 檢視爬蟲任務4.修改scrapyd的配置一些常用指令：

然後新開一個終端切換路徑至scrapy工程根目錄，釋出scrapyd項目，運作指令：

scrapd-deploy -p projectName

驗證是否釋出成功：

scrapyd-deploy -l

2.2 釋出工程到scrapyd

上述指令已經開啟服務，并建立了爬蟲項目

2.3 建立爬蟲任務

指令行輸入

curl http://localhost:6800/schedule.json -d project=projectName -d spider=spiderName

3. 檢視爬蟲任務

在網頁中輸入：http://localhost:6800/

win10如何使用scrapyd部署爬蟲win10如何使用scrapyd部署爬蟲1.安裝2.基本使用3. 檢視爬蟲任務4.修改scrapyd的配置一些常用指令：

4.修改scrapyd的配置

scrapyd預設保留5條日志。

預設綁定位址為127.0.0.1。如果是在伺服器部署爬蟲需要在其他主機通路則修改位址為0.0.0.0

pip show scrapyd

找到scrapyd的位置

win10如何使用scrapyd部署爬蟲win10如何使用scrapyd部署爬蟲1.安裝2.基本使用3. 檢視爬蟲任務4.修改scrapyd的配置一些常用指令：

一些常用指令：

檢視狀态：
scrapyd-deploy -l
啟動爬蟲：
curl http://localhost:6800/schedule.json -d project=PROJECT_NAME -d spider=SPIDER_NAME
停止爬蟲：
curl http://localhost:6800/cancel.json -d project=PROJECT_NAME -d job=JOB_ID
删除項目：
curl http://localhost:6800/delproject.json -d project=PROJECT_NAME
列出部署過的項目：
curl http://localhost:6800/listprojects.json
列出某個項目内的爬蟲：
curl http://localhost:6800/listspiders.json?project=PROJECT_NAME
列出某個項目的job：
curl http://localhost:6800/listjobs.json?project=PROJECT_NAME

1、擷取狀态

http://127.0.0.1:6800/daemonstatus.json

2、擷取項目清單

http://127.0.0.1:6800/listprojects.json

3、擷取項目下已釋出的爬蟲清單

http://127.0.0.1:6800/listspiders.json?project=myproject

4、擷取項目下已釋出的爬蟲版本清單

http://127.0.0.1:6800/listversions.json?project=myproject

5、擷取爬蟲運作狀态

http://127.0.0.1:6800/listjobs.json?project=myproject

6、啟動伺服器上某一爬蟲（必須是已釋出到伺服器的爬蟲）

http://localhost:6800/schedule.json （post方式，data={"project":myproject,"spider":myspider}）

7、删除某一版本爬蟲

http://127.0.0.1:6800/delversion.json （post方式，data={"project":myproject,"version":myversion}）

8、删除某一工程，包括該工程下的各版本爬蟲

http://127.0.0.1:6800/delproject.json（post方式，data={"project":myproject}）

參考文章：https://www.cnblogs.com/zhongtang/p/5634545.html

重新開機scrapyd的方法

（1）ps aux|grep scrapyd：找到scrapyd的pid

（2） kill -9 pid 或者kill pid

（3）screen -S scrapyd 建立一個程序

（4）在程序裡啟動scrapyd

/usr/bin/python /usr/local/bin/scrapyd

（5）ctrl+A+D退出程序

（6）改工程的scrapy.cfg檔案，如果url有#号，把url前的#去掉

（7）可以scrapyd-deploy工程了

screen參考：

https://www.ibm.com/developerworks/cn/linux/l-cn-screen/

http://man.linuxde.net/screen

殺死screen會話 screen -X -S pid quit 其中pid為screen程序号

screen -ls 列出現有screen會話清單

screen -r pid 恢複到某個screen會話

Ctrl+a +d 保留會話離開目前視窗

win10如何使用scrapyd部署爬蟲win10如何使用scrapyd部署爬蟲1.安裝2.基本使用3. 檢視爬蟲任務4.修改scrapyd的配置一些常用指令：

win10如何使用scrapyd部署爬蟲

1.安裝

2.基本使用

2.1 運作scrapyd

2.2 釋出工程到scrapyd

2.3 建立爬蟲任務

3. 檢視爬蟲任務

win10如何使用scrapyd部署爬蟲win10如何使用scrapyd部署爬蟲1.安裝2.基本使用3. 檢視爬蟲任務4.修改scrapyd的配置一些常用指令：

4.修改scrapyd的配置

一些常用指令：

繼續閱讀

python的判斷語句及循環語句

Python自學記錄——循環語句

簡單的爬蟲----爬取百度百科練習

python之程序_線程_協程總結

---初識python---Python

Django入門：第一個Django應用

Django項目建立之---Models（三）

python學習 Day03

變态又實用的Python學習路線，就問你學不學？

解決win10控制台閃退問題

ubuntu 安裝librosa的時候出現No matching distribution found for pytest-runner解決方法參考文獻

幾點有關java以及Python學習

【崔慶才教材】《Python3網絡爬蟲開發實戰》3.4爬取貓眼電影排行代碼更正（繞過美團驗證碼）

Python學習日記（四）

Python基礎入門（中）--阿裡雲天池龍珠計劃python訓練營一、學習内容概況二、具體學習内容

兩種url轉向的執行個體