天天看點

win10如何使用scrapyd部署爬蟲win10如何使用scrapyd部署爬蟲1.安裝2.基本使用3. 檢視爬蟲任務4.修改scrapyd的配置一些常用指令:

win10如何使用scrapyd部署爬蟲

官方文檔:http://scrapyd.readthedocs.io/en/stable/

scrapy爬蟲寫好後,一般需要用指令行運作。scrapyd部署能夠在網頁端檢視正在執行的任務,也能建立爬蟲任務,和終止爬蟲任務。優點:在網頁端管理爬蟲,可以控制多個爬蟲任務。

1.安裝

pip install scrapyd

pip install scrapyd-client

2.基本使用

2.1 運作scrapyd

在scrapy.cfg中,取消#url = http://localhost:6800/前面的“#” 。

首先切換指令行路徑到Scrapy項目的根目錄下,

開啟scrapyd服務,輸入

scrapyd

,将scrapyd運作起來

win10如何使用scrapyd部署爬蟲win10如何使用scrapyd部署爬蟲1.安裝2.基本使用3. 檢視爬蟲任務4.修改scrapyd的配置一些常用指令:

然後新開一個終端切換路徑至scrapy工程根目錄,釋出scrapyd項目,運作指令:

scrapd-deploy -p projectName

驗證是否釋出成功:

scrapyd-deploy -l

2.2 釋出工程到scrapyd

上述指令已經開啟服務,并建立了爬蟲項目

2.3 建立爬蟲任務

指令行輸入

curl http://localhost:6800/schedule.json -d project=projectName -d spider=spiderName
           

3. 檢視爬蟲任務

在網頁中輸入:http://localhost:6800/

win10如何使用scrapyd部署爬蟲win10如何使用scrapyd部署爬蟲1.安裝2.基本使用3. 檢視爬蟲任務4.修改scrapyd的配置一些常用指令:

4.修改scrapyd的配置

scrapyd預設保留5條日志。

預設綁定位址為127.0.0.1。如果是在伺服器部署爬蟲需要在其他主機通路則修改位址為0.0.0.0

pip show scrapyd

找到scrapyd的位置

win10如何使用scrapyd部署爬蟲win10如何使用scrapyd部署爬蟲1.安裝2.基本使用3. 檢視爬蟲任務4.修改scrapyd的配置一些常用指令:
win10如何使用scrapyd部署爬蟲win10如何使用scrapyd部署爬蟲1.安裝2.基本使用3. 檢視爬蟲任務4.修改scrapyd的配置一些常用指令:

一些常用指令:

  • 檢視狀态:
    scrapyd-deploy -l
  • 啟動爬蟲:
    curl http://localhost:6800/schedule.json -d project=PROJECT_NAME -d spider=SPIDER_NAME
  • 停止爬蟲:
    curl http://localhost:6800/cancel.json -d project=PROJECT_NAME -d job=JOB_ID
  • 删除項目:
    curl http://localhost:6800/delproject.json -d project=PROJECT_NAME
  • 列出部署過的項目:
    curl http://localhost:6800/listprojects.json
  • 列出某個項目内的爬蟲:
    curl http://localhost:6800/listspiders.json?project=PROJECT_NAME
  • 列出某個項目的job:
    curl http://localhost:6800/listjobs.json?project=PROJECT_NAME

1、擷取狀态

http://127.0.0.1:6800/daemonstatus.json

2、擷取項目清單

http://127.0.0.1:6800/listprojects.json

3、擷取項目下已釋出的爬蟲清單

http://127.0.0.1:6800/listspiders.json?project=myproject

4、擷取項目下已釋出的爬蟲版本清單

http://127.0.0.1:6800/listversions.json?project=myproject

5、擷取爬蟲運作狀态

http://127.0.0.1:6800/listjobs.json?project=myproject

6、啟動伺服器上某一爬蟲(必須是已釋出到伺服器的爬蟲)

http://localhost:6800/schedule.json (post方式,data={"project":myproject,"spider":myspider})

7、删除某一版本爬蟲

http://127.0.0.1:6800/delversion.json (post方式,data={"project":myproject,"version":myversion})

8、删除某一工程,包括該工程下的各版本爬蟲

http://127.0.0.1:6800/delproject.json(post方式,data={"project":myproject})

參考文章:https://www.cnblogs.com/zhongtang/p/5634545.html

重新開機scrapyd的方法

(1)ps aux|grep scrapyd:找到scrapyd的pid

(2) kill -9 pid 或者kill pid

(3)screen -S scrapyd 建立一個程序

(4) 在程序裡啟動scrapyd

/usr/bin/python /usr/local/bin/scrapyd

(5)ctrl+A+D退出程序

(6)改工程的scrapy.cfg檔案,如果url有#号,把url前的#去掉

(7)可以scrapyd-deploy工程了

screen參考:

https://www.ibm.com/developerworks/cn/linux/l-cn-screen/

http://man.linuxde.net/screen

殺死screen會話 screen -X -S pid quit 其中pid為screen程序号

screen -ls 列出現有screen會話清單

screen -r pid 恢複到某個screen會話

Ctrl+a +d 保留會話離開目前視窗