天天看點

将爬蟲部署到linux伺服器

目錄

    • 一、環境搭建
      • 1.1、python環境安裝
      • 1.2、Twisted安裝
      • 1.3、scrapy安裝
      • 1.4、scrapy-redis安裝(非必須)
    • 二、部署運作
      • 2.1、上傳項目
      • 2.2、啟動爬蟲
      • 2.3、效果檢視

一、環境搭建

1.1、python環境安裝

參考linux系統安裝python3環境

1.2、Twisted安裝

因為scrapy爬蟲架構依賴Twisted插件,所有需要先安裝它

1)

cd opt/

到目錄,執行指令

wget https://twistedmatrix.com/Releases/Twisted/18.9/Twisted-18.9.0.tar.bz2

,下載下傳對應版本

2)解壓

執行指令

tar -jxvf Twisted-18.9.0.tar.bz2

[[email protected] opt]# ll
drwxr-xr-x.  4 1000 mysql      245 10月 15 2018 Twisted-18.9.0
-rw-r--r--.  1 root root   3088398 10月 15 2018 Twisted-18.9.0.tar.bz2
           

3)安裝

進入Twisted-18.9.0目錄,執行指令

python3 setup.py install

1.3、scrapy安裝

執行指令

pip3 install scrapy

1.4、scrapy-redis安裝(非必須)

執行指令

pip3 install scrapy-redis

如果需要使用scrapy-redis開發分布式爬蟲,則需要安裝該插件

二、部署運作

2.1、上傳項目

将爬蟲項目上傳至linux伺服器的opt/目錄下(可使用rz指令或xftp工具)

[[email protected] opt]# ll
drwxr-xr-x.  3 root root        40 7月   4 10:40 scrapy03
           

2.2、啟動爬蟲

1)進入到

/opt/scrapy03/scrapy03/spiders

目錄

[[email protected] spiders]# ll
總用量 8
-rw-r--r--. 1 root root 161 7月   4 10:40 __init__.py
drwxr-xr-x. 2 root root  67 7月   4 10:40 __pycache__
-rw-r--r--. 1 root root 919 7月   4 10:40 quanben.py
           

2)執行

scrapy runspider quanben.py

啟動爬蟲

3)将開啟開始寫入redis庫中,爬蟲會正式開始執行

在redis用戶端中,執行指令

lpush quanben:start_urls + 開始位址

D:\3.dev\soft\redis>redis-cli.exe -h 192.168.1.100 -p 6379
192.168.1.100:6379> lpush quanben:start_urls https://www.quanben.net/8/8583/4296044.html
(integer) 1
           

2.3、效果檢視

資料已經成功寫入redis庫中

将爬蟲部署到linux伺服器