目錄
-
- 一、環境搭建
-
- 1.1、python環境安裝
- 1.2、Twisted安裝
- 1.3、scrapy安裝
- 1.4、scrapy-redis安裝(非必須)
- 二、部署運作
-
- 2.1、上傳項目
- 2.2、啟動爬蟲
- 2.3、效果檢視
一、環境搭建
1.1、python環境安裝
參考linux系統安裝python3環境
1.2、Twisted安裝
因為scrapy爬蟲架構依賴Twisted插件,所有需要先安裝它
1)
cd opt/
到目錄,執行指令
wget https://twistedmatrix.com/Releases/Twisted/18.9/Twisted-18.9.0.tar.bz2
,下載下傳對應版本
2)解壓
執行指令
tar -jxvf Twisted-18.9.0.tar.bz2
[[email protected] opt]# ll
drwxr-xr-x. 4 1000 mysql 245 10月 15 2018 Twisted-18.9.0
-rw-r--r--. 1 root root 3088398 10月 15 2018 Twisted-18.9.0.tar.bz2
3)安裝
進入Twisted-18.9.0目錄,執行指令
python3 setup.py install
1.3、scrapy安裝
執行指令
pip3 install scrapy
1.4、scrapy-redis安裝(非必須)
執行指令
pip3 install scrapy-redis
如果需要使用scrapy-redis開發分布式爬蟲,則需要安裝該插件
二、部署運作
2.1、上傳項目
将爬蟲項目上傳至linux伺服器的opt/目錄下(可使用rz指令或xftp工具)
[[email protected] opt]# ll
drwxr-xr-x. 3 root root 40 7月 4 10:40 scrapy03
2.2、啟動爬蟲
1)進入到
/opt/scrapy03/scrapy03/spiders
目錄
[[email protected] spiders]# ll
總用量 8
-rw-r--r--. 1 root root 161 7月 4 10:40 __init__.py
drwxr-xr-x. 2 root root 67 7月 4 10:40 __pycache__
-rw-r--r--. 1 root root 919 7月 4 10:40 quanben.py
2)執行
scrapy runspider quanben.py
啟動爬蟲
3)将開啟開始寫入redis庫中,爬蟲會正式開始執行
在redis用戶端中,執行指令
lpush quanben:start_urls + 開始位址
D:\3.dev\soft\redis>redis-cli.exe -h 192.168.1.100 -p 6379
192.168.1.100:6379> lpush quanben:start_urls https://www.quanben.net/8/8583/4296044.html
(integer) 1
2.3、效果檢視
資料已經成功寫入redis庫中
![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLiAzNfRHLGZkRGZkRfJ3bs92YsYTMfVmepNHL9QzVhRTNXFGNsdVWv50MMBjVtJWd0ckW65UbM5WOHJWa5kHT20ESjBjUIF2X0hXZ0xCMx81dvRWYoNHLrdEZwZ1Rh5WNXp1bwNjW1ZUba9VZwlHdssmch1mclRXY39CXldWYtlWPzNXZj9mcw1ycz9WL49zZuBnL4kzN3QDMzgTM0AzNwAjMwIzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)