天天看點

Python 爬蟲之Redis資料庫(幹貨)

30/10

周三 晴

Python 爬蟲之Redis資料庫(幹貨)

1 Redis簡介

  • Redis是完全開源免費的,遵守BSD協定,是一個高性能的key-value資料庫。
  • Redis與其他 key - value 緩存産品有以下三個特點:
    • Redis支援資料的持久化,可以将記憶體中的資料儲存在磁盤中,重新開機後可以再次加載進行使用。
    • Redis不僅僅支援簡單的key-value類型(hash)的資料,同時還提供包括string(字元串)、list(連結清單)、set(集合)和sorted set(有序集合)。
    • Redis支援資料的備份,即master-slave模式的資料備份。
  • Redis是一個高性能的key-value資料庫。
    • Redis的出現,很大程度補償了memcached這類key/value存儲的不足,在部分場合可以對關系資料庫起到很好的補充作用。
    • 它提供了Python,Ruby,Erlang,PHP用戶端,使用很友善。
  • Redis優勢:
    • 性能極高 – Redis能讀的速度是110000次/s,寫的速度是81000次/s 。
    • 豐富的資料類型 – Redis支援二進制案例的Strings,Lists,Hashes,Sets及Ordered Sets資料類型操作。
    • 原子 – Redis的所有操作都是原子性的,意思就是要麼成功執行要麼失敗完全不執行。單個操作是原子性的。多個操作也支援事務,即原子性,通過MULTI和EXEC指令包起來。
    • 豐富的特性 – Redis還支援 publish/subscribe, 通知, key 過期等等特性。
Python 爬蟲之Redis資料庫(幹貨)

2 Redis的安裝:

  • 官方網站:https://redis.io
  • 官方文檔:https://redis.io/documentation
  • 中文官網:http://www.redis.cn
  • GitHub:https://github.com/antirez/redis
  • 可視化管理工具:https://redisdesktop.com/download
  • windows下安裝位址:https://github.com/MSOpenTech/redis/releases
    • 可下載下傳:Redis-x64-3.2.100.msi 直接next按鈕安裝即可
    • 配置檔案:redis.windows-service.conf
  • Liunx下的安裝:(如 ubuntu)
安裝指令:sudo apt-get -y install redis-server

進入指令行模式:
$ redis-cli
127.0.0.1:6379> set 'name' 'zhangsan'
ok
127.0.0.1:6379> get 'name'
"zhangsan"

啟停Redis服務:
sudo /etc/init.d/redis-server start
sudo /etc/init.d/redis-server stop
sudo /etc/init.d/redis-server restart
           

複制

  • Mac下的安裝:
安裝指令:brew install redis

啟停服務:
brew services start redis
brew services stop redis
brew services restart redis

配置檔案:
/usr/local/etc/redis.conf
           

複制

  • redis-py的安裝:(python操作redis)
pip install redis           

複制

Python 爬蟲之Redis資料庫(幹貨)

3 Redis的操作:

  • Redis的資料類型:

① String(子串類型)

set指令:設定一個鍵和值,鍵存在則隻覆寫,傳回ok
   > set 鍵  值    例如:>set name zhangsan

   get指令:擷取一個鍵的值,傳回值
   > get 鍵     例如:>get name

   setnx指令:設定一個不存在的鍵和值(防止覆寫),
   > setnx 鍵 值      若鍵已存在則傳回0表示失敗

   setex指令:設定一個指定有效期的鍵和值(機關秒)
   > setex 鍵 [有效時間] 值  例如: >setex color 10 red
    不寫有效時間則表示永久有效,等價于set

   setrange指令:替換子字元串 (替換長度由子子串長度決定)
   > setrange 鍵 位置 子字串
   > setrange name 4 aa  将name鍵對應值的第4個位置開始替換

   mset指令:批量設定鍵和值,成功則傳回ok
   > mset 鍵1 值1 鍵2 值2 鍵3 值3 ....

   msetnx指令:批量設定不存在的鍵和值,成功則傳回ok
   > msetnx 鍵1 值1 鍵2 值2 鍵3 值3 ....

   getset指令:擷取原值,并設定新值

   getrange指令:擷取指定範圍的值
   >getrange 鍵 0,4     //擷取指定0到4位置上的值

   mget指令:批量擷取值
   >mget 鍵1 鍵2 鍵3....

   incr指令:指定鍵的值做加加操作,傳回加後的結果。
   >  鍵        例如:>incr kid
   incrby指令:設定某個鍵加上指定值
   > incrby 鍵 m    //其中m可以是正整數或負整數

   decr指令:指定鍵的值做減減操作,傳回減後的結果。
   > decr 鍵        例如:>decr kid
   decrby指令:設定某個鍵減上指定值
   > decrby 鍵 m    //其中m可以是正整數或負整數

   append指令:給指定key的字元串追加value,傳回新字元串值的長度
   >append 鍵 追加字串

   strlen求長度 >strlen 鍵名   //傳回對應的值。           

複制

③ list類型(雙向連結清單結構)

  • list即可以作為“棧”也可以作為"隊列"。
>lpush list1 "world"  //在list1頭部壓入一個字串
 >lpush list1 "hello"  // 在list1頭部壓入一個字串
 >lrange list1 0 -1  //擷取list1中内容
    0:表示開頭  -1表示結尾。

 >rpush list2 "world"  //在list2尾部壓入一個字串
 >rpush list2 "hello"  // 在list2尾部壓入一個字串
 >lrange list2 0 -1  //擷取list2中内容
    0:表示開頭  -1表示結尾。

 >linsert list2 before "hello" "there"
 在key對應list的特定位置前或後添加字元串

 >lset list2 1 "four"
 修改指定索引位置上的值

 >lrem list2 2 "hello"  //删除前兩個hello值
 >lrem list2 -2 "hello" //删除後兩個hello值
 >lrem list2 0 "hello"  //删除所有hello值

 >ltrim mylist8 1 -1    //删除此範圍外的值

 >lpop list2   //從list2的頭部删除元素,并傳回删除元素
 >rpop list2   //從list2的尾部删除元素,并傳回删除元素
 >rpoplpush list1 list2 //将list1的尾部一個元素移出到list2頭部。并傳回

 >lindex list2 1 //傳回list2中索引位置上的元素
 >llen list2 //傳回list2上長度
           

複制

④ sets類型和操作:

  • Redis 的 Set 是 String 類型的無序集合。集合成員是唯一的,這就意味着集合中不能出現重複的資料。
  • 集合中最大的成員數為 232 - 1 (4294967295, 每個集合可存儲40多億個成員)。
>sadd myset "hello" //向myset中添加一個元素
  成功傳回1,失敗(重複)傳回0

 >smembers myset //擷取myset中的所有元素

 >srem myset "one" //從myset中删除一個one
  成功傳回1,失敗(不存在)傳回0

 >spop myset //随機傳回并删除myset中的一個元素

 >sdiff myset1 myset2 //傳回兩個集合的差集
 以myset1為标準,擷取myset2中不存在的。

 > sinter myset2 myset3 交集

 > sunion myset2 myset3 并集

 > scard myset2 傳回元素個數

 > sismember myset2 two 判斷myset2中是否包含two
           

複制

⑤ 有序集合(sorted set):

  • Redis 有序集合和集合一樣也是string類型元素的集合,且不允許重複的成員。
  • 不同的是每個元素都會關聯一個double類型的分數。redis正是通過分數來為集合中的成員進行從小到大的排序。
向名稱為 key 的 zset 中添加元素 member,score 用于排序。如果該元素已經存在,則根據 score 更新該元素的順序
redis 127.0.0.1:6379> zadd myzset 1 "one" 添加
(integer) 1

redis 127.0.0.1:6379> zadd myzset 2 "two"
(integer) 1

redis 127.0.0.1:6379> zadd myzset 3 "two"
(integer) 0

redis 127.0.0.1:6379> zrange myzset 0 -1 withscores  檢視
1) "one"
2) "1"
3) "two"
4) "3"

redis 127.0.0.1:6379> zrem myzset two  删除
(integer) 1
redis 127.0.0.1:6379> zrange myzset 0 -1 withscores  檢視
1) "one"
2) "1"

redis 127.0.0.1:6379>
           

複制

⑥ Redis常用指令:

1. 鍵值相關指令
 >keys *  //傳回鍵(key)
 >keys list*   //傳回名以list開頭的所有鍵(key)
 >exists list1  //判斷鍵名為list1的是否存在
        存在傳回1, 不存在傳回0
 >del list1 //删除一個鍵(名為list1)
 >expire list1 10 //設定鍵名為list1的過期時間為10秒後
 >ttl list1 //檢視鍵名為list1的過期時間,若為-1表示以過期

 >move age 1 //将鍵名age的轉移到1資料庫中。
 >select 1 //表示進入到1資料庫中,預設在0資料庫

 >persist age //移除age的過期時間(設定為過期)
           

複制

15.4 Redis進階實用特性

1. 安全性:為Redis添加密碼
-------------------------------
   1.進入配置檔案:
     vi /usr/local/redis/etc/redis.conf
     設定:requirepass redis的密碼
   2. 重新開機服務:
    # ./redis-cli shutdown 執行關閉
    # ./redis-server /usr/local/redis/etc/redis.conf  啟動
   3. 登入(兩種)
    # ./redis-cli 用戶端指令連結伺服器
    >auth 密碼值  //授權後方可使用

    # ./redis-cli -a  密碼 //連接配接時指定密碼來進行授權


 2. 主從複制
------------------------------------------
    操作步驟:
     1.先将linux虛拟機關閉,之後克隆一個。
     2.啟動兩個虛拟機:master(主)和slave(從)
     3. 在slave(從)中配置一下ip位址
        # ifconfig eth0 192.168.128.229
        # ping 一下看看通不通。
     4. 配置從機
        進入:配置檔案
        slaveof  192.168.128.228 6379   //配置連接配接主機的Redis的ip和端口
        masterauth 密碼  //配置連接配接密碼

        最後啟動slave(從)機的Redis服務。

     其他:可以通過info指令中的role屬性檢視自己角色是master、slave


 3. 事務處理
--------------------------------------------
 >multi   //開啟一個事務
 >set age 10 //暫存指令隊列
 >set age 20
 >exec    //開始執行(送出事務)
 或>discard //清空指令隊列(事務復原)

 4. 樂觀鎖
-----------------------------------
  在事務前對被操作的屬性做一個:
 > watch age
 >multi   //開啟一個事務(在此期間有其他修改,則此處會失敗)
 >set age 10 //暫存指令隊列
 >set age 20
 >exec    //開始執行(送出事務)
 或>discard //清空指令隊列(事務復原)

 5. 持久化機制(通過修改配置檔案做設定)
-----------------------------------
   1. snapshotting(快照)預設方式
      配置    save
        save 900 1 #900秒内如果超過1個key被修改,則發起快照儲存
        save 300 10 #300秒内容如超過10個key被修改,則發起快照儲存
        save 60 10000
   2. Append-only file(aof方式)
      配置 appendonly on 改為yes
      會在bin目錄下産生一個.aof的檔案

   關于aof的配置
    appendonly yes //啟用aof 持久化方式
    # appendfsync always //收到寫指令就立即寫入磁盤,最慢,但是保證完全的持久化
    appendfsync everysec //每秒鐘寫入磁盤一次,在性能和持久化方面做了很好的折中
    # appendfsync no //完全依賴os,性能最好,持久化沒保證

  6.  釋出及訂閱消息
----------------------
    需要開啟多個會話端口
    會話1:>subscribe tv1      //監聽tv1頻道
    會話2:>subscribe tv1 tv2  //監聽tv1和tv2頻道
    會話3: >publish tv1 消息   //向tv1頻道發送一個消息

 7. 使用虛拟記憶體
-------------------------------
  在redis配置檔案中設定
    vm-enabled yes          #開啟vm功能
    vm-swap-file  /tmp/redis.swap   #交換出來的value儲存的檔案路徑
    vm-max-memory 1000000   #redis使用的最大記憶體上限
    vm-page-size 32         #每個頁面的大小32位元組
    vm-pages 134217728      #最多使用多少頁面
    vm-max-threads 4        #用于執行value對象換入患處的工作線程數量
           

複制

15.5 Python使用Redis

import redis

# host是redis主機,需要redis服務端和用戶端都啟動 redis預設端口是6379
r = redis.Redis(host='localhost', port=6379, decode_responses=True)

# 字串操作
r.set('name', 'junxi')  # key是"foo" value是"bar" 将鍵值對存入redis緩存
print(r['name'])
print(r.get('name'))  # 取出鍵name對應的值
print(type(r.get('name')))

# 如果鍵fruit不存在,那麼輸出是True;如果鍵fruit已經存在,輸出是None
print(r.set('fruit', 'watermelon', nx=True))    # True--不存在

print(r.setnx('fruit1', 'banana'))  # fruit1不存在,輸出為True

#設定過期時間
r.setex("fruit2", "orange", 5)
time.sleep(5)
print(r.get('fruit2'))  # 5秒後,取值就從orange變成None

print(r.mget("fruit", "fruit1", "fruit2", "k1", "k2"))  # 将目前redis緩存中的鍵對應的值批量取出來           

複制

redis操作list連結清單

r.lpush("list1", 11, 22, 33)
print(r.lrange('list1', 0, -1))

r.rpush("list2", 11, 22, 33)  # 表示從右向左操作
print(r.llen("list2"))  # 清單長度
print(r.lrange("list2", 0, 3))  # 切片取出值,範圍是索引号0-3

r.rpush("list2", 44, 55, 66)    # 在清單的右邊,依次添加44,55,66
print(r.llen("list2"))  # 清單長度
print(r.lrange("list2", 0, -1)) # 切片取出值,範圍是索引号0到-1(最後一個元素)

r.lset("list2", 0, -11)    # 把索引号是0的元素修改成-11
print(r.lrange("list2", 0, -1))

r.lrem("list2", "11", 1)    # 将清單中左邊第一次出現的"11"删除
print(r.lrange("list2", 0, -1))
r.lrem("list2", "99", -1)    # 将清單中右邊第一次出現的"99"删除
print(r.lrange("list2", 0, -1))
r.lrem("list2", "22", 0)    # 将清單中所有的"22"删除
print(r.lrange("list2", 0, -1))

r.lpop("list2")    # 删除清單最左邊的元素,并且傳回删除的元素
print(r.lrange("list2", 0, -1))
r.rpop("list2")    # 删除清單最右邊的元素,并且傳回删除的元素
print(r.lrange("list2", 0, -1))

print(r.lindex("list2", 0))  # 取出索引号是0的值
           

複制

redis操作set集合

#新增
r.sadd("set1", 33, 44, 55, 66)  # 往集合中添加元素
print(r.scard("set1"))  # 集合的長度是4
print(r.smembers("set1"))   # 擷取集合中所有的成員

print(r.sscan("set1")) #擷取集合中所有的成員--元組形式

for i in r.sscan_iter("set1"):
    print(i)

#差集
r.sadd("set2", 11, 22, 33)
print(r.smembers("set1"))   # 擷取集合中所有的成員
print(r.smembers("set2"))
print(r.sdiff("set1", "set2"))   # 在集合set1但是不在集合set2中
print(r.sdiff("set2", "set1"))   # 在集合set2但是不在集合set1中           

複制