天天看點

redis 資料類型詳解 以及 redis适用場景場合

1. MySql+Memcached架構的問題

  實際MySQL是适合進行海量資料存儲的,通過Memcached将熱點資料加載到cache,加速通路,很多公司都曾經使用過這樣的架構,但随着業務資料量的不斷增加,和通路量的持續增長,我們遇到了很多問題:

  1.MySQL需要不斷進行拆庫拆表,Memcached也需不斷跟着擴容,擴容和維護工作占據大量開發時間。

  2.Memcached與MySQL資料庫資料一緻性問題。

  3.Memcached資料命中率低或down機,大量通路直接穿透到DB,MySQL無法支撐。

  4.跨機房cache同步問題。

  衆多NoSQL百花齊放,如何選擇

  最近幾年,業界不斷湧現出很多各種各樣的NoSQL産品,那麼如何才能正确地使用好這些産品,最大化地發揮其長處,是我們需要深入研究和思考的問題,實際歸根結底最重要的是了解這些産品的定位,并且了解到每款産品的tradeoffs,在實際應用中做到揚長避短,總體上這些NoSQL主要用于解決以下幾種問題

  1.少量資料存儲,高速讀寫通路。此類産品通過資料全部in-momery 的方式來保證高速通路,同時提供資料落地的功能,實際這正是Redis最主要的适用場景。

  2.海量資料存儲,分布式系統支援,資料一緻性保證,友善的叢集節點添加/删除。

  3.這方面最具代表性的是dynamo和bigtable 2篇論文所闡述的思路。前者是一個完全無中心的設計,節點之間通過gossip方式傳遞叢集資訊,資料保證最終一緻性,後者是一個中心化的方案設計,通過類似一個分布式鎖服務來保證強一緻性,資料寫入先寫記憶體和redo log,然後定期compat歸并到磁盤上,将随機寫優化為順序寫,提高寫入性能。

  4.Schema free,auto-sharding等。比如目前常見的一些文檔資料庫都是支援schema-free的,直接存儲json格式資料,并且支援auto-sharding等功能,比如mongodb。

  面對這些不同類型的NoSQL産品,我們需要根據我們的業務場景選擇最合适的産品。

2. Redis常用資料類型

Redis最為常用的資料類型主要有以下:

在具體描述這幾種資料類型之前,我們先通過一張圖了解下Redis内部記憶體管理中是如何描述這些不同資料類型的:

redis 資料類型詳解 以及 redis适用場景場合

首先Redis内部使用一個redisObject對象來表示所有的key和value,redisObject最主要的資訊如上圖所示:

type代表一個value對象具體是何種資料類型,

encoding是不同資料類型在redis内部的存儲方式,

比如:type=string代表value存儲的是一個普通字元串,那麼對應的encoding可以是raw或者是int,如果是int則代表實際redis内部是按數值型類存儲和表示這個字元串的,當然前提是這個字元串本身可以用數值表示,比如:"123" "456"這樣的字元串。

這裡需要特殊說明一下vm字段,隻有打開了Redis的虛拟記憶體功能,此字段才會真正的配置設定記憶體,該功能預設是關閉狀态的,該功能會在後面具體描述。通過上圖我們可以發現Redis使用redisObject來表示所有的key/value資料是比較浪費記憶體的,當然這些記憶體管理成本的付出主要也是為了給Redis不同資料類型提供一個統一的管理接口,實際作者也提供了多種方法幫助我們盡量節省記憶體使用,我們随後會具體讨論。

3. 各種資料類型應用和實作方式

下面我們先來逐一的分析下這7種資料類型的使用和内部實作方式:

String:

Strings 資料結構是簡單的key-value類型,value其實不僅是String,也可以是數字.

常用指令: set,get,decr,incr,mget 等。

應用場景:String是最常用的一種資料類型,普通的key/ value 存儲都可以歸為此類.即可以完全實作目前 Memcached 的功能,并且效率更高。還可以享受Redis的定時持久化,記錄檔及 Replication等功能。除了提供與 Memcached 一樣的get、set、incr、decr 等操作外,Redis還提供了下面一些操作:

實作方式:String在redis内部存儲預設就是一個字元串,被redisObject所引用,當遇到incr,decr等操作時會轉成數值型進行計算,此時redisObject的encoding字段為int。

Hash

常用指令:hget,hset,hgetall 等。

應用場景:在Memcached中,我們經常将一些結構化的資訊打包成HashMap,在用戶端序列化後存儲為一個字元串的值,比如使用者的昵稱、年齡、性别、積分等,這時候在需要修改其中某一項時,通常需要将所有值取出反序列化後,修改某一項的值,再序列化存儲回去。這樣不僅增大了開銷,也不适用于一些可能并發操作的場合(比如兩個并發的操作都需要修改積分)。而Redis的Hash結構可以使你像在資料庫中Update一個屬性一樣隻修改某一項屬性值。

使用者ID為查找的key,存儲的value使用者對象包含姓名,年齡,生日等資訊,如果用普通的key/value結構來存儲,主要有以下2種存儲方式:

redis 資料類型詳解 以及 redis适用場景場合

第一種方式将使用者ID作為查找key,把其他資訊封裝成一個對象以序列化的方式存儲,這種方式的缺點是,增加了序列化/反序列化的開銷,并且在需要修改其中一項資訊時,需要把整個對象取回,并且修改操作需要對并發進行保護,引入CAS等複雜問題。

redis 資料類型詳解 以及 redis适用場景場合

第二種方法是這個使用者資訊對象有多少成員就存成多少個key-value對兒,用使用者ID+對應屬性的名稱作為唯一辨別來取得對應屬性的值,雖然省去了序列化開銷和并發問題,但是使用者ID為重複存儲,如果存在大量這樣的資料,記憶體浪費還是非常可觀的。

那麼Redis提供的Hash很好的解決了這個問題,Redis的Hash實際是内部存儲的Value為一個HashMap,并提供了直接存取這個Map成員的接口,如下圖:

redis 資料類型詳解 以及 redis适用場景場合

也就是說,Key仍然是使用者ID, value是一個Map,這個Map的key是成員的屬性名,value是屬性值,這樣對資料的修改和存取都可以直接通過其内部Map的Key(Redis裡稱内部Map的key為field), 也就是通過 key(使用者ID) + field(屬性标簽) 就可以操作對應屬性資料了,既不需要重複存儲資料,也不會帶來序列化和并發修改控制的問題。很好的解決了問題。

這裡同時需要注意,Redis提供了接口(hgetall)可以直接取到全部的屬性資料,但是如果内部Map的成員很多,那麼涉及到周遊整個内部Map的操作,由于Redis單線程模型的緣故,這個周遊操作可能會比較耗時,而另其它用戶端的請求完全不響應,這點需要格外注意。

實作方式:

上面已經說到Redis Hash對應Value内部實際就是一個HashMap,實際這裡會有2種不同實作,這個Hash的成員比較少時Redis為了節省記憶體會采用類似一維數組的方式來緊湊存儲,而不會采用真正的HashMap結構,對應的value redisObject的encoding為zipmap,當成員數量增大時會自動轉成真正的HashMap,此時encoding為ht。

List

常用指令:lpush,rpush,lpop,rpop,lrange等。

應用場景:

Redis list的應用場景非常多,也是Redis最重要的資料結構之一,比如twitter的關注清單,粉絲清單等都可以用Redis的list結構來實作。

Lists 就是連結清單,相信略有資料結構知識的人都應該能了解其結構。使用Lists結構,我們可以輕松地實作最新消息排行等功能。Lists的另一個應用就是消息隊列,

可以利用Lists的PUSH操作,将任務存在Lists中,然後工作線程再用POP操作将任務取出進行執行。Redis還提供了操作Lists中某一段的api,你可以直接查詢,删除Lists中某一段的元素。

Redis list的實作為一個雙向連結清單,即可以支援反向查找和周遊,更友善操作,不過帶來了部分額外的記憶體開銷,Redis内部的很多實作,包括發送緩沖隊列等也都是用的這個資料結構。

Set***

常用指令:

sadd,spop,smembers,sunion 等。***

Redis set對外提供的功能與list類似是一個清單的功能,特殊之處在于set是可以自動排重的,當你需要存儲一個清單資料,又不希望出現重複資料時,set是一個很好的選擇,并且set提供了判斷某個成員是否在一個set集合内的重要接口,這個也是list所不能提供的。

Sets 集合的概念就是一堆不重複值的組合。利用Redis提供的Sets資料結構,可以存儲一些集合性的資料,比如在微網誌應用中,可以将一個使用者所有的關注人存在一個集合中,将其所有粉絲存在一個集合。Redis還為集合提供了求交集、并集、差集等操作,可以非常友善的實作如共同關注、共同喜好、二度好友等功能,對上面的所有集合操作,你還可以使用不同的指令選擇将結果傳回給用戶端還是存集到一個新的集合中。

set 的内部實作是一個 value永遠為null的HashMap,實際就是通過計算hash的方式來快速排重的,這也是set能提供判斷一個成員是否在集合内的原因。

Sorted Set

zadd,zrange,zrem,zcard等

使用場景:

Redis sorted set的使用場景與set類似,差別是set不是自動有序的,而sorted set可以通過使用者額外提供一個優先級(score)的參數來為成員排序,并且是插入有序的,即自動排序。當你需要一個有序的并且不重複的集合清單,那麼可以選擇sorted set資料結構,比如twitter 的public timeline可以以發表時間作為score來存儲,這樣擷取時就是自動按時間排好序的。

Redis sorted set的内部使用HashMap和跳躍表(SkipList)來保證資料的存儲和有序,HashMap裡放的是成員到score的映射,而跳躍表裡存放的是所有的成員,排序依據是HashMap裡存的score,使用跳躍表的結構可以獲得比較高的查找效率,并且在實作上比較簡單。

Pub/Sub

Pub/Sub 從字面上了解就是釋出(Publish)與訂閱(Subscribe),在Redis中,你可以設定對某一個key值進行消息釋出及消息訂閱,當一個key值上進行了消息釋出後,所有訂閱它的用戶端都會收到相應的消息。這一功能最明顯的用法就是用作實時消息系統,比如普通的即時聊天,群聊等功能。

Transactions

誰說NoSQL都不支援事務,雖然Redis的Transactions提供的并不是嚴格的ACID的事務(比如一串用EXEC送出執行的指令,在執行中伺服器當機,那麼會有一部分指令執行了,剩下的沒執行),但是這個Transactions還是提供了基本的指令打包執行的功能(在伺服器不出問題的情況下,可以保證一連串的指令是順序在一起執行的,中間有會有其它用戶端指令插進來執行)。Redis還提供了一個Watch功能,你可以對一個key進行Watch,然後再執行Transactions,在這過程中,如果這個Watched的值進行了修改,那麼這個Transactions會發現并拒絕執行。

4. Redis實際應用場景

1、顯示最新的項目清單

下面這個語句常用來顯示最新項目,随着資料多了,查詢毫無疑問會越來越慢。

LPUSH latest.comments <ID>

2、删除與過濾

我們可以使用LREM來删除評論。如果删除操作非常少,另一個選擇是直接跳過評論條目的入口,報告說該評論已經不存在。

3、排行榜相關

4、按照使用者投票和時間排序

5、處理過期項目

6、計數

7、特定時間内的特定項目

8、實時分析正在發生的情況,用于資料統計與防止垃圾郵件等

9、Pub/Sub

10、隊列

11、緩存

本文轉自 于學康 51CTO部落格,原文連結:http://blog.51cto.com/blxueyuan/2056728,如需轉載請自行聯系原作者