天天看點

Tair持久存儲系列技術解讀

Redis做為當今主流的記憶體資料庫支援許多豐富的資料結構,比如哈希表、集合,還有lua腳本、事務、消息訂閱等等進階特性,同時使用記憶體做為主要的存儲媒體,支援高速通路。

但是由于其資料全部存儲在記憶體,成本較高,而且對于海量資料存儲的支援也存在一些痛點,比如在AOFREWRITE和生成RDB快照時會有較高的latency spike,大資料量下全量同步耗時較長、失敗率較高。并且資料可靠性稍弱,RDB和AOF不能保證資料不丢失。

為了解決上述問題,拓寬Redis的應用場景,我們結合新技術新硬體推出了Tair持久存儲系列産品:容量存儲型和持久記憶體型,支援大容量存儲和更高的資料可靠性。

>>釋出會傳送門 點選了解産品詳情

容量存儲型

Tair持久存儲系列技術解讀

使用磁盤存儲就是其中的解決方案之一,利用磁盤可以降低成本并且提供海量存儲。但是在磁盤上實作redis也會有一些挑戰:

1.首先redis的資料結構都是基于記憶體實作,記憶體可以直接尋址,而磁盤是個塊裝置,需要在磁盤上建構存儲引擎來支援redis資料結構通路。

2.另外磁盤和記憶體有較大的性能差距,原生redis單線程的架構無法滿足吞吐需求,需要從架構設計上提升通路性能。

應對這些挑戰,我們基于rocksdb進行了改造,提供了高性能的存儲引擎TairDB,并實作了redis資料結構向簡單kv的編碼映射,使redis資料能夠存儲在磁盤上;采用多線程的架構來提升通路磁盤的性能;同時使用阿裡雲ESSD高效雲盤為存儲底座,利用雲盤快照進行備份和全量同步,避免fork帶來的問題并提高全量同步效率。

Tair持久存儲系列技術解讀

redis有五種基本資料類型,其中string可以直接映射到rocksdb的kv,但是其他一些複雜的資料結構hash、list、set、zset需要通過一定格式的編碼把redis的資料結構映射到rocksd的kv上。

我們把redis資料結構拆分為meta和data兩類,進行不同的編碼,通過meta可以去找到其對應的data,也即二級索引。

以hash為例,執行hset myhash myfield myvalue之後,hash表的名字myhash就會在meta中生成一份kv,其中key就是myhash,value會标志它的屬性為hash表;myfield和myvalue會記錄在data中,再以key+類型+filed就可以索引到hash表的所有内容。

Tair持久存儲系列技術解讀

為了實作多線程架構,首先需要解決key沖突的問題,這裡我們實作了key級别的鎖,這樣可以大大降低鎖沖突,提高并發度。指令執行過程中多個線程首先擷取key鎖,然後按指令的邏輯執行,通過預先設計好的編碼規則存取資料。最後再把結果以事務的方式送出給底層存儲引擎。每個指令的執行都是要在事務送出之後才會傳回結果,這樣每一條指令都是持久化的,大大提升了資料可靠性。

Tair持久存儲系列技術解讀

關于主備複制,全量複制使用雲盤快照提高效率。增量複制采用類似MySQL binlog的方式,事務送出之後同時也會寫入binlog,然後會有sender把binlog傳輸給備庫,binlog傳輸到備庫上時會首先儲存為relaylog作為中繼,然後通過relaylog再回放應用,這樣有兩點好處:

1.支援semisync,隻要relaylog落盤就可以認為事務在備庫也送出完成,不用等待relaylog應用,這樣既可以提升增量同步的效率,同時提供了更強的主備一緻性保證。

2.支援并發回放,在relaylog中記錄并發度的元資訊,不同的key就可以進行并發回放提高效率,同時相同的key仍然按序回放,保證主備一緻性,不會造成資料錯亂。

Tair持久存儲系列技術解讀

上圖為不同類型場景和執行個體規格下的性能測試結果,測試指令為時間複雜度O(1)的GET/SET,綜合性能中位數在開源版70%。

在資料小于記憶體的情況下大部分資料都會緩存在作業系統的page cache中,整體性能會優于資料大于記憶體的情況。規格越高的執行個體線程越多并發度也就越高,性能也相對越好。另外不同于記憶體中的GET/SET,磁盤上寫入資料需要有read modify write的過程,也即需要先讀取中繼資料才能進行修改,是以對于GET/SET寫性能要弱于讀性能。

持久記憶體型

Tair持久存儲系列技術解讀

傲騰持久記憶體是Intel推出的一款非易失性記憶體産品,在提供接近記憶體延時能力的同時保持持久化的能力, 理想情況下對于Redis場景來說是非常好的,因為資料寫入到持久記憶體中已經持久化,那麼就不需要額外的日志和Checkpoint用來保證持久化的特性,同時傲騰持久記憶體在延遲上也比較接近記憶體優于傳統SSD,成本上對比記憶體也更加的便宜。

Redis基于傲騰持久記憶體能達到高性能的同時擁有較高的持久化能力,但是實際在工程實作會碰到非常大的挑戰,包括:

1.需要使用持久化記憶體的配置設定器來代替原有的記憶體配置設定器,配置設定器的中繼資料資訊需要持久化,否則在恢複的時候會造成記憶體的洩露或者不一緻。

2.原本String,Set,Hash這些資料結構和索引在異常的時候全部失效在恢複的時候重建,而現在這些資料都是持久化的,如何支援設計持久化的資料結構是目前工業界和理論界主要的研究方向之一

3.索引和資料的一緻性,資料的完整性,這些都會在下一張NVM的挑戰中做更詳細的闡釋

4.持久記憶體在延時還是比記憶體更高,如何做好冷熱分離,讓系統擁有更高的性能。

5.如何擁有高性能的同時兼備強大的持久化能力。

Tair持久存儲系列技術解讀

持久記憶體的使用分為兩大類Memory Mode和 AppDirecrt Mode, memory mode無需使用者改造但是沒有持久化内裡, 使用App Direct mode之後對比傳統SSD從block尋址轉為位元組尋址,同時接口也從檔案write/read轉為記憶體的load和store。

資料寫入記憶體的過程可能會停留在CPU L1,L2cache,需要調用類似CLWB和CLFLUSHOPT這樣的指令來刷到記憶體系統中,由于CPU隻能保證8個位元組的原子寫入,那麼對于一個16位元組的寫很有可能在寫完第一個8位元組的時候crash,後半部分沒有寫入成功這個就是所謂的partial writes, 上層應用在使用持久記憶體的時候需要額外的實作來保障資料持久問題。

下面的例子是一個雙向連結清單,傳統記憶體crash之後所有的資料丢失,而持久記憶體則保留了crash的狀态,是以會出現B的Next指針指向了C而C的Prev指針缺沒有指向B,這個時候的雙向連結清單是出于異常的狀态。 從連結清單衍生開來記憶體配置設定器中的管理結構也存在這個問題,會出現記憶體洩露等情況。

Tair持久存儲系列技術解讀

由于持久化的挑戰,目前主流使用持久記憶體的方式都是當做Memory或者使用AppDirect但是不支援持久化,阿裡雲Tair持久記憶體版的是基于傲騰持久記憶體的自研引擎,解決了持久化程式設計中遇到的各種挑戰,撘配阿裡雲官方提供的Linux作業系統鏡像Aliyun Linux,Aliyun彈性計算服務首次(全球首家)在神龍裸金屬伺服器上引入傲騰持久記憶體,深度優化完善支援,為客戶提供安全、穩定、高性能的體驗。

阿裡雲持久記憶體版Tair的每一條記錄都確定寫入AEP并且持久化才傳回,極大的提升資料的可靠性, 同時在讀取路徑上使用Dram緩存如索引等熱點資料結構和元數資訊,來加速資料通路的存取。

Tair持久存儲系列技術解讀

在神龍裸金屬機器上,我們使用相同配置進行了Tair持久記憶體版和Redis6.0的性能對比, 整體上吞吐為社群記憶體版本的90%, 延時上由于沒有AofRewrite的幹擾,P95的延時更加的穩定。

繼續閱讀