LSM實作熱資料讀寫和range查詢加速

2021-10-29 23:50:00

LSM-tree 上的讀路徑，從出生就帶着鐐铐。因為 CoW 的使用，讀一條記錄實際上需要把這條記錄所有的增量碎片都找到。因為橫跨記憶體和磁盤兩種媒體和有階層化的存儲，這些碎片可能藏在各種犄角旮旯裡面。更慘的是，如果是讀一個範圍内的記錄，俗稱 range scan，因為 LSM-tree 的每一層的 key range 是交疊的，那麼一個 range 内的資料就很有可能會落在所有的層次上，為了把他們都找到，我們就需要每層都去讀，這個工作量也不小。

為了解決這個問題，目前的 LSM-tree 引擎把各種經典技術都用上了：各種索引、各種 cache。但是為了提高索引和 cache 的效率，讓他們一直發揮比較好的作用，難度不小。以

富貴論壇

cache 為例，X-Engine 中使用了兩種經典的 cache，一種是 row cache，緩存記錄級别的熱資料，一種是 block cache，緩存資料塊級别的熱資料。Row cache 可以加速點查詢，block cache 可以加速 range scan，一切看上去都是很完美的芭蕾舞。然而，當 compaction 被大王叫來巡山的時候，危險就發生了。因為 compaction 會重新組織資料塊裡面的内容，幹掉一些老的 block，生成一些新的 block，傳統的 cache 替換政策對老的 block 做的通路統計會失效，而新的 block 它不認識，沒統計資訊。此外，compaction 還會移動資料。這兩點加起來，隻要 compaction 巡了一次山，cache 裡面緩存的記錄就有很大可能出現大面積失效，導緻原本可以命中 cache 的查詢，不得不去通路磁盤，造成嚴重的延遲尖刺。

LSM實作熱資料讀寫和range查詢加速

繼續閱讀

需求分析-資料流圖

資料庫設計理論及應用（4）——概念結構設計1．概念模型 2．銷售子系統的分E-R圖 3．視圖的內建 4．設計基本E-R圖

資料流圖的設計

資料庫規範化設計理論摘要要

黑馬程式員——C#結構及常用基本類型

試分析如何把數組array中的所有元素循環右移p位

Flash AS3 連續加載外部若幹圖檔

DB2表壓縮功能

華為筆試軟體

項目管理那些事兒

OS --written test1

OS-written test2

壓縮編碼M-JPEG、MPEG4、H.264

轉詳解C#資料庫存取圖檔三大方式

BMP檔案結構及圖像每行位元組計算方法

磁盤結構及在Linux中的命名