列式存儲和行式存儲的差別

2023-04-12 00:34:17

1 為什麼要按列存儲

列式存儲(Columnar or column-based)是相對于傳統關系型資料庫的行式存儲(Row-basedstorage)來說的。簡單來說兩者的差別就是如何組織表(翻譯不好，直接抄原文了)：

Ø Row-based storage stores atable in a sequence of rows.

Ø Column-based storage storesa table in a sequence of columns.

下面來看一個例子：

列式存儲和行式存儲的差別

從上圖可以很清楚地看到，行式存儲下一張表的資料都是放在一起的，但列式存儲下都被分開儲存了。是以它們就有了如下這些優缺點：

行式存儲

列式存儲

優點

Ø 資料被儲存在一起

Ø INSERT/UPDATE容易

Ø 查詢時隻有涉及到的列會被讀取

Ø 投影(projection)很高效

Ø 任何列都能作為索引

缺點

Ø 選擇(Selection)時即使隻涉及某幾列，所有資料也都會被讀取

Ø 選擇完成時，被選擇的列要重新組裝

Ø INSERT/UPDATE比較麻煩

注：關系型資料庫理論回顧 - 選擇(Selection)和投影(Projection)

列式存儲和行式存儲的差別

2補充：資料壓縮

剛才其實跳過了資料裡提到的另一種技術：通過字典表壓縮資料。為了方面後面的講解，這部分也順帶提一下了。

下面中才是那張表本來的樣子。經過字典表進行資料壓縮後，表中的字元串才都變成數字了。正因為每個字元串在字典表裡隻出現一次了，是以達到了壓縮的目的(有點像規範化和非規範化Normalize和Denomalize)

列式存儲和行式存儲的差別

3查詢執行性能

下面就是最牛的圖了，通過一條查詢的執行過程說明列式存儲(以及資料壓縮)的優點：

列式存儲和行式存儲的差別

關鍵步驟如下：

1. 去字典表裡找到字元串對應數字(隻進行一次字元串比較)。

2. 用數字去清單裡比對，比對上的位置設為1。

3. 把不同列的比對結果進行位運算得到符合所有條件的記錄下标。

4. 使用這個下标組裝出最終的結果集。

列式存儲和行式存儲的差別

1 為什麼要按列存儲

2補充：資料壓縮

3查詢執行性能

繼續閱讀

Mybatisplus實作在不分頁時進行排序操作以及分頁接口全量查詢

【幹貨】聽HPE Vertica技術大咖，談談大資料和MPP高效的計算架構（上）

資料庫中的【行式存儲】和【列式存儲】

GreenPlum 開源，大規模并行查詢平台

mpp動态新增和删除分區的定時任務建立動态建立分區的存儲過程建立定時任務動态删除過期分區的存儲過程建立定時任務查詢定時任務取消定時任務檢視所有分區

《Oracle 18c 必須掌握的新特性》可以購買了

記憶體計算，讓資料飛起來

Apache Parquet

PostgreSQL XL Installation Guide

parquet-tools工具使用parquet-tools工具

列式存儲和行式存儲的差別列式存儲行式存儲列式存儲的好處

Clickhouse簡介及Clickhouse部署、原理和使用介紹Clickhouse簡介及Clickhouse部署、原理和使用介紹

商用伺服器SMP、NUMA及MPP體系介紹

列式資料庫盤點

MPP VS HADOOP場景分析

Spark 使用 parquet 列式存儲格式優化速度