1. 資料存儲
行式資料庫是按照行存儲的,行存儲就是各行放入連續的實體位置,就行我們平時寫字一樣,一行一行的寫,讀取的時候也是一行一行的讀取。像SQL server,Oracle,mysql等傳統的關系型資料庫都屬于行式資料庫範疇。
列式資料庫是按照列存儲的,列存儲是把多行資料的每一列按照列存儲在磁盤,就像一把資料寫入excel表格中,每次按照列讀取資料,像Vertica,GreenPlum,HBase(HBase其實不是真正的列式資料庫,是按照列簇存儲的)。

2. GreenPlum架構
massively parallel processing 簡稱MPP,即無共享、大規模并行處理。
MPP架構有如下特點:
- Share Nothing節點之間資料不共享,隻有通過網絡連接配接實作的協同,每個節點有獨立的存儲和記憶體。
- 資料根據某種規則(如Hash)散布到各個節點
- 計算任務也是會釋出到各個節點并行執行,最後再将結果聚合到整體傳回
- 使用者使用時會看做整體
Greenplum 資料庫軟體将資料平均分布到系統的所有節點伺服器上,是以節點存儲每張表或表分區的部分行,所有資料加載和查詢都是自動在各個節點伺服器上并行運作,并且該架構支援擴充到上萬個節點。
壓縮資料
根據資料類型、基數自動進行資料壓縮,支援多種壓縮算法,壓縮比通常可達10:1左右,支援直接通路編碼資料的資料值,大大節省在資料查詢期間的CPU開銷,獲得相應有效 I/O 性能提升。
是以在此說明下,建表的時候字段類型一定要選擇合适的類型,比如數字類型就選數字類型,不要選字元類型,使用的時候在轉換,時間類型也一樣。
以上簡單的介紹了GPDB的一些特性,在使用中優化就要依據這些特性來的。後期會逐漸介紹GPDB的使用和優化。