【大資料之資料倉庫】HAWQ versus GreenPlum

2018-07-10 15:42:00

談到GreenPlum，肯定會有同僚說HAWQ！是的，在本系列第一篇選型流水記裡，也有提到。因為對HAWQ接觸有限，沒有深入具體了解，是以很多資訊都是來自于博文，人雲亦雲，我把看過的資料簡要整理，希望對感興趣的同僚有一些幫助^_^

HAWQ的身世：https://www.pivotalguru.com/?p=1176，目前已經開源：http://hawq.incubator.apache.org/；
HAWQ和GreenPlum的比較：https://www.pivotalguru.com/?p=719，可以簡要歸納為：GreenPlum是存儲和計算合體的，标準的RDBMS系統；而HAWQ是存儲與計算分離的，它的存儲放在HDFS上，它的計算你可以了解成是被閹割了存儲子產品的“GreenPlum”，當然，它對Hadoop生态圈的結合度更高，支援對接各種元件：Hive/Hbase/avro等等。這裡補充一點：存儲和計算分離有啥好處？或者解決了什麼問題。大資料領域，影響資料分析的瓶頸就兩塊：一塊是資料掃描（磁盤IO），另一塊是資料計算（CPU+MEM）。想象一下，如果我們發現讀資料非常耗時（磁盤IO瓶頸），那麼可以增加磁盤通過增加IO帶寬來解決問題，而如果發現計算耗時特别長，比如CPU一直100%或者MEM已經耗盡，那麼可以增加計算資源（比如添加無窮無盡的雲主機）來解決。反過來，如果存儲和計算合體，那麼意味着資源的有效使用率會很低，是以分離是趨勢。
我們怎麼來定位HAWQ和GreenPlum或者怎麼來選擇使用呢？答案是手拉手一起使用：https://www.pivotalguru.com/?p=642請注意博文底下的一幅圖；另外，在http://dbaplus.cn/news-21-341-1.html一文中也有提到使用MPP+HDFS的組合架構，來建構基礎資料倉庫，滿足不同業務需求；
HAWQ目前釋出版本暫不支援資料更新和删除操作，不過3.0.0.0版本将會支援：https://issues.apache.org/jira/browse/HAWQ-304
HAWQ性能名額怎麼樣？這裡有篇Pivotal自測的博文https://content.pivotal.io/blog/pivotal-hawq-benchmark-demonstrates-up-to-21x-faster-performance-on-hadoop-queries-than-sql-like-solutions，号稱壓倒impala，不過針對本篇博文的題目，我支援GreenPlum！
有公司基于HAWQ提供商業服務：http://www.hashdata.cn；也有公司基于GreenPlum提供商業服務：http://vitessedata.com/deepgreen-db

大家如果還有其他想要了解的，記得留言哦，回頭抽空補上:)

看這裡：

《

【大資料之資料倉庫】選型流水記》

本文來自網易雲社群，經作者何李夫授權釋出。

原文位址：【大資料之資料倉庫】HAWQ versus GreenPlum

更多網易研發、産品、營運經驗分享請通路網易雲社群。

【大資料之資料倉庫】HAWQ versus GreenPlum

繼續閱讀

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

HDFS指令行工具

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark