天天看點

【大資料之資料倉庫】HAWQ versus GreenPlum

談到GreenPlum,肯定會有同僚說HAWQ!是的,在本系列第一篇選型流水記裡,也有提到。因為對HAWQ接觸有限,沒有深入具體了解,是以很多資訊都是來自于博文,人雲亦雲,我把看過的資料簡要整理,希望對感興趣的同僚有一些幫助^_^

  1. HAWQ的身世:https://www.pivotalguru.com/?p=1176,目前已經開源:http://hawq.incubator.apache.org/;
  2. HAWQ和GreenPlum的比較:https://www.pivotalguru.com/?p=719,可以簡要歸納為:GreenPlum是存儲和計算合體的,标準的RDBMS系統;而HAWQ是存儲與計算分離的,它的存儲放在HDFS上,它的計算你可以了解成是被閹割了存儲子產品的“GreenPlum”,當然,它對Hadoop生态圈的結合度更高,支援對接各種元件:Hive/Hbase/avro等等。這裡補充一點:存儲和計算分離有啥好處?或者解決了什麼問題。大資料領域,影響資料分析的瓶頸就兩塊:一塊是資料掃描(磁盤IO),另一塊是資料計算(CPU+MEM)。想象一下,如果我們發現讀資料非常耗時(磁盤IO瓶頸),那麼可以增加磁盤通過增加IO帶寬來解決問題,而如果發現計算耗時特别長,比如CPU一直100%或者MEM已經耗盡,那麼可以增加計算資源(比如添加無窮無盡的雲主機)來解決。反過來,如果存儲和計算合體,那麼意味着資源的有效使用率會很低,是以分離是趨勢。
  3. 我們怎麼來定位HAWQ和GreenPlum或者怎麼來選擇使用呢?答案是手拉手一起使用:https://www.pivotalguru.com/?p=642請注意博文底下的一幅圖;另外,在http://dbaplus.cn/news-21-341-1.html一文中也有提到使用MPP+HDFS的組合架構,來建構基礎資料倉庫,滿足不同業務需求;
  4. HAWQ目前釋出版本暫不支援資料更新和删除操作,不過3.0.0.0版本将會支援:https://issues.apache.org/jira/browse/HAWQ-304
  5. HAWQ性能名額怎麼樣?這裡有篇Pivotal自測的博文https://content.pivotal.io/blog/pivotal-hawq-benchmark-demonstrates-up-to-21x-faster-performance-on-hadoop-queries-than-sql-like-solutions,号稱壓倒impala,不過針對本篇博文的題目,我支援GreenPlum!
  6. 有公司基于HAWQ提供商業服務:http://www.hashdata.cn;也有公司基于GreenPlum提供商業服務:http://vitessedata.com/deepgreen-db

大家如果還有其他想要了解的,記得留言哦,回頭抽空補上:)

看這裡:

【大資料之資料倉庫】選型流水記》

本文來自網易雲社群,經作者何李夫授權釋出。

原文位址:【大資料之資料倉庫】HAWQ versus GreenPlum

更多網易研發、産品、營運經驗分享請通路網易雲社群。 

繼續閱讀