天天看點

《Greenplum企業應用實戰》一1.4 Greenplum特性及應用場景

本節書摘來自華章出版社《greenplum企業應用實戰》一書中的第1章,第1.4節,作者 何勇 陳曉峰,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視

(1)支援海量資料存儲和處理

當今是個資料迅速增長的時代,資料量從過去的mb到gb,再到tb增長到現在的pb級規模,傳統的oltp資料庫在tb級别以上的資料管理中已經捉襟見肘。greenplum使用mpp架構,同時使用多台機器并行計算,極大地提高了對海量資料的處理能力。采取mpp架構的資料庫系統才能對海量資料進行管理。

(2)高成本效益

greenplum資料庫可以搭建在業界各種開放式硬體平台上,在硬體選型上有很強的自由性。

相比其他封閉式資料倉庫專用系統及hadoop分析平台,greenplum在每tb資料量上的投資是前者的1/5甚至更低。

greenplum licence相比oracle rac、teradata等,價格低廉。

greenplum易于維護,可以節省大量的維護成本。

(3)支援just in time bi

greenplum通過準實時、實時的資料加載方式,實作資料倉庫的實時更新,進而實作動态資料倉庫(adw)。基于動态資料倉庫,業務使用者能對目前業務資料進行bi實時分析(just in time bi),能夠讓企業敏銳感覺市場的變化,加快決策支援反應速度。

(4)系統易用性

greenplum是基于postgresql開發的,文法與postgresql幾乎一樣,postgresql的工具基本上都能夠在greenplum中使用,比如pgadmin等。greenplum使用通用的postgresql連接配接包即可與資料庫連接配接,支援絕大部分開發語言。greenplum的易用性具體表現如下。

支援主流的sql文法,使用起來十分友善,學習成本低。

擴充性好,支援多語言的自定義函數和自定義類型等。

提供了大量的維護工具,使用維護起來很友善。

在internet上有着豐富的postgresql資源供使用者參考。

(5)支援線性擴充

greenplum采用mpp并行處理架構。在mpp架構中增加節點就可以線性提高系統的存儲容量和處理能力。greenplum在擴充節點時操作簡單,在很短時間内就能完成資料的重新分布。greenplum線性擴充支援為資料分析系統将來的拓展提供了技術上的保障,使使用者可根據實施需要進行容量和性能的擴充。

(6)較好的并發支援及高可用性支援

greenplum是高可用的系統,在已有案例中最多使用了96台機器的叢集mpp環境。除了硬體級的raid技術外,greenplum還提供資料庫層mirror機制保護,也就是将每個節點的資料在另外的節點中同步鏡像,單個節點的錯誤不影響整個系統的使用。對于主節點,greenplum提供master/stand by機制進行主節點容錯,當主節點發生錯誤時,可以切換到stand by節點繼續服務。

(7)支援mapreduce

mapreduce已經被谷歌和雅虎等網際網路領先企業證明是一種大規模資料分析技術,greenplum将這種能力提供給企業。

(8)資料庫内部壓縮

面對海量資料,壓縮可以節省很大的空間,而且在對大資料的分析時,壓縮也可能減少對磁盤的通路。greenplum支援對資料庫表進行壓縮處理,進而提升資料庫的性能。

greenplum資料引擎是為新一代資料倉庫和大規模分析處理而建立的軟體解決方案,其最大的特點是不需要高端的硬體支援仍然可以支撐大規模的高性能資料倉庫和商業智能查詢。在資料倉庫、商業智能的應用上,尤其在海量資料的處理方面greenplum表現出極其優異的性能。

傳統資料庫側重交易處理,關注的是多使用者的同時的雙向操作,在保障即時性的要求下,系統通過記憶體來處理資料的配置設定、讀寫等操作,存在io瓶頸。而分析型資料庫是以實時多元分析技術作為基礎,對資料進行多角度的模拟和歸納,進而得出資料中所包含的資訊和知識。greenplum雖然是關系型資料庫産品,但是它具有查詢速度快、資料裝載速度快、批量dml處理快的主要特點,而且性能可以随着硬體的添加呈線性增加,擁有非常良好的可擴充性。是以,greenplum主要适用于面向分析的應用,比如建構企業級ods/edw、資料集市等。

在國内,筆者所在公司—阿裡巴巴(中國)網絡技術有限公司,從2008年開始引入greenplum,将原有的oracle rac遷移到greenplum上,作為資料倉庫的計算中心,其中一個應用就是通過分析使用者的網絡點選日志進行産品的關聯分析。支付寶在2008年也引入了greenplum資料庫作為資料中心。國内還有很多銀行也引入了greenplum作為基礎的資料平台,如北京銀行、深發展銀行、中信銀行信用卡中心等。在tb級的資料倉庫的olap應用中greenplum在易用性和性能方面有着很大的優勢。