天天看點

魚和熊掌可以兼得,雲原生開啟“資料庫大資料一體化”新時代

魚和熊掌可以兼得,雲原生開啟“資料庫大資料一體化”新時代

△ 阿裡巴巴集團副總裁、

阿裡雲智能資料庫産品事業部負責人李飛飛

他表示,随着數字化轉型程序深入推進,企業的資料存儲、處理、增長速度發生了巨大的變化,傳統資料分析系統在成本、規模、資料多樣性等方面面臨很大的挑戰。雲計算的發展正在加速推進資料分析系統進入“資料庫大資料一體化”時代,以更好得幫助企業加速邁入數字原生時代加速業務數智化。

傳統資料分析系統和技術面臨巨大挑戰

近年來,企業資料需求呈現出海量、資料類型多樣化、處理實時化、智能化等新特點,對資料分析系統提出了彈性擴充、結構化/半結構化/非結構化海量資料存儲計算、一份存儲多種計算及低成本等核心訴求。

而傳統商業化資料倉庫及大資料技術,因存在擴充性、建設維護成本、系統複雜讀等一系列挑戰,無法很好得滿足業務訴求。例如,大量企業需要對資料進行離線ETL計算、機器學習及多元度查詢分析等多種計算時,使用大資料技術或傳統資料倉庫,企業需要組合使用多種技術産品,通過複雜的資料內建、資料備援來滿足多樣的計算訴求,整個技術架構複雜且資料備援成本高。

雲原生重構資料處理架構,加速向“資料庫大資料一體化”演進

針對企業面臨的分析困境,是否有一種新型資料分析技術和架構能夠高效解決海量資料深度計算分析的業務訴求?答案是肯定的,李飛飛表示,下一代資料分析演進方向是“以雲原生為基礎,在離線一體化技術融合,實作資料庫大資料一體化”。

随着雲計算的發展,計算存儲解耦、資源池化、Serverless、流批一體等核心基礎技術正在加速資料分析系統向“資料庫大資料一體化”演進。“資料庫大資料一體化”的雲原生資料分析系統能夠很好得提供彈性擴充、海量存儲、多種計算及低成本等能力,有效解決海量資料深度計算分析的業務分析和創新訴求。

其實,“資料庫大資料一體化”也是業界近年的發展趨勢,Gartner及業界多個産品都在朝這個趨勢演進:

  • Microsoft SQL Server 在2018年9月釋出的SQL Server 2019預覽版中宣布通過深度內建Spark與Hadoop提供端到端的資料處了解決方案。
  • AWS Redshift及Snowflake均提供離線ETL處理、多元度互動式分析、實時增删改查的一體化的産品能力。

同時,2019年6月,全球知名咨詢公司Gartner釋出了一篇名為“There is only one DBMS Market“的報告,報告指出過去,因為性能需求不同,根據業務場景按照分析型和交易型需求,需要獨立發展OPDBMS和DMSA,而未來分析型和交易型資料操作對技術架構依賴性會更小,将不再需要獨立區分OPDBMS和DMSA,未來通過一體化的資料處理技術即可滿足絕大部分訴求。

從技術架構演進過程來看,資料處理發展經曆了四個重要階段:

  • 60年代,關系資料庫之父E.F.Codd博士提出了關系模型,促進了聯機事務處理(OLTP)的發展,誕生了如Oracle、DB2等資料庫幫助核心業務如銀行實作線上交易的普及。
  • 1993年,關系資料庫之父E.F.Codd博士提出多元資料庫、多元分析的概念以及十二條準則,認為OLTP已不能滿足終端使用者對資料庫查詢分析的性能需求,SQL對大型資料庫進行的簡單查詢也不能滿足終端使用者分析的多樣性要求,促進了線上分析處理(OLAP)的發展,出現了MOLAP(Multidimensional OLAP)、ROLAP(Relational OLAP)、HOLAP(Hybrid OLAP)計算模型和引擎,誕生了如IBM Cognos、Oracle Essbase、Greenplum等資料倉庫幫助業務實作海量資料存儲、模組化、業務分析探索的普及。
  • 2003~2006年,Google發表《The Google File System》、《MapReduce:Simplified Data Processing on Large Clusters》、《Bigtable:A Distributed Storage System for Structured Data》三篇海量資料存儲、處理重要論文,促進了大資料技術的飛速發展,誕生了如Hadoop HDFS、Hadoop MapReduce、Tez、HBase、Spark、Flink等為代表的分布式檔案系統、分布式計算架構、分布式寬表存儲系統,加速了大資料應用向5V(Velocity、Volume、Variety、Value、Veracity)方向發展和普及。
  • 2012年至今,随着雲計算的發展,雲計算的資源池化、存儲與計算彈性擴充等基礎設施更新以及計算存儲分離、在離線一體化等技術創新,促進了資料處理開始朝一份資料開放計算、存儲計算分離的雲原生方向演進,誕生了如Snowflake、AWS Redshift、AWS Aurora、AWS Athena為代表的新一代雲原生資料庫、資料倉庫、資料湖,加速了資料處理向線上化、在離線一體化、結構化與非結構容和處理演進,加速業務走向數字化、數智化創新的新形态。

李飛飛表示,“資料庫大資料一體化”的資料分析系統應該具備如下特征:

1、雲原生,資料分析系統需要支援強大的彈性擴充能力,根據業務負載動态擴充計算資源,提供大規模資料處理能力,有效滿足資料分析性能訴求的同時,降低分析成本。

2、一份存儲多種計算,資料分析系統必須支援在一份存儲資料上相容多種計算,包括實時增删改查、多元度互動式分析、離線ETL及機器學習。通過一份存儲支援多種計算的特性,避免了資料計算過程中的資料搬遷,簡化了資料分析過程,降低分析成本。

3、海量存儲,支援結構化、半結構化及非結構化資料庫的存儲及計算。随着IOT/移動網絡的發展,半結構化/非結構化資料占比越來越高,資料分析系統需要支援這些資料的低成本存儲及計算,助力企業充分挖掘并發揮資料價值。

4、全面相容資料庫生态,資料分析系統需要提供并相容資料庫接口協定,且支援資料庫上下遊生态,降低資料分析門檻,讓開發人員會資料庫就會大資料。

基于“資料庫大資料一體化”的演進趨勢,阿裡雲推出了以雲原生資料倉庫AnalyticDB及雲原生資料湖分析DLA為核心的雲原生資料分析系統。深度融合資料庫及大資料技術,為企業提供一體化的資料接入、資料存儲、資料計算及資料分析解決方案,讓會資料庫的使用者就會大資料。

雲原生資料倉庫AnalyticDB讓開發人員“會資料庫就會大資料

為滿足企業計算分析多元化的訴求,阿裡雲于2013年開始研發并推出雲原生資料倉庫AnalyticDB。基于雲建構,秉承“資料庫大資料一體化”的理念,AnalyticDB為使用者提供了新一代的資料分析系統,有效解決目前企業資料分析痛點。AnalyticDB具備如下優勢:

  1. 離線上一體化,AnalyticDB提供離線ETL及多元度互動式分析的多樣化計算能力。通過存儲服務化、MPP+DAG混合計算引擎及混合負載排程等技術,實作一份資料多種計算的能力。且基于智能索引、智能優化器及行列混存等技術,複雜SQL的查詢速度相較于傳統的資料分析系統快10倍以上。
  2. 雲原生,AnalyticDB通過存儲計算分離及存儲服務化等技術,實作了計算與存儲的獨立自由彈性。AnalyticDB可以根據業務負載變化動态擴縮計算資源,滿足企業資料分析性能訴求的同時,有效控制分析成本。同時,存儲服務化後,按存儲量付費。
  3. 海量存儲,AnalyticDB通過分布式存儲、存儲服務化及向量計算等多種技術,可以支援結構化、半結構化及非結構化海量資料的存儲。同時,AnalyticDB支援冷熱資料分層存儲。企業可以根據業務的使用情況,做表/分區級别的冷熱分離存儲,通過對低頻通路的冷資料提供低價存儲,對于頻繁通路的熱點資料,采用ESSD存儲滿足高性能通路,進而保障通路性能的同時,優化整體資料存儲成本。
  4. 相容資料庫生态,不同于複雜、高門檻的大資料體系,AnalyticDB高度相容MySQL、PostgreSQL及Oracle。相容資料庫的用戶端及上下遊生态,降低資料分析門檻,讓開發人員會資料庫就會大資料。
  5. 一鍵建倉,AnalyticDB提供一鍵建倉功能,企業可以通過一鍵建倉功能輕松得将資料庫及日志資料實時內建至AnalyticDB。
魚和熊掌可以兼得,雲原生開啟“資料庫大資料一體化”新時代

與傳統資料分析系統最大的不同是,AnalyticDB基于“資料庫大資料一體化”的技術架構,為使用者提供一體化的資料分析系統,滿足多樣化的資料分析訴求,讓開發人員會資料庫就會大資料。

雲原生資料湖分析DLA讓資料湖分析進入Serverless時代

魚和熊掌可以兼得,雲原生開啟“資料庫大資料一體化”新時代

近幾年資料湖的概念很火,資料湖允許以任意規模存儲所有結構化、非結構化及半結構化資料,其中的資料主要用于報告、可視化、增強分析及機器學習等場景。為了實作資料湖的資料可分析,需要解決資料湖建構、中繼資料建構管理及資料計算引擎對接等問題。為此,阿裡雲2018年開始布局并推出端到端的資料湖解決方案:雲原生資料湖分析Data Lake Analytics(簡稱:DLA),幫助企業快速建構并高效挖掘資料。

魚和熊掌可以兼得,雲原生開啟“資料庫大資料一體化”新時代

雲原生資料湖分析DLA,具備四大優勢:

  1. 資料湖管理,DLA提供一站式資料湖管理能力,包括中繼資料發現、管理及變更,全量及增量資料一鍵入湖。中繼資料管理功能可以支援OSS/RDS/Hbase/MongoDB等資料源的中繼資料自動發現、管理及變更。同時,内置Apache hudi, DLA支援增量資料分鐘級入湖,助力企業建構準實時資料湖。
  2. 一份存儲多種計算,DLA提供了Presto、Spark兩種計算引擎,滿足多元度互動式分 析、離線ETL、機器學習等多種計算能力。針對Presto,DLA在資源隔離、高可用及中繼資料庫權限隔離等方面做了極大增強,保障服務穩定性及可靠性。同時,對于Spark計算引擎,DLA實作了資料緩存、中繼資料通路優化及檔案上傳優化等,保障計算性能,據測試,在Spark典型ETL Benchmark Terasort,1TB輸入資料量的場景下,相較于自建spark,DLA性能提升163%。
  3. Serverless計算分析,DLA基于容器及多租戶隔離等技術,提供完全Serverless的計算能力。DLA可以根據Spark Job或Presto SQL動态擴縮計算資源,一分鐘可拉起300個計算節點。使用者隻需按實際運作作業付費,計費精确至秒級,相較于自建系統,成本效益提升300%,大大提升資料分析成本效益。
  4. 資料庫生态相容性,DLA 完全相容MySQL的JDBC,相容MySQL的用戶端及上下遊生态,降低資料分析門檻,讓開發人員會MySQL就會大資料。

到企業中去

阿裡雲AnalyticDB與DLA自上線以來,已覆寫遊戲、廣告、文旅、零售、金融、數字政府、營運商等衆多行業的企業客戶,且覆寫阿裡巴巴集團的所有核心業務。據介紹,Yeahmobi利用DLA進行廣告業務資料的深度挖掘分析,實作時間、成本、安全、計算效率等方面的優化,綜合成本降低大約50%。某大型物流企業,通過AnalyticDB建構企業資料倉庫,實作離線上一體化分析架構,支援 2PB資料的存儲計算,分析性能大幅提升10倍,實作分析實時化。

未來資料分析系統将全面進入“資料庫大資料一體化”時代,阿裡雲AnalyticDB及DLA将秉承“資料庫大資料一體化”理念,持續打造雲原生、一體化的資料分析能力,助力企業加速邁入數字原生時代。

— 完 —

文章來源:量子位