天天看點

業界 | 資料庫大資料一體化加速企業數智化創新

目前,資料要素的重要意識已經深入企業内部,但從資料要素到資料資産化的過程中,企業面臨諸多困擾:資料要素如何采集?如何存儲與保障資料安全?如何進行資料的處理與分析?如何建立資料要素全流程管理過程?形成資料資産後如何發揮資料資産的價值來驅動決策?資料資産如何實作變現?資料資産如何發揮核心價值?……

日前,為深度解析這些問題,推動中國企業資料資産化管理工具市場健康發展,海比研究院、中國軟體網聯合中國軟體行業協會在京舉行《2021中國資料資産化工具市場研究報告》釋出論壇,本次釋出論壇邀請多位業内專家出席活動,就資料資産化的産生背景、發展曆程、典型工具、行業概況、技術水準、市場規模、競争格局等方面深度解析,共繪資料資産化工具市場未來。

阿裡雲資料庫産品事業部OLAP&生态工具産品負責人、進階産品專家蔡冬者出席本次論壇,就《資料庫大資料一體化加速企業數智化創新》進行了精彩分享。

業界 | 資料庫大資料一體化加速企業數智化創新
 阿裡雲資料庫産品事業部OLAP&生态工具産品負責人、進階産品專家蔡冬者

一、整體趨勢

業界 | 資料庫大資料一體化加速企業數智化創新

在網際網路經濟時代,資料已經被列為新的生産要素,其與土地、勞動力、資本、技術并列為五大生産要素。資料的重要性不言而喻,越來越多的企業把資料作為戰略資産,以資料營運提升企業競争力。

企業資料資産化應用之前需要經過複雜的資料采集、資料內建、資料清洗、資料模組化及資料治理。目前企業有豐富的資料來源,包括生産資料、日志資料、IOT資料以及第三方市場資料。從IDC報告回報,企業資料具備規模爆炸性增長、實時化、智能化及加速上雲等特征。這對資料資産化各環節的工具都提出了海量、彈性、智能化、實時、多模及低成本等業務訴求。其中:

【1】 海量:随着移動網際網路、物聯網及5G技術的成熟及普及,企業可采集的資料呈現爆炸性增長的趨勢,據IDC報告說明,2020年全球資料規模達到40ZB。這也就對資料資産工具提出海量存儲、海量資料計算、彈性及低成本分析的訴求。

【2】 實時:越來越多的企業利用資料驅動業務增長。例如以購物推薦為例,轉化率較高的系統需要根據使用者的實時行為進行個性化推薦。相較于傳統資料分析漫長的計算流轉流程,這就要求資料資産化工具要能夠滿足資料從采集到應用的低延遲訴求。

【3】 智能化:企業非結構化資料占比越來越高,資料資産工具除了支援結構化資料外,也要能夠深度挖掘應用非結構化資料。這就要求資料資産工具要具備多模資料的存儲、計算能力。

業界 | 資料庫大資料一體化加速企業數智化創新

在資料資産化過程中,資料存儲及處理系統發揮着至關重要的作用。為應對企業不斷變化的資料資産化訴求,傳統大資料技術【以開源hadoop為代表】推出衆多垂直的技術體系,通過組合OLAP、離線計算、流計算、搜尋引擎等系統滿足企業多樣化的分析訴求。而不同技術體系之間通過複雜的ETL邏輯進行資料互動,整體方案複雜度高、經濟成本及學習成本非常高。

業界 | 資料庫大資料一體化加速企業數智化創新

從業界趨勢上看,資料處理系統經曆了“商業資料庫”、“傳統資料倉庫”、“大資料技術”到今天的“雲原生資料倉庫”。 由于傳統資料分析系統存在擴充性、容量、性能、架構複雜等問題,今天企業資料處理系統已經在加速向“雲原生資料倉庫+雲原生資料湖”演進,這裡面的典型代表有:snowflake、AWS redshift、AWS Athena、阿裡雲AnalyticDB及Azure/阿裡雲DLA。

業界 | 資料庫大資料一體化加速企業數智化創新
業界 | 資料庫大資料一體化加速企業數智化創新

是以,我們認為下一代圍繞“雲原生資料倉庫+資料湖”的資料處理系統,應該具備如下的特性:

【1】 在離線一體化:一套系統支援互動式分析、離線計算、實時更新、高并發點查及機器學習。通過一套系統,實作離線實時數倉一體化,企業無需學習應用多套技術棧,簡化技術架構。同時,統一系統可以避免資料重複及不一緻,顯著降低成本。

【2】 雲原生+分布式:借助雲計算的新型技術架構,實作存儲計算分離,同時結合分布式技術架構,實作海量資料的存儲及計算訴求。

【3】 智能化:相較于生産業務,資料分析邏輯複雜度極高,資料處理系統需要能夠實作自治以降低資料分析門檻。“自治”能力包括異常自感覺、自決策、自優化及自恢複。

【4】 多模:企業資料越來越多樣化,除了結構化資料,半結構化及非結構化占比越來越高。資料處理系統需要具備多模的能力,能夠支援半結構化、非結構化資料,且能夠提供多樣的計算能力。

【5】 軟硬體一體:近年來新硬體在性能、時延方面不斷創新突破。通過軟硬一體化深度內建,可以充分利用硬體及深度優化優勢,提供更有競争力的資料處理系統。

【6】 安全可信:安全可信是使用者在選擇資料處理系統很重要的考量因素。安全可信包含存儲安全、通路安全及安全審計等。資料處理系統需要建構安全可信能力,解決企業安全顧慮。

業界 | 資料庫大資料一體化加速企業數智化創新

二、核心技術和産品介紹

(一)雲原生資料倉庫+資料湖建構資料資産的存儲與處理方案

在企業資料資産化程序中,阿裡雲提供了資産化過程中每個環節涉及到的工具産品,主要包括:資料傳輸DTS、資料管理DMS、雲原生資料倉庫AnalyticDB、雲原生資料湖DLA、Dataworks、智能資料建構Dataphin、QuickBI、DataV以及衆多的生态産品。

對于資料資産化過程中使用的資料處理系統,阿裡雲一直在探索雲原生資料倉庫和資料湖的資料方向。

業界 | 資料庫大資料一體化加速企業數智化創新

阿裡雲在資料庫推出了雲原生資料倉庫ADB,加上雲原生資料庫建構的資料資産存儲和分析的解決方案。我們提供了兩款産品,第一個雲原生資料倉庫ADB産品,這個産品是全面相容PG/Oracle。第二個産品雲原生資料湖,圍繞阿裡雲上面的對象存儲,大資料的分布存儲建構的資料湖分析平台,在資料資産變現、資料治理、資料資産方面也做了很多的優化。

(二)AnalyticDB (ADB):整體介紹

業界 | 資料庫大資料一體化加速企業數智化創新

上圖為ADB整個技術架構,總共分為三層。

最底下的一層是存儲層,最上面那一層計算引擎層,解決互動式分析一體化,解決了幾實時性、離線計算以及多元度的點查場景等問題,做到一體化。

(三)AnalyticDB (ADB) 雲原生資料倉庫

業界 | 資料庫大資料一體化加速企業數智化創新

ADB的存計分離提供了計算彈性能力,冷的資料分層以後,在成本、性能方面解決海量存儲的問題。

此外,ADB提供了完整的生态相容,相容資料庫的生态體系。

(四)AnalyticDB (ADB):Serverless 存儲

業界 | 資料庫大資料一體化加速企業數智化創新

在Serverless存儲,智能索引滿足不同資料類型的掃描分析,我們做了很多計算下推,才能滿足更實時的要求。

業界 | 資料庫大資料一體化加速企業數智化創新

上圖為冷/熱資料分層,以前冷的資料一定要通過兩套系統來做,上面這套架構裡面自動做冷的資料分層。 

(五)AnalyticDB (ADB):在離線一體化

業界 | 資料庫大資料一體化加速企業數智化創新

經過很多技術優化以後,我們也做了國際權威的認證,在TPC-DS和國際榜單的打榜取得第一名的成績,成本效益相較第二名是四到五倍的優勢。

業界 | 資料庫大資料一體化加速企業數智化創新

(六)Data Lake Analytics (DLA) 雲原生資料湖

業界 | 資料庫大資料一體化加速企業數智化創新

雲原生資料湖目前各大廠商都在做,從市場心智來說,國外相對成熟,中國還處在啟蒙的階段,是以還需要做強企業的引導。

資料湖的優勢是圍繞使用者開放存儲,對資料的開放性與二次研發能力,計算引擎對接上面都是更開放的,對使用者來說資料存儲擴充性也更好。這帶來了另外一個問題,它不是端到端的一站式解決方案,在引擎、資料上面無法做無縫銜接的,差距較大,下面簡單講一下我們在資料湖上的解決方案。

業界 | 資料庫大資料一體化加速企業數智化創新

開放存儲、統一進制資料、開放計算、Serverless計算

整個資料湖最底下是存儲,以前大資料分布式的檔案系統叫做DMS,再上一層是緩存層,資料湖底下的裝置不是真正為資料計算而存儲的産品,在性能計算方面,不管是帶寬還是計算下推的能力非常有限,一定要設計一套緩存層。

再上面就是計算引擎層,我們提供兩個,一個是Spark,另外一個Presto,未來也會根據企業的訴求擴充引擎計算能力,相對于以前的大資料來說,成本大幅下降,從使用者使用情況來看至少是三倍的優化。

使用者要建構資料湖,我們主要解決使用者資料湖的建構問題,包含原資料的發現,以及存儲付費成本問題,解決企業對成本的訴求。

三、最佳實踐

(一)江門農商行:基于ADB實作DB2全面“升艙”

業界 | 資料庫大資料一體化加速企業數智化創新

在傳統的銀行中,DB2使用廣泛,1970年的資料庫承接線上交易也承接資料分析的訴求。農商行做了很多網際網路化的轉型,當發現它的資料已經無法支撐,分析計算擴充性存在局限,有很多是軟硬一體,軟體方面擴充器是單機的,而且由于是海外産品,支援的服務成本較高,按照我們的方案全面更新後,成本優化了很多。

(二)中國郵政:全國大集中

業界 | 資料庫大資料一體化加速企業數智化創新

中國郵政在全國各個省有許多分公司,這些分公司早期的資料資産都是獨立的,形成資料孤島。中國郵政希望做全國的物流與成本優化,将全國的公司盤點起來做全鍊路的優化,是以選用了ADB産品,把全國省市大集中,做物流鍊路的優化和分析,解決了以前資料孤島的問題,分析性能有大幅度的優化。

(三)天貓雙十一

業界 | 資料庫大資料一體化加速企業數智化創新

在天貓雙十一的時候,除了幫助生産交易系統呈現絲滑般效果,在分析系統方面我們也承載業務大屏,解決實時應用和輔助決策的問題。