天天看點

資料庫大資料一體化加速數智化創新

内容簡要:

一、整體趨勢

二、核心技術和産品介紹

三、最佳實踐

資料庫大資料一體化加速數智化創新

資料資産化包括資料變現都是企業包括政府關心的話題,資料的重要性不言而喻,早期需要不斷地向客戶、企業佐證資料有變現和增值能力,如今已經成為行業的共識。

通常情況下,企業存在大量生産業務資料,例如網際網路企業有使用者行為資料,物聯網資料以及第三方市場資料,或者是第三方廠家商業化資料或公開資料。企業可以拿到的資料越來越多,如何把資料抽取、內建起來做後續的應用變現,解決資料孤島的問題,做資料內建、資料采集的能力,這些都是企業當下面臨的挑戰。

資料采集完、內建完後需要由資料分析的承接系統,這個系統從技術演進過程中有非常多的技術方案,包括傳統的商業資料庫,傳統資料倉庫,以及大資料等很多體系,包含雲原生資料倉庫、資料湖,這些都是存儲和承接資料的工具平台。

在工具平台上傳時,我們的資料從各個資料源采集過來,不管是資料品質、可變現價值都是有待于進一步加工處理,這個就涉及到資料開發平台以及資料模組化平台,需要将衆多海量資料抽絲剝繭清洗出來做标準化。

資料治理服務目前也是非常專業的方向,在資料資産化完成以後,就涉及到資料資産變現,分為兩個領域。

第一個是如何把資料資産應用在企業内部的業務,解決企業的增值,完成資料資産的賦能,業界的狀态一般做到了基于資料輔助決策,資料變現是數字SaaS化解決的問題。

另外一個資料交易領域,目前國内外的水準存在一定差距,國外資料交易不管是在合規政策、資料标準要求方面,廠商的能力方面,包括資料的規模與種類等,相對國内起步較早,水準較高。國内在這一塊的法規标準,包括開放性、交易合規政策上相對來說起步較晚。雖說資料交易有較大的市場空間,但由于起步相對比較晚,是以資料資産從資料源到資料變現的流程過程很長,各大廠商的能力也是強弱不一,在資料存儲和計算這個領域,阿裡雲的了解和判斷處于領先地位。

資料庫大資料一體化加速數智化創新

資料資産是以資料為核心。

近幾年從廠商報告裡面可以看到一些核心的變化,第一個是資料規模一直在快速的增長,這是由于網際網路時代與5G、IOT移動網絡的興起,這兩個轉折點都導緻了資料海量規模化的增長,導緻采集的資料與規模越來越大,傳統行多技術方案或者是工具産品就涉及到如何解決海量資料規模的問題。

資料處理時效性要求上,很多廠商的業務應用越來越實時。舉個例子,在電商場景,根據使用者最近的浏覽資料或者是在網站上最新的行為資料,快速為使用者做精準的推薦和營銷。現在資料實時處理的要求越來越高,非結構化資料的占比越來越高,還是得益于在IOT和5G網絡圖檔音視訊的處理越來越多。

資料庫大資料一體化加速數智化創新

上雲之後,傳統的工具産品如何發展,這對傳統的資料分析系統提出新的挑戰。

我們以大資料技術來做對比分析這個問題,大家都知道資料庫和資料倉庫的發展迅速,在用大資料技術存在一些問題和痛點,資料源多樣化、來源非常多導緻資料治理的問題。不同系統的使用者ID、名稱不一樣,資料口徑不一緻,如何把多個地方、多個資料源拉動到一起做深度資料挖掘,這是非常大的挑戰。

第二個是分析時效性的問題和技術架構的複雜度。拿大資料體系來說,大資料技術或者是大資料的發展是非常快的,系統演進、技術更新疊代,每年都有推陳出新的系統。用一種産品解決垂直領域的問題,就會導緻它的産品數量包括産品系統越來越複雜。這就帶來一個問題,企業對實時性、規模都改變的情況下,單一系統解決不了問題,企業就要組合多種産品推出整套的解決方案,對企業的學習門檻、上限門檻非常高的。

資料庫大資料一體化加速數智化創新

經過問題的分析與接觸客戶,可以發現業界其他廠商都是一樣的演進趨勢,整個資料分析系統從1970年到現在有40多年的時間。

早期第一代關系型資料庫包括商業型的資料庫就能解決交易類資料或者是生産類資料的分析訴求,那時候更多是做決策、診斷可視化決策的報表分析,由于當時資料量不大,關系型資料庫就可以作為底層存儲分析系統。

到了1993年,企業資料量慢慢大了以後,線上資料庫放不下曆史資料,新推出來資料倉庫模型通過拓展存儲解決了這個問題。2005年,網際網路興起之後,資料量越來越大,傳統的資料倉庫存在擴充性瓶頸與容量問題。當時以谷歌為代表提出的三篇論文裡面的大資料架構,從2005年至今還可以看到很多企業都在用這套技術架構,這套技術架構有利有弊,新一代資料處理加速從Big Data向雲原生資料倉庫+資料湖演進。

到雲原生資料倉庫2012年這個階段,有很多産品出來了,我們認為演進的方向未來應該是這個方向。

資料庫大資料一體化加速數智化創新

雲原生的系統可以解決使用者遇到的幾個痛點問題,基于雲計算的技術架構體系提出存計分離。雲原生資料倉庫的技術架構體系和資料庫技術架構體系非常像,在實時性能力是做了非常多的巧妙設計,可以解決離線包括線上的實時化能力。

資料庫大資料一體化加速數智化創新

多樣化的資料類型,包括資料的多模化。這個也是很多雲原生系統解決半結構化資料,慢慢開始适配半結構化資料的計算和存儲能力,是通過了簡單技術棧體系滿足前面的多樣化訴求,最終解決的是使用者門檻問題,包括成本問題,包括業務發展的問題。這就是為什麼這兩年系統發展很快,中小企業也可以用起來了,我們認為這個是未來新的方向。

資料庫大資料一體化加速數智化創新

從技術上面來看,未來關鍵技術處理有幾塊,具體表現在以下幾個方面。

第一個是實時,使用者還有離線、深度挖掘的訴求,未來資料存儲能力應該是多樣化的。

第二個存儲、支撐應該是多模化的,可以支援結構化、半結構甚至非結構化的資料,這個也是未來大的方向趨勢,一套資料解決存儲、分析,真正解決複雜架構上的問題。

第三個是雲原生存計分離的能力,進一步解決企業存得起、用得起的問題,隻有經曆雲計算的架構更新,才可能把容量做到上千PB的規模。

第四個可以把計算的擴充性做到上千台的規模,這也是未來支撐海量資料規模下新的技術方向。

除此之外,我們認為安全可信是未來使用者在選擇資料産品或者是資料資産工具平台很重要的考量。這裡包含資料存儲安全、資料通路安全以及通路過程中全鍊路通路控制的安全,包括各個法規等保以及國内外各種法規支援的安全能力,這個也是未來很重要的方向。

性能越來越實時化以後,也可以借助硬體層面更新的能力進行軟硬更新,把硬體的能力應用在整個資料資産化解決性能和實時線上化的能力,未來也會進一步探索軟硬一體的方向。

智能化表現在以下三個方面:

第一個層面的智能化指産品或者工具平台本身是智能化的,或者是本身自閉環的。現在有很多的工具産品有非常高的運維門檻,未來這些工具能不能通過自學習的能力,能夠讓自閉環的能力增強。

第二是解決業務在智能化上的訴求,例如平台能否提供機器學習、深度學習AI分析能力。

第三個層面智能化是解決半結構化、非結構化的資料深度挖掘,增強分析能力。

(一)雲原生資料倉庫+資料湖建構資料資産的存儲與處理方案

阿裡雲這幾年一直在探索雲原生資料倉庫和資料湖的資料方向,接下來跟大家分享一下,目前阿裡雲在這個方向上演進的最新進展和技術上面的最新解讀。

資料庫大資料一體化加速數智化創新

阿裡雲在資料庫推出了雲原生資料倉庫ADB,加上雲原生資料庫建構的資料資産存儲和分析的解決方案。我們提供了兩款産品,第一個雲原生資料倉庫ADB産品,這個産品是全面相容PG/Oracle。第二個産品雲原生資料湖,圍繞阿裡雲上面的對象存儲,大資料的分布存儲建構的資料湖分析平台,在資料資産變現、資料治理、資料資産方面也做了很多的優化。

(二)AnalyticDB (ADB):整體介紹

資料庫大資料一體化加速數智化創新

上圖為ADB整個技術架構,總共分為三層。

最底下的一層是存儲層,最上面那一層計算引擎層,解決互動式分析一體化,解決了幾實時性、離線計算以及多元度的點查場景等問題,做到一體化。

資料庫大資料一體化加速數智化創新

ADB的存計分離提供了計算彈性能力,冷的資料分層以後,在成本、性能方面解決海量存儲的問題。

此外,ADB提供了完整的生态相容,相容資料庫的生态體系,對使用者來說可以用(英)技術棧解決資料分析的問題。

(四)AnalyticDB (ADB):Serverless 存儲

資料庫大資料一體化加速數智化創新

在Serverless存儲,智能索引滿足不同資料類型的掃描分析,我們做了很多計算下推,才能滿足更實時的要求。

資料庫大資料一體化加速數智化創新

上圖為冷/熱資料分層,以前冷的資料一定要通過兩套系統來做,上面這套架構裡面自動做冷的資料分層。

(五)AnalyticDB (ADB):在離線一體化

資料庫大資料一體化加速數智化創新

經過很多技術優化以後,我們也做了國際權威的認證,在TPC-DS和國際榜單的打榜取得第一名的成績,成本效益相較第二名是四到五倍的優勢。

資料庫大資料一體化加速數智化創新

(六)Data Lake Analytics (DLA) 雲原生資料湖

資料庫大資料一體化加速數智化創新

雲原生資料湖目前各大廠商都在做,從市場心智來說,國外相對成熟,中國還處在啟蒙的階段,是以還需要做強企業的引導。

資料湖的優勢是圍繞使用者開放存儲,對資料的開放性與二次研發能力,計算引擎對接上面都是更開放的,對使用者來說資料存儲擴充性也更好。這帶來了另外一個問題,它不是端到端的一站式解決方案,在引擎、資料上面無法做無縫銜接的,差距較大,下面簡單講一下我們在資料湖上的解決方案。

資料庫大資料一體化加速數智化創新

開放存儲、統一進制資料、開放計算、Serverless計算

整個資料湖最底下是存儲,以前大資料分布式的檔案系統叫做DMS,再上一層是緩存層,資料湖底下的裝置不是真正為資料計算而存儲的産品,在性能計算方面,不管是帶寬還是計算下推的能力非常有限,一定要設計一套緩存層。

再上面就是計算引擎層,我們提供兩個,一個是Spark,另外一個Presto,未來也會根據企業的訴求擴充引擎計算能力,引擎層全部基于(英)的架構,使用者按照他的(英),我送出一個(英),都是按照這個(英)付費的,相對于以前的大資料來說,成本大幅下降,從使用者使用情況來看至少是三倍的優化。

使用者要建構資料湖,我們主要解決使用者資料湖的建構問題,包含原資料的發現,基于(英)的技術,以及存儲付費成本問題,解決企業對成本的訴求。

(一)江門農商行:基于ADB實作DB2全面“升艙”

資料庫大資料一體化加速數智化創新

在傳統的銀行中,DB2使用廣泛,1970年的資料庫承接線上交易也承接資料分析的訴求。

農商行做了很多網際網路化的轉型,當發現它的資料已經無法支撐,分析計算擴充性存在局限,有很多是軟硬一體,軟體方面擴充器是單機的,而且由于是海外産品,支援的服務成本較高,按照我們的方案全面更新後,成本優化了很多。

(二)中國郵政:全國大集中

資料庫大資料一體化加速數智化創新

中國郵政在全國各個省有許多分公司,這些分公司早期的資料資産都是獨立的,形成資料孤島。中國郵政希望做全國的物流與成本優化,将全國的公司盤點起來做全鍊路的優化,是以選用了ADB産品,把全國省市大集中,做物流鍊路的優化和分析,解決了以前資料孤島的問題,分析性能有大幅度的優化。

(三)天貓雙十一

資料庫大資料一體化加速數智化創新

在天貓雙十一的時候,除了幫助生産交易系統呈現絲滑般效果,在分析系統方面我們也承載業務大屏,解決實時應用和輔助決策的問題。