天天看點

從市場需求目标看資料分析演進方向

摘要:資料價值的充分發揮需要AI的加持,而AI模型的精度依賴大量高品質的資料,這兩者的技術需要有機結合。

關于大資料業務的市場需求變化

日前,工業和資訊化部釋出《“十四五”大資料産業發展規劃》,提出到2025年,我國大資料産業測算規模突破3萬億元,并強調堅持資料要素觀,以釋放資料要素價值為導向,從國家政策層面為推動大資料産業高品質發展提供指導。

作為領先的雲服務廠商,華為雲在為客戶提供大資料等技術時發現,使用者對資料分析平台的需求有了新的變化,諸如“算法以及機器學習工程師花費了很多的時間在特征處理和資料預處理上,期望資料和AI作業開發編排能夠有機結合在一起,進行作業流的編排銜接和資料版本控制”、“市場熱點實時在變,搜尋推薦模型每天重新訓練,AI開發者需要将機器學習算子作為資料開發的一個節點統一編排訓練”、“AI和資料需要高速流轉,達到低延遲時間實時推理,支援分析的時效性”、“AI開發者在開發和優化機器學習模型時,無法直接從資料湖中1000多個制程參數,靈活快速挑選适合的字段進行模組化,必須配備懂大資料技術和制造業務的資料工程師來幫忙準備優質的資料”等。

同時,作為資料分析平台的需求方(華為流程IT和消費者的大資料已全面上雲),華為資料治理在實作資料實時可現(例如通過報表描述發生什麼)的基礎上,亟需進入下個階段,達到診斷預警(例如提前感覺業務問題,自動預警風險)和智能決策(例如分析問題根因,推薦方案),以應對日益複雜的内外部環境,提升企業的韌性。

出現上述變化的本質原因是:資料價值的充分發揮需要AI的加持,而AI模型的精度依賴大量高品質的資料,這兩者的技術需要有機結合。

資料分析平台演進探索

政企面向未來數字化、智能化轉型更新,需要以雲原生的思維建構數智融合的資料分析平台架構,把原本散落在各個部門群組織的資料統一彙聚到資料湖中,省去開發者關注各種底層的瑣碎檔案管理,以及大量、複雜的分析引擎、AI引擎和管理運維工作,支援開發者在內建的開發平台上,便捷地使用最新的算法模型挖掘各種資料的潛在價值。概括來說,未來演進要滿足以下三個目标:

第一,降低成本。用雲原生技術降低存儲和處理大規模資料的成本,減少運維開銷。

平台基礎設施和能力的全面雲原生化、輕量化、Serverless,是雲原生的演進形态。Serverless技術本身會從專用走向通用:支援有狀态、程式能夠自動并行、可以在多雲執行、高效利用雲原生的計算和存儲,能夠讓所有的應用都可以基于通用Serverless開發。

從市場需求目标看資料分析演進方向

圖表 1 Serverless發展從專門到通用

存算分離大幅降低了資料的長期持有成本,提升了擴縮容的彈性,但是被拉遠的計算服務層和存儲服務層間的“資料牆”會由此引發性能損耗。是以,需要基于“記憶體中心架構”推動公有雲大資料架構演進,在保持成本和彈性優勢的同時,減少資料搬運/拷貝工作、提升性能和故障解耦能力,即CPU和記憶體的故障不互相影響的能力。

從市場需求目标看資料分析演進方向

圖表 2雲原生共享記憶體

第二,提升價值。融合機器學習技術,讓使用者可以從資料中回答更多的問題、做更好的決策。

首先,要確定企業基于唯一的事實來源進行分析,通過對大資料、數倉、AI等各種分析引擎對中繼資料的統一管理,解決傳統資料分析和AI模型之間“資料搬家”的問題,實作資料在不同引擎間的自由流動,以及權限的細粒度管理和版本管理,打通大資料分析和AI模型引擎,基于一份資料進行不同的分析,避免不同團隊基于不同資料分析造成結果的不一緻,提升資料驅動決策的準确性和可信性。

(詳細内容請參考《雲原生2022.02期刊》的“數智融合的統一進制資料” https://res-static.hc-cdn.cn/cloudbu-site/china/zh-cn/cloudBU_Marketing/cloudnative2.0/1646375444325013796.pdf)。

其次,要讓資料分析師可以便捷地進行模型、特征訓練,極大釋放資料的潛在價值,讓DataOps和MLOps互通,像管理代碼一樣管理資料,實作資料與AI開發高效無縫互通。

從市場需求目标看資料分析演進方向

圖表 3某網際網路客戶DataOps & MLOps實踐

第三,降低門檻。基于SaaS、low-code/no-code等技術,讓人人都可以完成資料分析任務。

大資料産業仍存在使用門檻高、碎片化等技術瓶頸限制。在企業的轉型更新過程中,業界已經有非常領先,而且成熟的企業通用和行業通用SaaS服務,這些軟體都是先行者經過多年研發積累出來的智力資産,重新開始自研很難在短時間内達到業界先進的水準。是以,如果所需技術能力在業界已經有成熟服務支撐,那麼在成本可接受的情況下,應該考慮優先引入,通過先進技術構築主幹平台。那麼在架構設計中,需要将能力服務化、技術元件化,通過分層解耦和複用,像搭積木一樣,即插即用,促進靈活傳遞,并降低長期開發與運維成本。

資料生命周期長,每個步驟都涉及各種技術分支,而且還在不斷的變化演進中。需要資料分析廠商,提供低(無)代碼的內建開發平台,為使用者屏蔽底層技術,可以基于一套平台完成資料分析的全流程。

從市場需求目标看資料分析演進方向

圖表 4內建開發平台

以上是華為對資料分析平台演進的一些想法和探索,其出發點是從根本上遵循大資料的自然特性和發展規律,整合資料全生命周期的先進技術,降低大資料使用成本,充分激發資料要素價值潛能。

年度大促,30天免費試用

本次華為雲618年中大促活動,華為雲大資料推出了誠意滿滿的專項折扣。雲搜尋服務CSS、資料湖治理中心DGC、資料湖探索服務DLI等熱銷規格可享包月7折、包年6折;雲原生資料湖服務MRS、資料倉庫服務GaussDB(DWS)包月6折、包年5折。

不僅如此,雲原生資料湖服務MRS、雲搜尋服務CSS 、資料湖治理中心DGC 、資料湖探索服務DLI等産品還可免費試用30天;更有資料查詢加速、大資料BI 、大資料搬遷、流批一體資料治理等熱門大資料解決方案等你來搶購!

登入華為雲官網https://activity.huaweicloud.com/bigdata.html,以超值低價玩轉大資料!

點選關注,第一時間了解華為雲新鮮技術~

繼續閱讀