Dataphin 智能資料建構與管理平台
面向各行各業大資料建設、管理及應用訴求,一站式提供從資料接入到資料消費全鍊路的智能資料建構與管理的大資料能力,包括産品、技術和方法論等,助力打造标準統一、融會貫通、資産化、服務化、閉環自優化的智能資料體系,以驅動創新。
Dataphin産品直達:
https://www.aliyun.com/product/dataphin困難是最好的教練
阿裡巴巴從2008年開始建設自有的大資料體系,緻力于建構好資料服務多樣的業務。一路上,經曆了各種各樣的困難。
技術陷在臨時取數不可知:阿裡内部曾經通過建設專門的“臨時取數需求管理系統”,給每個業務線配置設定臨時取數的時間額度,每次還沒到月底,額度已經為零,業務同學追着資料技術同學加班取數的情況時有發生......為了改變這一局面,專門建立了“業務人員SQL技能教育訓練”,希望用這樣的方式讓業務人員自己掌握臨時取數技能,美其名曰“賦能”。而這背後的本質是:資源。
資料口徑定義有差别:曾經就因為資料口徑差異,差點造成商家損失。商家在背景看到的資料預測,顯示可以達到活動報名要求,于是提前備貨,準備大幹一場,但是最終報名卻沒有通過,原因是小二側的資料口徑與商家側的資料口徑不一緻,小二系統評估商家的資料未達标,導緻不通過。雖然最終通過協調解決了問題。但這背後的本質是:标準。
加班做報表,彙報還被罵加班取數是常态,通常取數花費2-3小時,而之後的核對差異則要花費巨大精力,動辄1-2天;最後的彙報環節,也會因為一些口徑差異及資料品質問題造成尴尬,甚至會出現錯誤資料導緻決策失誤的情況。這背後的本質是:品質。
除了上述這幾個典型的場景,阿裡巴巴也曾因業務增長而出現資料量爆發增長,對資料不治理不管理,意味着資料的存儲和計算成本不斷攀升。成本,也是大資料領域面臨的困難之一。
探索中前行,實戰中沉澱帶着克服困難的決心,阿裡巴巴開始了B2B業務資料建設、電商業務資料建設、阿裡系業務資料建設。過程中,邊探索、邊沉澱、邊前行,通過更體系化的資料建設提升資料品質,降低資料重構的風險,提升資料服務的效率。經曆近十年的打磨,基于實戰,阿裡巴巴沉澱了OneData大資料建設的方法論(OneModel+OneID+OneService)。OneModel通過對資料體系化架構、資料元素規範定義、資料名額結構化拆解,對資料進行統一的建構及管理;OneID通過建立實體對象、對象相關的行為資料及标簽建構方法,對企業的核心商業要素進行資産化;對資料資産進行統一的主題式資料單元建構,配置建構資料API并提供API服務,以提升資料資産消費的便捷性,提升資料資産價值。
克服痛點 創造領先的大資料能力
随着全球數字化程序的加速,企業面臨着更加嚴峻的市場競争,而數智化轉型所遇到的困境也曾是阿裡巴巴最初之痛。于是,阿裡雲資料中台應運而生,與各行各業的企業在資料領域開展了合作,解決企業凸顯的資料問題:
●資料标準問題:煙囪式開發及局部業務服務支撐,導緻名額同名不同口徑問題頻發;曆史上不同業務系統逐漸疊代上線,相同對象屬性編碼不一緻等問題突出;
●資料品質問題:重複建設導緻任務鍊冗長、任務繁多,計算資源緊張,資料時效性不好;口徑梳理定義的文檔沉澱到開發代碼實作之間存在脫節,資料準确性保障風險高;
●需求響應問題:煙囪式開發周期長、效率低,面向應用的服務化不足,導緻業務響應速度慢,業務不滿意的同時技術又覺得沒有沉澱與成長;既懂業務又懂資料的人才不足,需求了解到開發實作涉及大量溝通,服務效率較差;
●成本資源問題:煙囪式開發的重複建設浪費技術資源;上線難下線更難,源系統或業務變更不能及時反映到資料上,加之資料不标準,研發維護難上加難的同時,大量無用計算和存儲造成資源浪費。
阿裡巴巴提出的OneData方法論幫助企業捋清了資料全生命周期的管理思路,更将其植入到産品Dataphin(智能資料建構與管理)中,通過阿裡雲為企業提供服務。 Dataphin除了大資料處理全鍊路涉及到的資料內建、開發、釋出、排程、運維能力,同時提供了資料規範定義、邏輯模型定義、代碼自動化生成、資料主題式服務能力,高效地完成好資料的建構。
Dataphin産品核心子產品
Dataphin自2018年問世以來,已發展出了豐滿的大圖,到目前為止經曆了多輪大版本更新,産品核心的能力子產品清晰顯現。
1、環境适配
最底層為Dataphin的環境适配能力。Dataphin支援不同的雲環境,為不同規模以及不同部署要求的客戶提供不同的選擇,包括公共雲多租戶、公共雲VPC、專有雲企業版及靈活版,以及本地IDC部署。
2、引擎支援
在雲環境之上,根據不同的雲環境可以支援不同的計算引擎。離線的計算引擎包括阿裡雲MaxCompute,Hadoop生态引擎包括阿裡雲E-MapReduce、CDH5、CDH6、以及即将支援的FusionInsight、CDP等。實時計算引擎支援阿裡雲Blink和Flinkvvp。開源版本的Flink也即将支援。
3、資料建構
基于不同的雲環境和計算引擎,Dataphin提供了大資料處理全鍊路涉及的資料內建、開發、釋出、排程、運維能力,提供了資料規範定義、邏輯模型定義、代碼自動化生成、主題是查詢的資料建構能力。
4、資産
Dataphin提供了配套的資産地圖、資産血緣、資産品質管理和監控、資源成本管理和提效的資産管理能力,并提供了配置化的資産服務研發和管理能力,可将資料資産快速服務業務、反哺業務。