天天看點

Dataphin核心功能(五)資源治理:每年節約數億元,資料中台資源治理怎麼做的?

資源成本暴漲與阿裡巴巴的應對之道

數智時代,海量的資料為業務創造了巨大的價值,但同時也帶來了不斷上升的計算成本和存儲成本,甚至會出現“IT成本增速大于業務增速”,“賺來的每一分錢都用在了購買伺服器上”的極端情況。

在阿裡巴巴的發展道路上,也遇到過這些問題:

1、資料資源完全黑盒。面對海量資料資源,沒有統一的資産地圖,不清楚我們有哪些資料資源,也不清楚這些資源用在什麼地方。

2、資料資源量大成本極高。阿裡巴巴集團的資料量級早就到達了EB量級,如此巨大的資料體量,每年的資料存儲和計算成本都高達數十億元。如此巨大的資料體量,通過人工的方式去治理,往往導緻資源治理效率低,人工成本高。

3、資料價值鍊路斷層。這麼多的資料,最終被哪些業務使用,服務了哪些客戶,也不夠清晰。

為了解決以上問題,阿裡巴巴建立了資料資源管理平台(隸屬于資料中台),用于對整個集團資料計算和資料存儲進行成本統計和優化。每年節約數億元的資料成本,阿裡巴巴是怎麼做的呢?阿裡巴巴采取了以下措施來實作資料資源的管理:

1、做好資料資源的盤點:包括了解資料資源内容,和建構資源類目兩部分。需要了解全部資料資源的業務屬性,制定規範的資源類目,做好資料的分類分級,總而言之是要摸清資料資源大盤;

2、做好資料資源成本的評估:包括追蹤資料應用和剖析成本價值兩部分。評估資料價值需要追蹤資料應用的全鍊路,盤點出每一份資料資源的連接配接度、貢獻度;剖析成本價值主要從資料計算和存儲兩個次元來評估。

阿裡巴巴通過以上步驟,将資料成本、業務收益做到清晰透明可評估,進而可以針對性的對資料資源進行營運,降低資料成本,提升資料效益。

阿裡巴巴資源治理方法論

首先,我們來看一下,實作資源治理所要遵循的方法論。

要真正實作資源的治理,降低大資料建設的成本,需要以下兩個關鍵步驟:

1、對全域的資料資源進行成本核算,生成全域的成本賬單,獲得降本目标。

1.1、對全域所有資料,統一按照計算成本和存儲成本進行核算,生成每一份資料資源的成本估算

1.2、對全域所有資料,進行治理項檢測,識别出不合理的資料資源(如無人通路的廢棄表)和資料任務(資料傾斜),并評估浪費的成本,進而在宏觀的層面,測算出全局可降本的空間。

2、以開發者個人為核心,推動部門、集團層面的治理優化,落實降本行動。

如果隻是算出來了賬單,卻沒有後續的營運手段的話,很難做到降本目标的真正落地。是以需要以技術營運的手段,讓人人形成成本意識,真正參與降本。

2.1、對開發者、部門進行賬單的彙總,進行總成本、浪費成本的排行并進行通過平台公示,進而能夠快速找到最需要優化的個人和部門的資料資源。

2.2、對開發者的個人資産情況進行打分,如果成本意識低,資源浪費嚴重,就會導緻個人資産健康分數低,導緻該開發者不能送出新的任務,進而使其必須進行資源的治理和任務的優化,進而在微觀執行層面,真正落實降本的行動。

Dataphin資源治理适用場景

在方法論的基礎上,我們還需要一個成熟的産品,來幫助我們快速建立資源治理體系,真正降低我們在大資料建設中的成本。

Dataphin的治理功能,就是阿裡巴巴的資料資源管理平台的商業化版本,具備強大的資源統計分析能力,能智能識别目前系統内低價值的資料資源和資料任務,并進行優化提示。

同時Dataphin提供了「治理工作台」功能, 您可以在「治理工作台」中,一站式的進行資源的優化處理,全局把控計算與存儲成本。

首先,我們先看一下資源治理的應用場景,進而對資源治理的價值有一個更直覺的認知。以下是通過Dataphin實作資源治理的一些典型的場景:

場景1:存儲優化——長期無人使用的表

大資料場景下,一個公司往往有上萬張表,随着業務的變更和人員的流動,一些業務表逐漸就無人使用,同時因為多個分區進行存儲,會一直占着大量的存儲資源。比如一些公司的原始資料,一個分區可能就有1T,但是業務每次都隻會用最新的分區,就會導緻大量的曆史分區的存儲浪費,可以設定分區的過期政策,對曆史分區進行下線操作。

Dataphin資源治理功能,可以自動發現無人使用的資料表或其他異常資料表,并在「治理工作台」進行提醒和展示。您可以在治理工作台檢視相應資料表,并采取相應的措施(如表下線、設定生命周期等)。

場景2:計算優化——異常計算任務

計算資源的重要價值和昂貴成本,需要每個任務都按需使用。而在實際的業務開發過程中,存在大量的異常計算任務,浪費了大量的計算資源,如暴力掃描(掃描大量分區)、資料膨脹(資料産出遠遠大于輸入)、資料傾斜(部分節點處理時間過長)等情況。比如發現資料的輸出遠遠大于資料的輸入,可能就是存在資料膨脹的問題(比如使用了full join),這時候就需要對任務進行優化,以優化性能。

Dataphin的資源治理功能,對任務的執行進行了全鍊路的監控,自動發現這些異常的計算任務,并在「治理工作台」進行提醒和展示。您可以在治理工作台檢視相應任務,并采取相應的措施(對相應的任務進行代碼優化、下線等操作)。

Dataphin核心功能(五)資源治理:每年節約數億元,資料中台資源治理怎麼做的?

Dataphin資源治理子產品介紹

1、使用流程

下面我們看一下資源治理子產品的詳細流程圖:

Dataphin核心功能(五)資源治理:每年節約數億元,資料中台資源治理怎麼做的?

*虛線框的流程為可選流程

可以看到流程主要分為4步:

①、管理者制定治理規則。是正式治理前的一些準備工作,因為Dataphin内置了衆多規則,是以這一部分是可選的,包括中繼資料注冊、治理項管理、推送管理等功能。

②、資料負責人執行具體的資源治理。資料負責人登入系統,對具體的存儲資源和計算資源進行優化。

③、管理者定期檢視治理效果。管理者通過對治理效果進行分析和檢視,了解目前的資源現狀和治理效果,包括資源分析、治理分析、治理效果等功能。

④、管理者優化治理流程,提升後續治理效果。管理者根據上一步的治理效果,優化整個治理流程,比如增加新的治理項、增加新的推送任務、單獨通知重點項目負責人等。

2、産品功能

Dataphin核心功能(五)資源治理:每年節約數億元,資料中台資源治理怎麼做的?

子產品包括主要包括 資源管理、 治理概覽、 治理工作台、 治理項管理、 資源回收筒等功能:

· 資源管理主要用于資源分析。資源分析是從全局視角為您展示資源消耗、資源消耗增速、資源消耗分布及資源治理概況。

· 治理概覽由治理分析和治理效果組成。治理分析針對全局進行問題診斷、待治理問題點的分析。治理效果助您分析治理後效果,評定治理情況、推動治理優化。

· 治理工作台由我的治理和項目治理組成。我的治理面向目前登入使用者,根據其所參與和所負責的項目,為您提供高效快捷的治理入口和能力。項目治理面向目前登入使用者,根據其所參與和所負責項目的資訊進行管理。

· 治理項管理由中繼資料注冊、治理項管理、推送管理、任務管理組成。您可以自定義建立治理項、發起推送、檢視任務執行,也可以使用系統内置的通用治理項。

· 資源回收筒将您在治理工作台中删除或下線的表格暫時存留起來,以防止對資料的誤操作,支援對表格的恢複和徹底删除。

3、特點優勢

· 内置治理項,開箱即用:Dataphin對其系統内部的資料生産和存儲都進行了中繼資料的采集,同時内置了最常見的存儲和計算治理項,確定開箱即用,可以快速看到全局的資源情況,并進行相應的優化分析。

· 治理項支援靈活自定義:Dataphin同時支援客戶自定義治理項和治理中繼資料,實作更加靈活的治理場景,比如想進行小表格的檢測,就可以建立治理項【小于1MB的表】,進而自動檢驗出這部分的資料表,并進行針對性治理。

· 密切結合資料生産場景:Dataphin的治理子產品與資料研發子產品、資料資源子產品進行了緊密的結合。針對檢驗出來的治理事項,可以直接在治理工作台進行處理,直接在研發任務和資産存儲等方面生效,進而做到一站式資源治理工作。

未來展望

随着資料的不斷累積和業務的不斷發展,資料的體量将會變得越來越大,随之而來的是龐大的成本,也成為了大資料建設中越來越無法忽視的問題。

站在整體功能的角度來看,從建立治理項,到具體資源的優化,再到治理結果的分析,目前Dataphin已經有了比較完善的資源治理體系。但是基于客戶資源治理場景的多樣性,有了更多的思考。

1、對Hadoop等新引擎的支援。原有的治理子產品和阿裡雲的雲上資源緊密結合,僅能對雲上環境實作完整的治理操作。對其他引擎,比如Hadoop,目前僅支援部分核心流程,後續版本中逐漸實作對Hadoop體系治理需求的完整支援。

2、治理和研發更緊密結合,確定資源治理效果。目前治理隻是對負責人進行提示,在團隊規模大、資料體量大的條狀态下,比較難有較強的限制力。後續會推出嚴格模式,開啟後,當個人資源浪費過多,健康分過低時,會直接跳轉到治理子產品,完成資源的治理後,才能執行新的開發任務。進而關注每個人的成本意識,讓企業實作降本增效。

關聯閱讀:

Dataphin産品核心功能大圖(一)規劃: 企業資料體系應該怎麼規劃 Dataphin産品核心功能大圖(二)內建:如何将業務系統的資料抽取彙聚到資料中台 Dataphin功能大圖(三)研發:設計即研發,規範模組化保障資料模型與代碼的一緻性 Dataphin核心功能(四)安全:基于資料權限分類分級和敏感資料保護,保障企業資料安全 了解更多産品詳情: https://dp.alibaba.com/product/dataphin

阿裡雲資料中台是阿裡巴巴資料中台唯一商業化輸出,以資料中台方法論為核心,建構起”快、準、全、統、通“的智能大資料體系。

阿裡雲資料中台産品矩陣是以Dataphin為基座,以Quick系列為業務場景化切入:

  • - Dataphin,智能資料建設與治理
  • - Quick BI,資料可視化分析
  • - Quick Audience,一站式消費者營運和管理
  • - Quick Tracking,全域行為洞察
  • - Quick Stock, 智能貨品營運
  • - Quick Decision,風控決策數字引擎

目前正對外輸出系列解決方案,包括通用資料中台解決方案、零售資料中台解決方案、金融資料中台解決方案、網際網路資料中台解決方案等。