天天看點

數字化轉型需要哪些資料産品?(附資料産品架構圖)

作者:IT168企業級

數字化轉型主要包括業務數字化、資料資産化、資産業務化、業務智能化幾個階段。在不同的階段,分别需要哪些資料産品呢?今天就逐一盤點一下,希望可以為各位老闆的數字化轉型過程中資料産品規劃提供參考,主要是以子產品規劃為主,産品詳細的功能和實作邏輯,往期文章幾乎都有逐一的分享。

數字化轉型需要哪些資料産品?(附資料産品架構圖)

一、資料采集相關産品

數字化包含兩層含義,其一是線上化,也就是把過去線下的、手工的低效業務過程線上化流程化,以提升人效,同時建立資料采集的基礎。其二是資料化,把線上化的業務流程資料采集下來,為後期的業務化、智能化提供基礎資料源。是以,在資料采集環境,主要涉及的資料産品包括:

1.資料采集範圍與标準定義(必須)

網際網路行業畢竟熟悉埋點一詞,埋點也是很多公司的“痛”。埋點不規範,資料兩行淚。先污染後治理勢必帶來後期資料應用清洗的資源浪費。是以,為了減少踩坑,需要事先确立不同資料源、資料類型的資料采集規範,針對App、小程式等産品需要建立統一埋點規範和采集方案,其他的智能硬體、傳感器裝置或者三方資料源,需求定義不同來源的資料傳輸格式。

2.埋點管理系統(可選)

将埋點規範內建到資料管理背景中,讓整個埋點流程線上化流轉,提升埋點工作的規範化程度,減少漏埋和錯埋。即使像一些使用者行為分析系統力推的無埋點或可視化埋點,也都有埋點資料管理子產品提供界面化的名額定義能力。早期的埋點規則主要靠excel世代相傳

3.資料同步或內建系統(必須)

這一子產品既可以單獨存在,也可以和大資料開發平台耦合,其主要作用是提供源到端的資料同步功能,即選擇資料來源以及希望資料同步到的目标為主,針對不同的源、目标設定參數、任務排程頻率和政策即可。現在比較時髦的一個詞叫資料一鍵入湖。一鍵自動化實作非結構化(音視訊等)、結構化資料到中央資料湖,以供後期處理消費。回到前面講過的大廚做菜的例子,資料內建工具就比如自動化的收割工具,過去因為手工勞作,食材數量、種類有限,當機械化生産後,豐盈度大大提升。

二、資料加工與處理工具

1.離線開發平台(必須)

彙聚入湖的資料需要加工處理才能發揮其價值,尤其對于湖倉一體的架構中,涉及到結構化資料的資料倉庫子產品的開發。按照業務需求的邏輯對資料進行ETL處理,輸出一個個的資料模型。對于離線開發平台主要功能應包括:

存儲&計算層:資源的自動化配置設定(主要是叢集資源的排程),資料開發主要關注業務邏輯,而不需要人人都搭一套hadoop

任務開發層:IDE可視化任務開發,除了核心的資料處理邏輯需要代碼實作外,其他的參數設定都可以配置化,且平台需要支撐Hive、Shell、python等常用資料開發和挖掘任務類型。

任務排程:資料有嚴格的上下遊關系,隻有上遊資料任務運作成功資料加工完成後,下遊資料才準确,是以一般任務不會單獨存在,需要建立依賴關系,此外,周期性的資料也不能每天手動點一下,還需要時間排程,根據需求設定是每分鐘、小時還是天月執行,在什麼時間執行等。

任務運維:修改邏輯、上遊出錯、叢集資源不穩定等經常需要涉及資料回溯、任務重跑等操作,提供批量、自動化的操作可以節省大量運維時間。

2.實時開發平台(必須)

實時資料主要滿足實時資料監控,産品端實時搜尋、推薦或實時場景化營銷,實時開發和離線開發主要在技術元件上的差别,産品功能子產品大同小異,也可以把整合形成批流一體化的一站式大資料開發運維平台。

3.資料倉庫建設工具(可選)

主要是将資料模型開發規範和流程融入到系統當中,是一種低代碼的思想減少數倉模組化的開發代碼開發,提升模型的規範化和複用性,比如阿裡的Datapin,系統化的好處在于友善前置化管理模組化過程,而不是先污染後治理,弊端是可能沒有開發自己寫代碼那麼靈活,是以可以作為可選子產品。

三、資料資産管理和治理産品

數字化轉型需要哪些資料産品?(附資料産品架構圖)

1.資料地圖(必須)

酒香也怕巷子深,資料模型開發完了,找得到、敢使用才能提升複用性,資料地圖通過資産目錄共享和強大的資料檢索能力,提供逛資料、找資料的能力,同時需要具備豐富的模型中繼資料資訊,讓資料消費者快速判斷是不是自己所需要的資料,如何使用。

2.資料品質監控(必須)

資料不準可以說是業務和資料團隊最頭疼的問題之一,業務拿到資料不敢用,先來問下開發準不準,開發不自信,看了任務看了代碼說應該沒問題。資料品質監控圍繞一緻性、及時性、完整性、準确性次元建構豐富靈活的資料品質規則配置和自動化預警能力,讓資料開發人員更自信,隻要監控沒報警,就可以拍着胸脯說,是不是業務上有什麼變化。

3.資料血緣(必須)

主要解決資料的追根溯源的問題,例如資料異常,需要通知下遊業務,資料治理時需要下線或者删除,下遊有沒有人在使用,沒有血緣就不敢治理,資料&服務隻增不減。

4.資料成本優化(必須)

雖然說大家預設資料部門是成本中心,但是在這個寒冬之下,也要勒緊褲腰帶,雖不能開源但總要節流,哪些資料長期無人使用可以歸檔或删除,哪些任務SQL性能奇差一個任務執行10多個小時,消耗大量CPU、GPU?資料成本優化核心目标是建立資料健康分評價體系,自動化檢測治理目标,并提供歸檔、删除等自動化治理動作,進而釋放伺服器資源,常态化做減法。

5.統一資料權限(必須)

資料安全問題事關企業生死存亡和資料團隊的“錢途”,統一權限主要是建立資料資産權限申請、授權、審計對應的流程,進而保證資料既共享又安全。

四、資料決策與智能應用

1.資料可視化分析(必須)

這裡主要指主題式資料分析報表,可以是定制化開發,也可以是基于自助BI工具配置。其主要目标是提供業務經營管理的核心名額體系的可視化分析能力。不能讓老闆每天自己使用自助BI拖拉拽吧。例如一些管理駕駛艙Dashboard或者可視化大屏。

2.現代自助式BI分析(必須)

Tableau在被saleforce 以157億美金收購後,在21年底宣布退出中國市場,作為BI工具的鼻祖,功能非常完善和強大,為什麼水土不服呢?主要原因是它的目标使用者是資料分析師,功能的複雜度導緻學習了解成本高,數字化轉型時代要求的是資料民主和普惠,人人都是資料分析師,是以相比較tableau,現在國内的一些雲廠商(QuickBI、火山引擎等)和BI産品(觀遠資料)更能滿足讓一線業務人員用資料的需求。有了現代BI,資料人員聚焦模型開發和資料基建,業務人員拖拽分析,自己配置可視化Dashboard,不再純依賴資料團隊的臨時SQL取數,或者定制化的可視化頁面開發了。

3.使用者行為分析系統(可選)

2015年使用者增長、增長黑客理論火爆的時候,很多中小型網際網路企業紛紛購買神策、GrowingIO等使用者行為分析系統。其好處是可以提供使用者行為資料從采集到自助式分析的能力,但資料層面更多的聚焦在流量資料,對其他業務系統資料支援性相對較弱。現代自助BI可以包含使用者行為的模型資料,是以包容性更強。

4.數字化營銷CDP或DMP(必須)

基于大資料計算和資料挖掘技術,建構使用者畫像标簽體系,使用者圈選、精細化分層,進行差異化營運和營銷觸達,提升營運ROI。業務同學可基于平台實作從人群圈選、場景建構、觸達投放、效果回收的閉環,同時,基于算法挖掘标簽及模型推薦的人群組合,從基于人的經驗營運,到基于大資料算法推薦的智能營運。一般企業内部私域流量營運稱之為CDP(客戶資料管理平台),流量變現的企業稱之為DMP(資料管理平台),如騰訊廣點通、阿裡達摩盤。

數字化轉型需要哪些資料産品?(附資料産品架構圖)

5.算法平台(可選)

數字化轉型進階層次是智能化,要想AI服務開發更加高效,甚至産品、營運都可以配置一個推薦服務接口,這時機器學習或者叫算法平台就可以派上用場了。對于算法開發,主要是提供從資源排程(CPU、GPU等)、離線上資料擷取、特性開發、模型訓練、推理服務全流程的算法工作台,進而提升算法中台化輸出的能力,甚至可以通過模型節點拖拽實作無代碼化的算法服務上線。

6.資料服務管理(可選)

有人也把資料中台稱之為DAAS,即資料即服務,資料如何快速輸出業務端,賦能産品創新。API服務統一管理,建立完善的應用血緣關系,提供通用接口的配置化生成能力,降低對Java開發的依賴。資料中台思想下,資料服務API輸出是應用輸出的最主要形式,資料服務管理平台一方面要具備将資料資産自助配置化輸出的能力,即數倉清洗好的資料模型,資料開發或業務人員可以通過入參、出參的可視化配置生成API接口,不需要接口開發介入。同時也要把API資産化管理,API接口文檔、應用調用情況做到可追蹤、可監控。

五、總結

廣義資料産品的定義是凡是可以提升資料從采、存、管、算、用全流程效率,促進資料價值輸出的相關産品都可以歸結為資料産品,在數字化轉型過程中涉及的産品大大小小二三十款,但總體産品矩陣大同小異。而且現在幾乎每個細分領域都有成熟的商業化資料産品版本,企業在實際數字化轉型的過程中可以根據研發資源、投入時間及财務成本、資料安全等多個方面綜合評估,哪些選擇外采,哪些自主研發。

繼續閱讀