天天看點

剛入職的資料分析師,上千資料名額,如何1周開發完?

作者:陳夢婷 更多内容詳見資料中台官網 https://dp.alibaba.com

小白同學終于畢業啦!學過高等數學、java、C++、資料庫等課程,擅長編寫算法,參加過多次數學模組化大賽,在這個背景下,小白毅然決然選擇了資料分析師這個崗位,畢業後順利進入一家網際網路公司,開始職場初體驗。

本周小白正式入職,在師兄帶領下,開始第一周的工作。

然而信心滿滿的小白看到工作内容,感受到深深的壓力——理想與現實、學校理論與職場實踐,差異不是一點……

問資料需求為何物,碼千萬代碼不知年

當小白剛剛坐下來,就碰到了職場第一個難題——需求了解。業務方紛至沓來,提了這樣一批需求……

需求

剛入職的資料分析師,上千資料名額,如何1周開發完?
剛入職的資料分析師,上千資料名額,如何1周開發完?

小白雖然有點懵,但是想着循序漸進,應該可以搞定,那就先從第一個需求開始吧。

和師兄以及業務同學了解背景後,小白整理了下第一個需求的求解思路:

先明确統計的值,是使用者數——可以根據使用者系統資料庫的主鍵字段計數 user_id(使用者id),不去重也可以count1。

然後根據使用者屬性設定過濾條件,比如sp_status(使用者狀态)這樣的臨時、業務變化較多的枚舉值。

最後可以将user_star_name(使用者等級)設定為group by的彙總項。

以此類推……

搬磚走起

需求的代碼語言逐漸清晰,和業務、和師兄都了解并确認實施可行性了,但是第二關又來了——計算邏輯設計。

雖然公司資料倉庫已經有沉澱,但是業務發展快,資料生産加工供不應求,資料體系已經有些混亂了,具體操作步步維艱——太難找!難了解!太難用!

比如:大部分資料還是需要從已有事實明細資料中再加工,極少部分是可簡單彙總得到……

剛入職的資料分析師,上千資料名額,如何1周開發完?

唉,業務着急,還是慢慢搬磚吧!

(努力搬磚中的小白……)

剛入職的資料分析師,上千資料名額,如何1周開發完?

搬磚成果

不知不覺,已經下午4點,第一個需求完成,最終輸出名額30個,代碼百行+,還有待驗證和優化。

剛入職的資料分析師,上千資料名額,如何1周開發完?
想到後面還要很多個需求要做,小白腦袋有點秃,懊悔自己初生牛犢不怕虎,一口接下太多需求。
剛入職的資料分析師,上千資料名額,如何1周開發完?

問題來了。。。

業務同學幾句話,幾行表格,開發同學幾行淚啊……大半天時間,30個名額隻是長征路第一步啊!

此時好想有個名額電腦,按幾個按鍵,剩下的近千個名額就可以自動算出來,又準确、又規範、又迅速,多好!

剛入職的資料分析師,上千資料名額,如何1周開發完?

然而,手邊隻有一個SQL編輯器和無盡的字元集。

小白同學有點慌,即使給他一周時間,作為剛入職的資料分析師,怎麼完成這麼多取數需求,而且資料需求可能還會随時變化、随時增加!

山重水複疑無路,柳暗花明Dataphin

時間不知不覺到了5點,旁邊一位技術leader看到小白對着需求的Excel愁眉不展,指了另一條路——公司最近新采購了阿裡雲産品智能資料建構與管理Dataphin,核心特點就有資料規範定義、代碼自動化生成,在過去一周,專家團隊已經實作一部分會員相關業務和資料遷移上雲,可能可以解決小白的問題。

剛入職的資料分析師,上千資料名額,如何1周開發完?

小白研究了下,已經有資料架構師角色的人建構好基本的資料架構,企業資料體系的業務邏輯和實體結構一目了然,自己負責的業務資料基本都已經覆寫,自己隻要根據需求場景,開發名額即可!

次元及事實模型:

所需的會員、交易的表都有了,表名、注釋清晰規範,沒有選擇困難;所需字段也都有了,一目了然主鍵、度量、關聯的外鍵,都不需要備援字段,使用簡潔友善。

剛入職的資料分析師,上千資料名額,如何1周開發完?
代碼自動化生成:小白嘗試操作了下,通過可視化表單增加一個字段後,送出後代碼自動生成,生成實體表及排程任務.
剛入職的資料分析師,上千資料名額,如何1周開發完?
(小白内心OS:真的好友善)
剛入職的資料分析師,上千資料名額,如何1周開發完?
計算邏輯重複性校驗:小白覺得挺有意思,自己仿造一個,送出時,發現居然做了事實邏輯表計算邏輯重複性校驗,之前資料同義不同名的問題也可以及時暴露解決了!
剛入職的資料分析師,上千資料名額,如何1周開發完?

派生名額

現在,小白需要的原材料都有了,業務需求怎麼解決呢?

需求拆解

看了一遍Dataphin操作視訊,小白嘗試将之前整理的需求對号入座,按照One Data方法論:

派生名額=原子名額+統計粒度+業務限定+統計周期

小白的第一個業務需求可以這樣實作:

1) 成交金額分布,基于事實模型中的度量(成交金額)、關聯次元(使用者)

  • 派生名額1:使用者最近30天成交金額= 原子名額:成交金額總和 +統計粒度:使用者 +統計周期:最近30天
  • ADS加工:将成交金額分段,再統計使用者數

注冊年限也可類似方式擷取,取到max的注冊時長即可。

2) 不同使用者屬性的分布,基于事實模型關聯的枚舉次元(使用者等級、使用者狀态)、定義限定條件(業務類型)

  • 派生名額2:各等級使用者最近1天數量=原子名額:使用者數計數 +統計粒度:等級 +統計周期:最近1天
  • 派生名額3:各等級的A業務使用者最近1天數量=原子名額:使用者數計數 +業務限定:業務類型為A業務 +統計粒度:等級 +統計周期:最近1天
  • …………
  • 派生名額N,類似方式擷取

ADS無需加工,直接提取對應的名額即可。

小白整理下思路,派生名額定義,follow邏輯大緻如下:

剛入職的資料分析師,上千資料名額,如何1周開發完?

實戰操作

按照這個思路,小白迫不及待使用起來。

簡單準備好原子名額、業務限定,小白就開始建立派生名額了。

快速建立原子名額和業務限定

剛入職的資料分析師,上千資料名額,如何1周開發完?
剛入職的資料分析師,上千資料名額,如何1周開發完?

分鐘級派生名額代碼生成

配置派生名額的過程異常輕松,小白懷疑自己是不是在做夢,感覺就像電腦一樣 —— 不見一行代碼,3步選擇,1鍵生成所需名額。

剛入職的資料分析師,上千資料名額,如何1周開發完?

令人驚喜的是,這裡也有重複性校驗,避免重複的名額開發。

剛入職的資料分析師,上千資料名額,如何1周開發完?

一鍵送出,不到10s,結果就傳回了!4小時的代碼,到Dataphin中,這麼短時間就完成了1/10!

小白不敢相信自己的眼睛,去運維、資料資産、即席查詢界面再次确認了下,發現需求就這麼完成了?!

剛入職的資料分析師,上千資料名額,如何1周開發完?
剛入職的資料分析師,上千資料名額,如何1周開發完?

萬水千山總是情,大家一起Dataphin

小白正在開心地實作需求,突然業務方來新需求,他要的是最近1天、最近7天、最近30天、過去一年每個月的資料……小白心裡一驚,這要多少行代碼啊……轉念一想,有辦法了,隻是變統計周期而已,對于Dataphin隻是多一些統計周期選項而已,誰都可以做啊。小白将派生名額生成過程截圖給業務方,告訴他選哪些選項,業務再沒提需求。2天時間,小白将原計劃一周完成的工作全傳遞了。

經過這次之後,小白發現了Dataphin好用之處,明細模型基本比較穩定,隻要了解了派生名額的奧妙,多少需求都不怕,生成過程又快有穩,業務方也能看懂資料,甚至有些需求都自給自足完成了!作為公司第一批Dataphin使用者,小白也快速實作從代碼搬磚到資料中台專家的轉變——現在的他開始挖掘更多基于Dataphin玩轉的資料開發場景,衍生原子名額、層級次元、虛拟次元、有主鍵事實表……

好的,不說了,小白要繼續和師兄、一個好奇的業務同學一起研究下,怎麼讓業務基于Dataphin更好更快地上雲。

總結

以上事件取自客戶真實實戰場景,某大型傳媒公司通過Dataphin,半年時間完成了如下成果:

• 資料處理平台:基于業務全局的盤點,完成整體資料架構,打通了資料歸集、清洗、計算及存儲,定義了适合業務的資料次元、業務過程、名額,并基于規劃上線2000+個資料計算任務,完成了原系統的多年的結構轉換。

• 資料資産管理平台:基于資料處理平台輸出資料資産大圖,一圖看清資料中心的資料存儲及建設情況,為業務人員提供了全地圖檢索能力,并提供了20+個次元及十個個業務過程及1000+資料表的查詢及展現。

• 營運分析平台:基于産出的資料體系,快速建構資料分析體系,支援200+營運分析業務考核資料報表的開發落地。

• 智能推薦系統更新:基于統一、标準的資料體系,業務場景完成了數十萬的Feed流内容精品池,并在此基礎上完成了千人千人面的算法研發,支援了多種推薦場景,所有的算法任務支援快速變速及調整。

這隻是一個客戶的縮影。基于Dataphin的産品技術能力,每一個客戶都可以有一個面向業務能了解、面向資料生産更經濟、面向開發過程更加高效的資料架構體系,并支撐資料體系靈活擴充,讓業務能快速、全面對業務進行分析和洞察,決策才能更高效、更準确!

延伸

很多客戶都在問,資料倉庫、資料平台、資料中台差別,基于這個場景,筆者的了解供參考:

資料倉庫是20世紀,因經濟快速發展、資訊處理技術飛速發展,面向商業智能場景而出現的概念,它的定義是一個面向主題的(Subject Oriented)、內建的(Integrated)、相對穩定的(Non-Volatile)、反映曆史變化(Time Variant)的資料集合,用于支援管理決策(Decision Making Support)。它奠定了目前資料體系的架構。

資料平台是一個很泛的概念,它可能代表資料計算存儲體系,也可能代表管理資料計算存儲、實作資料倉庫等資料需求的工具套件,根據具體場景定義。但是它的目标一定是實作一站式資料相關企業需求的滿足。

資料中台是這幾年,尤其2019年興起的概念,最早是阿裡巴巴組織架構向中台轉型,提出此概念——業務中台和資料中台雙驅動。雖然每個人都有自己了解,但是筆者認為,資料中台是阿裡巴巴多年大資料實踐的産物,它是基于網際網路飛速發展、大資料常态化等背景下,阿裡巴巴作為一家重視資料驅動業務的公司,親身實踐,在資料倉庫的巨人肩膀上,提出的原創創新概念——通過OneData體系讓資料的建管用全鍊路統一、自底向上的資料體系統一且标準規範,通過實作資料生産及管理效率,進而讓決策更精準、更快速,讓業務創新存在更多可能性。

對于以上三個概念關系,筆者認為:

資料中台=One Data=One Model+One ID+One Service

都9102年了,企業資料建設應該從資料倉庫轉型至資料中台建設,而實作資料中台建設最佳資料平台工具就是阿裡巴巴原創産品Dataphin。

結語:

阿裡巴巴資料中台團隊,緻力于輸出阿裡雲資料智能的最佳實踐,助力每個企業建設自己的資料中台,進而共同實作新時代下的智能商業!

阿裡巴巴資料中台解決方案,核心産品:

Dataphin,以阿裡巴巴大資料核心方法論OneData為核心驅動,提供一站式資料建構與管理能力;

Quick BI,集阿裡巴巴資料分析經驗沉澱,提供一站式資料分析與展現能力;

Quick Audience,集阿裡巴巴消費者洞察及營銷經驗,提供一站式人群圈選、洞察及營銷投放能力,連接配接阿裡巴巴商業,實作使用者增長。

歡迎志同道合者一起成長!更多内容詳見資料中台官網