天天看點

數加:從資料工程師到CDO的七次升職路

2017雲栖大會深圳峰會,阿裡雲進階産品專家陳鵬宇帶來題為“數加:邁向資料智能之路”的演講。本文引入一個資料工程師到首席資料官的七次升職過程,闡述了阿裡大資料的進化史,其中包括quick bi、datav、pai、公衆趨勢分析、maxcompute & data ide以及推薦引擎等都進行了詳細的解析,一起來了解下吧。

以下是精彩内容整理:

大資料實踐之路并不像新聞描繪的高大上,很多企業仍然還沒有解決看資料的問題,下面我會結合自身的體會,以一個虛拟人物的形象來描述如何一步步把企業大資料應用水準從早期的bi看資料一直到資料化營運到後來建立資料中台營運資料、激發資料創新的過程,在此過程中,數加也完成了它的使命,即幫助開發者在大資料方面實作升職加薪。

那麼,小d是如何實作七次升職,從資料工程師到首席資料官cdo的呢?

第一份工作

數加:從資料工程師到CDO的七次升職路

老闆需要一份經營報告,看過去一年各地區的新使用者發展情況。小d熬了一個通宵将資料用腳本拖到臨時資料庫中,寫了幾十條sql并生成一份報表交給了老闆,并獲得了表揚。

數加:從資料工程師到CDO的七次升職路

而老闆/業務人員的需求越來越難滿足,他們會不停地要經營報告、會員分析等,小d自己是處理不完這些事情的,是以就會請資料開發工程師幫忙提資料,工程師需要考慮搭建資料倉庫,考慮從源資料找各種資料,了解資料含義、梳理資料結構并重新加工清洗,過程中經曆幾次的傳遞,出報表時可能以及不符合老闆需求,同時周期特别長,是以小d就會過着跟需求作鬥争的苦日子,所有人都會跟他要報表。

是以小d突然醒悟:我缺一個能解放雙手的工具!

第一次升職

<b>數加·</b><b>quick</b>

bi

數加:從資料工程師到CDO的七次升職路

數加quick bi就是專門為解決人肉提數人的痛苦而誕生的,它可以做到在30分鐘内,老闆也能上手的bi。

數加:從資料工程師到CDO的七次升職路

報表加工過程零sql,直接連接配接到資料源庫,拖拽式,類excel多元分析

,告别臨時拖資料,該過程簡單好用,不用寫sql就可以将看資料門檻降的很低。

數加:從資料工程師到CDO的七次升職路

quick bi是到阿裡雲上的,可以很友善地連接配接雲上的各種資料源,包括redis、ads、hybriddb等所有的雲上資料庫,點點滑鼠就出資料了。

數加:從資料工程師到CDO的七次升職路

quick bi之是以能做到直連資料源做分析,是因為背後有很強大的olap引擎,提供秒級别的查詢響應,針對不同的查詢規模,提供合适的加速服務,進而獲得最快的響應速度。

數加:從資料工程師到CDO的七次升職路

quick bi快捷好用,預置了很多模闆,采用可視化模闆,快速設計儀表闆,為各部門搭建資料門戶,基本一天可以搞定。

數加:從資料工程師到CDO的七次升職路

quick bi報表可以嵌入系統自身營運系統中,可以把報表嵌入公司的portal,友善大家集中看資料。

在quick bi的幫助下,可以實作将需求響應速度從“1周”縮短到“1小時”。

但目前為止,小d仍然沒有得到解放,他依然在做報表,響應速度越快,需求方給的需求就越多,小d就會越累。有一天小d生病了,資料處理不過來時,可能就需要将quick bi賬号給需求方,讓他們自己做。

數加:從資料工程師到CDO的七次升職路

需求方按照小d教的方法,真的自己把報表做出來了。

數加:從資料工程師到CDO的七次升職路

各部門紛紛效仿,連系統工程師都開始使用 quick bi!quick bi for 萬網,cdn,dms,阿裡雲企業控制台,…

從此以後,公司裡的每一個業務人員,包括大老闆,都使用 quick bi 做資料分析!

數加·quick bi 把小d從提數工作中解放出來,伴随着資料分析效率的提升,小d迎來了第一次升職。人閑了之後,開始長出藝術細胞,小d開始琢磨着如何更好地展現資料?

第二次升職

<b>數加·</b><b>datav</b>

數加:從資料工程師到CDO的七次升職路

datav做出了阿裡雙十一震撼的實時業務大屏,小d想嘗試如何用更直覺、更震撼的方式呈現資料。

數加:從資料工程師到CDO的七次升職路

春節的紅包大戰給了他機會,小d的第一個可視化大屏作品誕生了。上司特别滿意,當場給我發了1萬元紅包,但小d想要更美的方式!于是…他做了各種嘗試:

<b>實時指揮監控</b>

數加:從資料工程師到CDO的七次升職路

<b>業務營運大圖</b>

數加:從資料工程師到CDO的七次升職路
數加:從資料工程師到CDO的七次升職路

直到有一次國家領帶來訪,ceo給國家上司作了一次精彩的彙報,小d深受鼓舞原來自己身上有辣麼多藝術細胞。

于是,他買了datav開發者版,開始想着如何賺外快。比如:

<b>企業概況</b>

數加:從資料工程師到CDO的七次升職路

<b>工業物聯網</b>

數加:從資料工程師到CDO的七次升職路

<b>稅收分析</b>

數加:從資料工程師到CDO的七次升職路

<b>智慧城市</b>

數加:從資料工程師到CDO的七次升職路

datav 幫小d賺了很多外快,心有戚戚,總想着為社會做點貢獻:

<b>2017/01/23-22</b><b>時空氣品質</b>

數加:從資料工程師到CDO的七次升職路

<b>全球象牙走私犯罪活動資料</b>

數加:從資料工程師到CDO的七次升職路

數加·datav 讓我看見資料之美,在提升公司格調的同時,小d也迎來了自己的第二次升職。

第三次升職

美好時光總是波瀾不驚…直到某個周末,突然間,負面新聞鋪天蓋地而來。

數加:從資料工程師到CDO的七次升職路

一次負面新聞被炒作擴散了,該從哪着手分析呢?這時就需要一個手段,能夠快速的幫他對負面事件的影響和傳播情況進行預判和控制,這就需要輿情監控工具的幫助。

<b>數加·公衆趨勢分析</b>

數加:從資料工程師到CDO的七次升職路

公衆趨勢分析可以時刻關注您的口碑,它可以直覺的看到事件造成的影響面和傳播效果。

數加:從資料工程師到CDO的七次升職路

我們可以看到是誰在傳播輿論,共計轉發次數和每層轉發次數,是否被衰減,過程中有沒有水軍參與等,都可以一目了然。

數加:從資料工程師到CDO的七次升職路

還會對影響面進一步分析,擴散範圍有多大等等

數加:從資料工程師到CDO的七次升職路

也會對公衆對此事件感受如何作分析,在不同階段,公衆整體對事情的認知,會有博弈、會有專家跳出來,也有公司公關部門參與,我們可以用從情感值的變化來看公司公關采取手段是否有效。

數加:從資料工程師到CDO的七次升職路

通過公衆趨勢分析,我們總結出來以上幾種輿情擴散模式。

公衆趨勢分析主要從四方面為大家提供友善:

監測:2分鐘更新一次大中型網站資料;涵蓋全球網絡媒體,千萬源站,20億網頁(包含境外主流新聞網站資料來源);高效、穩定的爬蟲技術及平台支撐;

預警:負面輿情自動預警;

分析:輿情精準比對;精準算法将資訊自動聚類;情感正負面分析;熱詞雲圖,專業圖表報告;

跟蹤:輿情事件跟蹤。

數加:從資料工程師到CDO的七次升職路

利用公衆趨勢分析可以做很多很多事情,比如:

傳媒行業:發現事件熱點,梳理傳媒脈絡,跟蹤欄目閱聽人的喜好傾向,鑒别新聞炒作

企業品牌:分析消費者對品牌的認知和注意力遷移,關注競品分析,塑造品牌口碑

旅遊行業:傾聽遊客回報,預判旅遊出行趨勢和熱門程度,提升旅遊服務的體驗

數加·公衆趨勢分析

賦予我千裡眼、順風耳,在挽回公司口碑的同時,小d實作了第三次升職。

第四次升職

此次負面新聞使得使用者粘性下降了,老闆要我出一個提升業績的方案。

數加:從資料工程師到CDO的七次升職路

小d給老闆建議做内容社交,先從新聞推薦做起。本來這就是嘗試性的事情,對于創業公司投入太多精力是不劃算的,是以小d用了數加推薦引擎。

<b>數加·推薦引擎</b>

推薦引擎21天搭建個性化推薦系統,在新聞場景中推薦引擎提供了哪些能力?具體如下:

1.        

新使用者冷啟動:通過阿裡雲提供的海量使用者人群特征提供最精準的推薦服務,為企業解決新客戶的冷啟動推薦;

2.        

新聞智能分類:通過自然語言處理(nlp)、深度學習為新聞實作自動打标,并分類;

3.        

使用者興趣畫像:基于新聞内容、使用者屬性、使用者行為三類資料,進行特征提取,輸出使用者興趣畫像、品類畫像、新聞畫像;

4.        

新聞實時推薦:新新聞毫秒級推薦(實時修正),老使用者毫秒級推薦(線上推薦),新使用者2~3分鐘推薦(近線推薦)。

推薦引擎真的很簡單,按照開題服務——上傳資料——配置推薦場景算法——api對接——檢視效果報表的流程實作。

除了新聞推薦,還做了短視訊、音樂、内容社交和群組等。我也推薦給朋友們用:

<b>好看鎖屏</b>

數加:從資料工程師到CDO的七次升職路

<b>大麥網</b>

數加:從資料工程師到CDO的七次升職路

以大麥網安卓用戶端為例,圖中為已有的個性化推薦。

<b>短視訊推薦</b>

數加:從資料工程師到CDO的七次升職路

數加·推薦引擎讓我第一次感受算法的魅力,成功啟動内容社交的同時,小d獲得了第四次升職。

第五次升職

後來小d驚喜地發現:數加·推薦引擎

居然支援自定義算法,但小d沒有學習過算法,機器學習pai恰巧可以解決問題。

<b>數加·</b><b>pai</b>

資料分析師 + 數加·pai = 資料科學家

數加:從資料工程師到CDO的七次升職路

不需要很深入的了解,隻需要算法的關鍵參數配置,了解應用場景,經過1天的學習,很快就可以上手了。pai提供了資料預處理、特征工程、機器學習模型訓練和模型評估等方面整個過程的包裝。

數加:從資料工程師到CDO的七次升職路

了解後,小d開始用算法解決社交場景中的難題:

利用關系挖掘算法k-core找出社交關系鍊中的粉絲領袖

通過掌握粉絲領袖的屬性特點可以快速實作整個粉絲群體的人物畫像

通過标簽傳播算法,可以分析社交鍊路中的情感傳播模式,對微網誌大v的正面情緒或者是負面情緒在整個粉絲鍊中的傳播效果進行預判

通過最大聯通子圖和最短路徑算法,可以将社交鍊路中的人脈關系按照一度人脈、二度人脈準确分類

數加:從資料工程師到CDO的七次升職路

阿裡雲機器學習(pai)有最全的分布式算法庫,支援流行的深度學習架構,阿裡自己也會有深度學習的算法。同時,pai天池算法大賽已經有數萬名選手參加,這裡才是最強大腦。

數加:從資料工程師到CDO的七次升職路

數加·機器學習pai 讓分析師也會用算法,提升資料化營運能力的同時,小d實作了第五次升職。

第六次升職

公司的社交網絡越做越大,老闆開始想要收入了,從流量變現開始。

數加:從資料工程師到CDO的七次升職路

我們自己研發的營銷系統,很快遇到了瓶頸。比如:

性能不達标:高并發通路,整個廣告過程要求小于100毫秒

營銷效果不佳:資料積累不夠,算法效果一般

實時優化與海量資料的沖突:資料量日益龐大,但廣告優化的實時性要求不減

工程量及運維挑戰:開發和運維的人力投入成本較大

我們不想過多的經曆解決技術問題,隻關心流量問題,是以嘗試了數加營銷引擎。

<b>營銷引擎</b>

數加:從資料工程師到CDO的七次升職路

營銷引擎将原來流量系統遷移到新版流量系統中,對接的第三方投放系統也可以自己來做,3天可以搭建高水準的dsp系統。

數加:從資料工程師到CDO的七次升職路

營銷引擎提供了所有基礎的能力和功能,整個過程隻需要一個人,2天半時間就可以将全新的營銷系統搭建起來。

數加:從資料工程師到CDO的七次升職路

營銷引擎提供很多技術能力,效果得到顯著提升。

數加:從資料工程師到CDO的七次升職路

最終給客戶形成完整的、帶資料的、自有的廣告營銷平台。

數加:從資料工程師到CDO的七次升職路

營銷引擎(open ad)為企業搭建自有dsp、adn、dmp系統,提供穩定可靠有效的競價、投放、閱聽人定向、ctr預估、效果優化等核心能力。以api及源碼的形式提供。

數加·營銷引擎讓我們看到流量變現原來可以這樣玩,在幫助公司盈利時,小d又一次實作了升職。

第七次升職

内部資料已經形成了脆弱的生态系統,深層次問題浮出水面,比如規模達到pb級,算不動了;存儲和計算成本越來越高;平台穩定性差;同一份資料被重複存儲和計算;幾千份代碼不好管理等。

數加·maxcompute &amp; data ide可以幫助資料官搭建底盤。

<b>數加·</b><b>maxcompute</b>

&amp; data ide

數加:從資料工程師到CDO的七次升職路

簡單易用的數倉開發套件 data ide,從找表開始,到申請權限,設計工作流,支援跨團隊合作,再到釋出監控,包括資料品質的監控等。

數加:從資料工程師到CDO的七次升職路

整個資料加工處理的過程就是傳統的數倉,數倉的建設是一個疊代的過程,快速建構基于雲的資料倉庫,可以支援機器學習pai算法的挖掘、bi的olap等。

形成【資料中台】體系,支撐資料應用快速創新,需做到以下三點:

統一平台,資料大集中:統一的存儲,統一的計算引擎,統一的資料開發平台

資源共享,彈性配置設定:基于odps多叢集技術,由數以萬計的伺服器提供超級計算能力,按需彈性配置設定給各資料開發團隊

資料隔離,分權管理:基于odps多租戶機制,各部門可獨立管理自身的資料,獨立做資料授權

數加:從資料工程師到CDO的七次升職路

實作統一平台後,就可以做資料安全、資料品質、資料成本的管理,我們的算法模型、資料等都是可以共享的。中台上面支撐的業務是一個存——通——用的過程。

數加:從資料工程師到CDO的七次升職路

所有行為的背後都是有數加引擎支撐,maxcompute是資料倉庫的基石,analyticdb可以讓資料探查變得自由等。

依附數加·計算引擎大資料的百年根基,搭建資料中台,自此,小d完成了到cdo的轉變。

繼續閱讀