天天看點

MVP學院大資料專場之我見(上)

5月24 号在北京阿裡中心舉行了一次MVP學院的大資料專場活動,邀請了阿裡雲和優酷的技術專家進行了三場主題演講,其中有些内容令我印象深刻,曬出來供大家參考。

用AI來管理大資料

像阿裡巴巴這個體量的公司,資料人才也是稀缺資源。假如用人肉的方式來管理和分析資料,一個分析師撐死能能管理上百個作業,服務幾十人的業務團隊。而假如用AI來輔助管理和分析資料,一個分析師能夠輕松管理上萬個作業,服務上千人的業務團隊。

不僅阿裡巴巴集團自用的大資料平台在擁抱AI,在阿裡雲對外輸出的的Dataphin智能資料建構與管理平台中,資料的連接配接和統一ID的萃取、資料分析代碼的生成、模型的和算法的優化都可以自動的完成。

建構技術生态

在會上,曾經在微軟工作過的阿裡雲研究員結合自己的經曆提出了一個技術解決方案四個階段的理論:

  • 第一階段、基于業界有影響力的方案解決自身的問題,阿裡巴巴最初的大資料計算是基于Oracle的,在Oracle無法滿足需求後分别切換到了GreenPlum和Hadoop,這些都是業界有影響力的方案。随着業務的發展,這些方案都遇到了天花闆,于是阿裡巴巴開始進行自研系統的開發,在微軟、Google都有類似的情況。
  • 第二階段、自研核心系統,阿裡巴巴開始自研大資料平台ODPS,從2010年開始在阿裡巴巴集團内部使用。
  • 第三階段、自研核心系統的對外輸出,ODPS從2013年開始對外提供商業服務,2016年ODPS2.0釋出,并将對外的名字改為MaxCompute。
  • 第四階段、建立廣泛生态、以MaxCompute為基礎,流計算平台BLink、機器學習平台PAI、大資料開發平台DataWorks、資料智能産品QuickBI、資料可視化DataV等平台和産品不斷擴充阿裡雲大資料解決方案的适用領域。今天的阿裡雲大資料解決方案就是一個小核心加一個大外圍組成的。

資料本身并不産生價值,計算才能産生價值

阿裡的研究員在談到資料湖的時候表達了兩條個人觀點:

資料本身并不産生價值,計算才能産生價值。

自從大資料這個概念火起來之後,各種大資料平台建的多成功的少,問題可能就出在這個地方,将資料存儲起來并不能産生價值,隻有針對這些資料的挖掘和計算才能産生價值,資料存儲在哪裡并不是核心問題,是以才有:

計算的下推比資料的上報能夠更加高效的擷取價值。

這麼看實體的資料湖可能有些問題,但邏輯的資料湖是有價值的,阿裡雲的資料湖解決方案就是通過統一的管理分散在各種存儲媒體上的資料以及統一配置設定和排程計算工作來實作邏輯資料湖的。

限于個人時間和精力,這次就分享這麼多,下次給大家分享大資料平台最佳實踐相關的内容。

繼續閱讀