天天看點

從阿裡雲峰會看一站式資料AI平台的演進

今年因為廣州疫情爆發,沒能到現場參加阿裡雲峰會,隻能線下看直播,從雲原生,資料治理到AI開發範式,智能運維,低代碼開發,無不揭示了雲給大家帶來的價值。可以看到今年所有主題的核心都是圍繞如何為開發者建構高效的範式和架構支撐軟體開發疊代,這也算是回歸了雲的初心。

從阿裡一站式AI平台看清MLOps

雖然這次峰會涉及的主題很多,但最讓我感興趣的還是賈老師的“雲上大資料與AI開發範式的演進”,因為AI後半段是拼地是工程落地能力,如何快速并準确地完成資料治理和模型疊代不僅需要NB的算法人員和方法輪,還需要有完善基礎設施,不然隻能是小作坊式作業。

從阿裡雲峰會看一站式資料AI平台的演進

學過近代史的都知道,小作坊的效率是永遠比不過工業化革命的大工廠的,那麼如何從小作坊變成高效的算法工廠呢?拆解開來,核心是三大塊:

  • 資料治理
  • 算法探索
  • 流程範式

為什麼是這三塊呢?其實從阿裡雲AI平台的布局可以看到,通過大資料與AI一體化平台來推動作為一起模型訓練根源的資料治理工作,通過推出快速體驗的雲端 Jupyter 平台為算法人員快速探索算法,和通過打通機器學習全鍊路的PAI平台将AI工程化能以一種标準的流程範式的形式進行快速落地。

全鍊路資料治理

從阿裡雲峰會看一站式資料AI平台的演進

資料治理可以說是AI大規模落地的最大障礙也不為過。每個公司做算法工程落地地時候發現最多的工作都耗費在各種 kafka 的對接,資料內建,資料加工,資料清洗,資料核驗上面,而圍繞着開發效率優先的工作模式下資料體系快速腐化就變成了一個不可避免的事實了。

資料治理核心是提升資料服務的效率,将工程人員從資料的漩渦中拯救出來,而不是每天面對資料做各種低價值工作。

算法探索神器notebook

相信每個算法開發,甚至大部分 python 開發人員都使用過 jupyter notebook 這款 web IDE,可以說這款 IDE 把互動式地優勢發揮到極緻了,

今天賈老師提出 jupyter web server 的概念其實一點都不奇怪,不管是 google 一直在推的 colab,還是kubeflow 的 jupyter server,本質都是這樣的産品,甚至jupyter server 的功能很早就作為 kubeflow 其除 pipeline 工作流以外最核心的賣點。

一個随時能使用的算法開發環境,這一定是每個算法人員的剛需,同時也是最适合和雲技術結合的,利用雲原生技術可以為算法人員在任何時候提供一個具有足夠資源的完整開發環境,快速開始開發。這确實切入了很多算法人員的痛點。

從阿裡雲峰會看一站式資料AI平台的演進

AI流程範式

從阿裡雲峰會看一站式資料AI平台的演進

說到PAI平台,其實還瞞感慨的,因為16年的時候當時自己也帶團隊做過一個大資料的可視化模組化平台,當時就是參照了PAI平台的界面進行的産品設計,不過這幾年 PAI 平台的快速發展已經完全不是當年那個隻是具有拖拉拽功能的大資料機器學習模組化平台了,逐漸變成一個集可視化模組化、互動式模組化、彈性推理服務為一體的 MLOps 平台。

特别是和雲原生的結合,讓她在給開發者賦能上提供了更多地可能性,其實當年在做可視化平台的時候這個問題就暴露出來,就是完全的可視化操作在靈活性上和适應性上是很差的,這也是為什麼這幾年低代碼平台興起的緣故。

這裡做個大膽地預測,後面阿裡雲 PAI 平台應該會引進 git 的版本管理,徹底将算法工程化全流程打通,通過提供全流程的高效開發為AI工程化鋪路。