DSW 2.0:面向AI研發的內建開發平台
DSW(Data Science Workshop)是阿裡巴巴PAI團隊根據多年的AI算法和産品研發經驗積累,圍繞提高AI算法研發效率,降低研發成本而推出的一款适用于各類AI開發者的雲端機器學習內建開發環境。DSW2.0是借助阿裡雲ECS,Docker和Kubernetes等雲原生技術,能夠在幾分鐘内幫使用者完成環境搭建,相對DSW1.0開放更高的開發權限,滿足各個層面客戶的使用需求。

- 雲原生架構
DSW借助阿裡雲ECS,Docker和Kubernetes等雲原生技術,能夠在幾分鐘内幫使用者完成環境搭建。使用者可以根據算法需要和成本考慮,選擇阿裡雲ECS提供的包括CPU和異構計算GPU在内的所有資源規格。
- 滿足不同層次開發習慣
結合互動式程式設計和指令行輸入,DSW提供了三種程式設計入口: WebIde适用于工程化要求比較高的項目;JupyterLab适用于快速POC試驗;Terminal入口可用于快速執行Shell指令,運作程式和簡單的編輯等。
- 預裝豐富插件
DSW還開發和預裝了各種JupyterLab和WebIDE插件,比如廣受深度學習開發者喜愛的可視化工具Tensorboard,使用者在DSW内通過Launcher,Commands打開,甚至還可以使用%tensorboard魔法指令直接在Notebook中開啟等多種方式使用Tensorboard。不僅支援本地檔案,還可以打開存放在OSS,ODPS裡的訓練日志。針對算法同學使用Python比較多的特點, DSW的WebIDE内安裝了Python插件,可以直接在浏覽器内線上調試,單步跟蹤程式運作。使用者還可以根據需要,自主安裝需要的任意插件。
- 支援多種資料源讀寫
NAS, OSS,雲盤和MaxCompute,尤其是内置了dswmagic魔法指令可以讓使用者在ipynb檔案中使用SQL語句讀寫MaxCompute表中資料,預置的SQL編輯器支援文法高亮、智能提示、自動補全等功能,還支援運作帶變量替換功能的Sql腳本。查詢結果自動以最友好的圖形化展示。
Alink:流批一體機器學習算法平台
Alink擁有豐富的批式算法和流式算法,能夠幫助資料分析和應用開發人員能夠從資料處理、特征工程、模型訓練、預測,端到端地完成整個流程。Alink提供的功能算法子產品中,每一個子產品都包含流式和批式算法。比如線性回歸,包含批式線性回歸訓練,流式線性回歸預測和批式線性回歸預測。另外,Alink算法覆寫分類、回歸、聚類、評估、統計分析、特征工程、異常檢測、文本、線上學習、關聯分析等經典領域,是一個通用的機器學習算法平台。
- 算法性能
我們從下圖中可以看出在回歸算法中,Alink算法性能最高優于Spark 1.38倍;分類算法中Alink大多數算法性能優于Spark,最高優于2.52倍;聚類算法Alink算法性能最高優于Spark 1.85倍;協同過濾Alink算法性能最高優于Spark 2.26倍。
Flink VS Spark算法性能
- 更友好的互動式體驗
我們提供兩種使用者使用界面:web和PyAlink。Web界面提供拖拽的方式建立試驗,通過對每一個元件進行配置完成整個試驗的參數配置。在各個算法節點旁,我們用閃爍的小燈泡💡表示“運作中”的狀态,用對勾✅表示“運作完成”的狀态。一般情況下,隻有批式(batch)元件才有可能運作結束。基于各個元件的運作狀态,可以十分友善地判斷目前實驗運作到了什麼程度。
同時為了滿足腳本使用者的需求,我們提供了PyAlink on notebook,使用者可以通過PyAlink的python包使用Alink。PyAlink支援單機運作,也支援叢集送出。并且打通Operator(Alink算子)和DataFrame的接口,進而使得Alink整個算法流程無縫融入python。PyAlink也提供使用Python函數來調用UDF或者UDTF。
阿裡雲機器學習PAI是覆寫人工智能全鍊路的産品家族,自上線以來,受到廣大AI開發者的喜愛,經過千錘百煉,證明不僅适合個人和團隊研發,也支援大規模算法競賽和教育教育訓練。本次重磅釋出的PAIDSW2.0和商業版Alink緻力成為最懂使用者的輕量化AI服務,包含資料處理、模組化、訓練、模型優化、線上預測等多種産品版塊,為使用者提供一站式體驗服務。
釋出會傳送門 産品詳情