天天看點

雲端IDE:阿裡雲機器學習與PAI-DSW | 《阿裡雲機器學習PAI-DSW入門指南》

點選即可參與機器學習PAI-DSW動手實驗室 點選可下載下傳完整電子書《阿裡雲機器學習PAI-DSW入門指南》

經過20年的快速發展,阿裡經濟體已經組建了一個龐大的商業生态圈,并在支付、雲計算、本地生活服務等行業保持網際網路巨頭地位。2020财年交易額突破1萬億美元,全球第一家;阿裡雲支撐了2019年雙11 期間峰值 54.4 萬筆/秒、單日資料處理量達到 970PB 的世界級的流量洪峰,成為業界第一個實作此壯舉的雲計算公司。

阿裡雲機器學習平台正是伴随着這樣龐大而複雜的阿裡經濟體業務成長起來的。下面我們将帶着大家掀開阿裡雲機器學習技術大圖的一角,看看阿裡雲機器學習,特别是機器學習工程上的發展、沉澱和創新。

阿裡雲機器學習技術大圖

我們從使用者和技術的兩個角度來梳理阿裡雲機器學習的技術體系大圖。從使用者的角度來說,根據使用機器學習的深度不同,在雲栖大會上,我們展示了飛天AI平台的技術分層關系:

雲端IDE:阿裡雲機器學習與PAI-DSW | 《阿裡雲機器學習PAI-DSW入門指南》

(注:不是一個完整的産品清單,而是一些核心的樣例)

從技術的角度說,機器學習從算法到底層的硬體,都涉及到不同的技術方向。下面是我們對于核心技術能力上的一個總體描述:

雲端IDE:阿裡雲機器學習與PAI-DSW | 《阿裡雲機器學習PAI-DSW入門指南》

每個技術方向上都形成各自的布局和沉澱,接下來我們會重點講述作為機器學習重要組成部分的工程能力體系建設。

阿裡雲機器學習工程能力體系

阿裡雲在機器學習工程體系建設上,也經曆了各領域業務需求驅動和技術驅動分階段螺旋式遞進上升的過程。由最初的通過傳統機器學習算法進行資料價值的粗加工,到今天以深度學習為主、支撐各類“行業大腦”解決方案的人工智能工程體系。

阿裡雲的機器學習工程能力體系建設始終圍繞着更高效的融合人工智能三要素(算法、資料、算力)進行展開,即追求不斷提升整個工程體系中的計算效率、資料效率以及工程效率,進而能夠更好的支撐阿裡經濟體各方面業務快速發展的需求,并通過阿裡雲對外進行技術輸出,推動人工智能領域的技術變革,産生更大的社會效益,實作普惠人工智能。

經過多年的發展創新,阿裡雲在AI托管平台技術層進行了系統性的建設,極大提升了算法研發、共享、部署、輸出的效率,在此基礎上沉澱出多個具有使用者粘性和場景差異化的開發平台,這裡我們選取阿裡雲機器學習PAI(Platform of Artificial Intelligence)作為代表來着重來介紹。

PAI是一款覆寫機器學習全流程的一站式機器學習平台産品,集資料預處理、特征工程、自動調參、模型訓練、線上預測為一體,為使用者提供低門檻、高性能的雲端機器學習服務。

PAI相關技術脫胎于阿裡集團内數十個BU的上千個業務體系,沉澱了大量的覆寫各個領域的優質分布式算法、架構、平台等,同時也在不斷完善和擴充機器學習生态。

雲端IDE:阿裡雲機器學習與PAI-DSW | 《阿裡雲機器學習PAI-DSW入門指南》

阿裡雲機器學習PAI-DSW

作為在AI戰線上辛勤耕耘的算法工作者,你是否也常常遇到下面的情形:

算法需要運作在GPU上,可是長時間申請不到GPU機器,隻能幹着急。

終于GPU機器申請到了,卻不能馬上開始使用,需要先安裝GPU驅動和各種依賴等等,感覺有些浪費時間。

好不容易機器環境弄好了,可當某天更新算法代碼後變得很慢, 排查半天才發現是GPU驅動需要更新更新檔,很是無奈。

生産環境機器網絡隔離,線上上要debug代碼,隻能使用GDB在指令行進行,開發效率大大降低。

在本地采用PyCharm這樣的IDE開發好代碼,而資料在生産環境,不允許下載下傳,隻能把代碼拷貝到線上機器運作,發現問題後,又得回到本地修改調試後再來一遍,非常不便。

PAI Studio采用圖形化拖拽式,像搭積木一樣分分鐘就建構一個完整的工作流,很炫酷。 但想要定制釋出自己的元件時,卻不知從何下手。

在長期與算法工程師同學溝通合作的過程中,我們發現了算法工程師面臨的這些問題。提升機器學習工程效率,降低人工智能使用門檻,急需一個簡單、輕量、好用的工具平台,進而讓算法工程師更加專注于模型設計本身。PAI DSW(Data Science Workshop)就是PAI團隊為解決算法工程師的以上痛點,新推出的一款雲端機器學習開發IDE。

PAI-DSW內建了Jupyterlab、WebIDE等多種開源項目,在阿裡巴巴集團内上百個BU和上千名工程師的打磨之下性能和功能上都進行了一定的調優。資料上打通了ODPS等多個資料源,友善使用者在構模組化型的時候免去重新建構資料管道的工作。同時,在深度學習上,PAI-DSW内置了Tensorboard,可以通過簡單的拖拽的方式來幫助深度學習的開發者更好的完成深度學習場景下神經網絡的模組化。下圖展示了DSW在機器學習平台PAI産品架構中的位置:

雲端IDE:阿裡雲機器學習與PAI-DSW | 《阿裡雲機器學習PAI-DSW入門指南》

(DSW在機器學習平台PAI産品架構中的位置)

簡單來說,PAI-DSW可以實作多執行個體、多環境,GPU/CPU資源、JupyterLab、WebIDE以及全屏使用Terminal無幹擾工作。目前PAI-DSW已經向所有阿裡雲的使用者免費開放了探索者版,隻需要登陸阿裡雲然後打開

https://dsw-dev.data.aliyun.com/#/

即可即刻開始雲上資料科學之旅。本書後面兩個章節将詳細介紹如何使用PAI-DSW這一簡單好用的工具。

繼續閱讀