天天看點

阿裡巴巴飛天大資料平台機器學習PAI最新特性

本文作者:郁環宇,阿裡雲智能計算平台事業部産品經理

以下内容根據演講視訊以及PPT整理而成。

本次分享主要圍繞以下五個方面:

• PAI産品簡介

• 自定義算法上傳

• 數加智能生态市場

• AutoML2.0自動調參

• AutoLearning自動學習

一、PAI産品簡介與功能發展

  1. PAI-Studio

    在PAI的架構圖中,最下層的是PAI的計算架構和資料資源。PAI可支援MaxCompute、OSS、HDFS和NAS等多種資料資源。在資料資源和多種計算架構基礎之上,誕生出了PAI的最早形态:PAI-Studio——可視化模組化實驗平台,Studio中包括了兩百多種算法,覆寫了資料預處理,特征工程,模型訓練,評估預測等全鍊路的實驗流程操作。使用者可在PAI-Studio中以拖拽的方式建構實驗,而無需複雜的操作。此外,PAI内置了鲲鵬計算架構,可支援百億特征,百億樣本的超大規模矩陣訓練。在最初建立過程中,PAI-Studio的定位目标為中級的算法工程師,即一個不需要很高的技術門檻就可以上手使用的算法平台。有了可視化模組化Studio,PAI就可以擁有為使用者提供業務支援,如建構推薦系統、金融風控、疾病預測或新聞分類等的能力。

阿裡巴巴飛天大資料平台機器學習PAI最新特性
  1. PAI-EAS

    然而,從Studio中算法和實驗的建構,到真正成為使用者可用的模型服務,其中間還存在一個gap,即如何将模型部署為線上服務。使用者一般需要耗費較大的精力在此之上。為了解決這個問題,PAI平台随後推出了PAI-EAS模型線上服務功能,為使用者提供EAS線上服務的一鍵部署功能,大大簡化操作,連接配接模型建構與生産服務。除了一鍵部署,PAI-EAS模型線上服務功能還支援版本控制、藍綠部署和彈性擴縮容等特性功能。通過PAI-EAS模型線上服務,使用者可以友善的進行建構實驗,并将模型進行線上部署,最後應用到實際業務當中。

  2. PAI-DSW

    在PAI之後的發展過程中,出現了新的需求,即有的工程師希望在整個實驗建構過程中有更大的自主發揮空間。為此,PAI推出了PAI-DSW版塊,其特點是使用notebook進行模組化,PAI-DSW内置了Jupyter的開發環境,繼承了深度優化的TensorFlow,并且可以可視化編輯神經網絡。由需求的初衷不難發現,PAI-Studio和PAI-DSW最大不同點就在于它為擁有更多算法背景技術的工程師提供更大的發揮空間,是以适合于進階的算法工程師。

  3. PAI-AutoLearning

    在解決了進階、中級算法工程師的需求之後, PAI又進一步推出了專門為初級算法工程師量身設計的全新PAI-AutoLearning功能(詳細功能特性會在下文介紹)。繼而,擁有不同的算法能力的工程師都可以通過PAI找到适合自己使用的産品類别。

  4. 智能生态市場

    通過以上PAI的功能版塊,使用者可以根據自身特點迅速找到适合自己的闆塊,并快速部署服務到業務中去,但這些都是需要使用者自身來開發完成。随着AI行業應用的不斷發展,如何讓借助他方的能力、智慧,來快速解決自己的業務需求,又成為了一個新的問題解決思路。為此,PAI推出了——智能生态市場功能版塊。使用者可以在智能生态市場中尋找自己業務問題的解決方案(如模型、算法或者應用等),快速擷取能力,避免了不必要的開發人力資源的耗費。反之,擁有對應技術的開發人員或公司,又可以在智能生态市場中一展才能,售賣釋出商品,并擷取相應回報及品牌。

二、自定義算法上傳

自定義算法上傳是PAI-Studio内的一個功能。機器學習在實際的應用過程當中,有千萬種與行業結合的可能性和應用場景,使用者會有一些個性化的需求。盡管PAI-Studio為使用者提供了兩百多種算法元件,但依然不能滿足每一個使用者的每一個需求。通過自定義算法上傳功能,使用者可以開發自己的算法元件,友善後續使用。

• 自定義算法上傳特性

自定義算法上傳包含三個特性。首先,自定義算法上傳功能相容Spark生态,支援Spark和PYSpark架構,在這個架構下使用者可以任意開發自己所需要的算法。其次,自定義算法上傳功能支援便捷釋出。為了避免在自定義算法釋出過程中,花費的精力大于最終帶來的效率收益,PAI在自定義算法上傳功能設計的過程當中,着重強調便捷釋出,提供分鐘級的算法釋出體驗。自定義算法上傳第三個特性是可視化配置。從上傳算法包,到真實的拖拉拽PAI-Studio中可使用元件,其中還包含一個步驟,既配置元件的算法參數以及相關配置。PAI為使用者提供了可視化的線上操作配置的方式。

阿裡巴巴飛天大資料平台機器學習PAI最新特性

三、數加智能生态市場

1.智能生态市場角色

智能生态市場是大資料和AI領域的一個淘寶平台,其最大的作用是連接配接了開發方和業務方。在此之前,開發方有自己的能力和技術,業務方有需求和想要解決的問題。但兩方一直沒有辦法很好的連接配接在一起,通過數加智能生态市場平台,将開發方的技術和業務方的需求進行對接,兩方都可以通過平台擷取利益。首先,開發方可以打通産品快速釋出售賣,收獲品牌效益,同時掌握市場動态需求。另外,業務方可以通過智能市場更便捷的擷取适合自己的業務解決方案。同時降低探索新業務的成本,還可以擴充基礎事業,快速實作公司技術的優化。

阿裡巴巴飛天大資料平台機器學習PAI最新特性

如下圖,在智能生态市場鍊路出現以前,使用者隻有兩種建構業務解決方案的途徑,一個是通過自己使用機器學習PAI來開發,其中包括實驗的建構、模型部署和應用等步驟;二是選擇行業ISV,ISV通過在行業中的經驗為客戶建構出不同的,可部署在實際業務中的模型,解決客戶的業務需求。但這兩種方案的前者需要投入較大的人力成本,後者需要較大的财力成本。有了數加智能生态市場之後,使用者可以選擇第三條平衡人力和财力成本的新途徑,通過向算法模型開發者購買最新的模型或者解決方案,解決自己的實際業務問題。這是加智能生态市場所建立的功能目标,以及它可以為客戶和開發者帶來的價值。

阿裡巴巴飛天大資料平台機器學習PAI最新特性
  1. 數加智能生态市場的子版塊

    數加智能生态市場包括四大闆塊。首先,在市場闆塊中使用者可以進行大資料智能商品的買賣交易。既有業務需求的使用者可以找到業務問題的高效解決方案,開發者可以通過技術的傳播和共享,擷取回報和品牌效益。第二個闆塊是教育訓練闆塊,教育訓練闆塊可以提供市場相關平台的使用指導和案例講解,為使用者提供實用的教育訓練,快速上手大資料的智能業務,實作快速入門。第三個闆塊是認證闆塊,主要面向開發者同學。在認證闆塊中開發者同學可以擷取Apsara Clouder技能的認證證書,通過認證提升開發的專業技能,并獲得官方資格的評定。第四個闆塊是論壇版塊,大資料智能使用者以及相關興趣愛好者都可以在論壇互相交流,擷取最新的前沿技術和知識。

通過以上四個闆塊,建構了一個有機生态圈。智能生态市場為使用者提供教育訓練,為開發的同學提供認證。使用者和開發同學之間通過市場建立互相買賣的交易關系,并且擷取各自的需求。同時三者之間可以構成一個論壇的有機生态。

阿裡巴巴飛天大資料平台機器學習PAI最新特性
  1. 商品釋出流程簡介

    下圖是數加智能生态市場主界面。開發者通過主界面進行賣家入駐,填寫個人資訊,送出稽核。通過稽核之後,賣家擁有了在市場上售賣商品的資格。賣家可以進行商品釋出,首先選擇商品的種類,如釋出解決方案商品,輸入商品名稱,商品介紹以及來源管道。在來源管道裡中填寫商品的跳轉連結,由于解決方案商品屬于比較開放式的商品的類型,開發者可以釋出自己相關的名片,友善更進一步的溝通和聯系。此外,還可以在數加智能生态市場中釋出算法商品。算法商品和自定義算法上傳功能是相通的。自定義算法上傳配置完之後有一個釋出按鈕,點選釋出按鈕就可以釋出到數加智能生态市場。商品通過稽核之後,可以點選上架操作,上架操作完成之後頁面中生成一個商品的智能客服機器人,其中已經預置了商品的基本問答,在客戶想要來了解商品資訊時,可以通過智能客服機器人進行初步的商品資訊擷取,若智能客服機器人無法提供足夠的資訊量,還可以通過預留的釘釘号進行進一步的溝通聯系。

阿裡巴巴飛天大資料平台機器學習PAI最新特性

四、AutoML2.0自動調參

1.AutoML2.0特性

AutoML自動調參功能是PAI-Studio中的核心功能。PAI-Studio可以進行可視化的模組化操作,但模型建構好之後,如何進行參數調整,并達到最好的實驗效果,是使用者經常面臨的問題。AutoML即以此為目的,解決實驗的調參問題。AutoML2.0自動調參功能包含三大特性。首先是一鍵自動調參數,包括自動調整參數、模型評估和模型傳導。此外,AutoML2.0支援七種調參算法,如GritSearch、Random Search、PBT、Gause、Evolutionary等常見的調參算法。實踐證明,AutoML2.0可以幫助使用者節省90%的工作量,大幅降低了使用者在建立機器學習模型過程中所花費的時間以及人力成本。

阿裡巴巴飛天大資料平台機器學習PAI最新特性

2.自動調參實踐示例

在這裡,我們選擇GBDT回歸模型來進行調參,在自動調參的界面配置中選擇資料的拆分比例,一部分資料用于訓練模型,其餘資料用于模型的評估。AutoML2.0現在可支援的七種調參方式,包括Gause、PBT、SAMPLE、随機搜尋、方格搜尋、自定義搜尋以及Evolutionary優化調參方式。這七種調參方式已經涵蓋了目前主流的調參方式。這裡我們選擇Evolutionary 優化調參方式,下面需要配置Evolutionary 優化調參方式所需要配置的搜尋的樣本數目,探索次數,收斂系數,定義參數範圍。配置結束後,便會自動生成模型,示例中一共生成了11個模型,那如何從11個模型中選擇最好的模型?自動調參頁面中為使用者提供了選擇的标準,MAE,既通過MAE對生成的模型的品質高低進行排序,使用者可以儲存前幾名模型,進行進一步的操作。

阿裡巴巴飛天大資料平台機器學習PAI最新特性

如下圖,在自動調參詳情頁可以看到多次疊代之後,對模型效果的改善是非常直覺的。随着疊代次數的逐漸增加,模型的效果越來越好。縱坐标是MAE值,MAE值越低,代表模型的誤差越低。随着疊代次數上升,模型的品質也越來越高,這證明了AutoML調參功能的有效性。

阿裡巴巴飛天大資料平台機器學習PAI最新特性

五、AutoLearning自動學習

1.AutoLearning特性

PAI-AutoLearning自動學習功能是PAI最新推出的功能之一。在AutoLearning自動學習功能出現之前,PAI中的PAI-Studio,PAI-DSW分别為中級算法工程師和進階算法工程師對應解決了他們的實驗建構需求。而PAI-AutoLearning則通過提供小白級、零門檻的一個工具,解決了初級或入門級算法工程師的實驗建構需求,使更多的人參與到機器學習,使用機器學習為自己的業務帶來價值。AutoLearning自動學習功能有以下亮點。首先是零門檻使用,即功能開箱即用,對于小白同學特别友好。其次是最低基于5張圖檔就可進行一次學習。通過強大的遷移學習架構,PAI-AutoLearning可實作少量資料的有效學習,學習訓練的結果依然非常出色。第三個亮點是AutoLearning實作了一站式解決方案。一站式包括從資料标注、模型訓練、模型部署的整個過程,幫助小白使用者也可以快速地入門機器學習的實際應用。

阿裡巴巴飛天大資料平台機器學習PAI最新特性
  1. AutoLearning自動學習使用執行個體

    在AutoLearning自動學習功能闆塊,點選從模闆建立。模闆建立是适用于新手快速入門的一個功能體驗,使用者可以迅速的體驗到整個自動學習的功能特性。頁面中預置好了實驗中需要的訓練資料,如圖檔分類實驗,資料集中包含不同的動物種類,通過訓練可以生成準确識别動物種類的深度學習的模型。

阿裡巴巴飛天大資料平台機器學習PAI最新特性

首先,在深度學習訓練之前需要對深度學習算法提供有效的資料。有效資料需要對資料進行标注。是以,第一步是對資料的打标,AutoLearning自動學習闆塊内置內建資料标注功能,幫助使用者快速的進入資料打标。第一步是在圖檔中添加标簽,動物種類包括羊駝、馬和騾子,快速勾選同一類的動物,将其标記為羊駝,馬或騾子。在開始訓練頁面中輸入訓練時長,訓練時長是決定最終模型訓練效果的一個關鍵的因素,訓練的時間則越長模型效果越好。Auto Learning闆塊特色是可以在短時間内快速訓練出較為精準的模型,隻需十分鐘就可以訓練出一個訓練分類效果不錯的模型。相比于傳統深度學習模型訓練這點的改進非常明顯。

此外,開始訓練頁面中另外一個選項是增量訓練。增量訓練表示是否在原有的訓練模型基礎上繼續進行進一步的訓練。在模型訓練及評估界面,可以看到訓練好的模型結果,模型名額包括準确率、精準率,召回率值,表示模型對目前的訓練結果的有效性程度。使用者可以點選上傳新的圖檔,檢驗模型預測性能。那麼驗證好的模型該如何運用到實際生産當中去呢,Auto Learn ing自動學習功能已一站式業務建構流程,使用者在此界面可直接點選前往EAS部署就可以将模型部署為服務,應用到實際的生産中進行産出。

繼續閱讀