天天看點

EMR-DataScience介紹 | Spark“數字人體”AI挑戰賽賽題解析二

演講嘉賓簡介:李博(花名:傲海),阿裡雲人工智能産品專家,從事人工智能行業5年,主要負責人工智能平台類産品化建設工作。

以下内容根據演講視訊以及PPT整理而成。

點選連結觀看精彩回放:

https://developer.aliyun.com/live/43189

本次分享主要圍繞以下兩個方面:

一、Data Science節點概述

二、Data Science原子化元件介紹

EMR-DataScience節點是阿裡雲機器學習PAI團隊結合開源大資料架構和體系,建構的一套以人工智能服務為核心的EMR計算節點。在Spark“數字人體”AI挑戰賽之前會為大家建立好這個節點,建立過程中可以進入EMR産品,選擇Data Science節點,将使用的元件全部勾選上。這套環境與Hadoop3.X版本做了相容,也與EMR4.2.X的大版本相容。

EMR-DataScience介紹 | Spark“數字人體”AI挑戰賽賽題解析二

從下圖中可以清楚的看出Data Science節點提供的能力,其目的是為機器學模組化提供覆寫全周期的端到端服務。從最下層開始,支援讀取底層的HDFS和OSS資料。在計算架構層,分為兩部分,一部分是傳統的機器學習架構層,通過AlinkServer提供服務,底層是商業化Flink架構叫VVP。另一部分是深度學習架構,包括TensorFlow和PyTorch。使用者實際使用過程中可以使用AlinkServer建構傳統機器學習模型,也可以基于TensorFlow和PyTorch建構深度學習模型。本次的AI挑戰賽以圖像為主,使用較多的是TensorFlow和PyTorch。使用者可以基于計算架構和算法完成資料的預處理和模組化,之後需要做Tunning的工作。阿裡雲PAI團隊提供了調參工具叫AutoML-Tunning,通過AutoML工具實作調參。在算法層,可以使用自己的算法。在服務層,需要将線上的模型與實際工業環境進行對接,有可能會用到PAI-EASCMD或PAI-FaissServer。

EMR-DataScience介紹 | Spark“數字人體”AI挑戰賽賽題解析二

Data Science節點深度學習架構

目前,在平台内部為參賽選手内置了TensorFlow和PyTorch兩款深度學習架構,注意需要在python3環境下使用,寫代碼時要以Python3環境實作。在深度學習模組化過程中,會依賴于很多第三方庫,這裡支援通過pip3 install的方式按照相關依賴。參賽選手可以通過vim開發代碼,對vim不熟悉的同學也可以使用zeppeline進行互動式開發,zeppeline可以執行shell操作。

EMR-DataScience介紹 | Spark“數字人體”AI挑戰賽賽題解析二

PAI-Alink流批一體化機器學習算法平台

即使大部分選手不使用傳統機器學習算法,但有需要的同學可以使用Alink,不僅支援350多種的傳統機器學習算法,算法覆寫資料預處理、特征工程、模型訓練、模型評估等機器學習全生命周期,如K-Means,随機森林等等。支援流式算法和離線算法。還可以以拖拽的方式拖拽元件。Alink的優勢是支援多種可視化方式,可以很友善的檢視實驗結果。

EMR-DataScience介紹 | Spark“數字人體”AI挑戰賽賽題解析二

下圖展示了Alink實驗Demo,藍色為流式算法,黃色為離線算法:

EMR-DataScience介紹 | Spark“數字人體”AI挑戰賽賽題解析二

AutoML

AutoML是比賽中常用的元件,想拿到好的結果,除了構模組化型,還需要進行調參找到合适的算法組合。阿裡内部很少人工調參,為了此次AI挑戰賽,阿裡将AutoML放在了Data Science節點内。AutoML使用時,首先要建構模組化的腳本,腳本中有很多參數要調整,如max_depth、learning_rate、train_id等。使用者可以在代碼中使用parser設定需要參與調參的參數。另外使用者需要建構調參的腳本,import pai.automl.hop,将上面的參數做映射,再枚舉需要設定的參數。如果不希望使用枚舉的方式,可支援使用随機采樣方式,使用者劃定範圍,平台支援在區間範圍内做随機采樣。最終調參後的結果如下圖右側,展示了每種參數組合和最後的結果。注意在第二步中,除了設定枚舉值,還需要設定一個metric,指以哪個名額為評估标準,如以準确率還是召回率作為評估标準,甚至使用者可以自己自定義metric。AutoML免去了人工調參的工作。

EMR-DataScience介紹 | Spark“數字人體”AI挑戰賽賽題解析二

FaissServer

FaissServer針對部分機器學習應用需要實時計算向量相似度的場景,可以快速計算某個向量其餘向量的距離,将全部向量加載到FaissServer裡,發送GRPC的查詢,回報TopN向量。DataScience節點内置了FaissServer。使用者可以将生成的向量導入FaissServer,建構一個線上TopN向量查詢引擎。FaissServer更多的用在圖像相似度分析,查詢等子產品。

EMR-DataScience介紹 | Spark“數字人體”AI挑戰賽賽題解析二

PAI-EAS模型線上服務

EAS可能在決賽階段會用到。針對的場景主要是如果建構了比較好的模型,如何在業務端,如手機端、IoT,使用到模型。使用者通過DataScience内置的PAI-EAS CMD可以将深度學習模型部署成線上服務,通過RestfulAPI服務在業務中使用該模型。EAS支援灰階釋出、線上服務監控、版本控制等功能。

EMR-DataScience介紹 | Spark“數字人體”AI挑戰賽賽題解析二

繼續閱讀