EMR-DataScience介紹 | Spark“數字人體”AI挑戰賽賽題解析二

演講嘉賓簡介：李博（花名：傲海），阿裡雲人工智能産品專家，從事人工智能行業5年，主要負責人工智能平台類産品化建設工作。

以下内容根據演講視訊以及PPT整理而成。

點選連結觀看精彩回放：

https://developer.aliyun.com/live/43189

本次分享主要圍繞以下兩個方面：

一、Data Science節點概述

二、Data Science原子化元件介紹

EMR-DataScience節點是阿裡雲機器學習PAI團隊結合開源大資料架構和體系，建構的一套以人工智能服務為核心的EMR計算節點。在Spark“數字人體”AI挑戰賽之前會為大家建立好這個節點，建立過程中可以進入EMR産品，選擇Data Science節點，将使用的元件全部勾選上。這套環境與Hadoop3.X版本做了相容，也與EMR4.2.X的大版本相容。

EMR-DataScience介紹 | Spark“數字人體”AI挑戰賽賽題解析二

從下圖中可以清楚的看出Data Science節點提供的能力，其目的是為機器學模組化提供覆寫全周期的端到端服務。從最下層開始，支援讀取底層的HDFS和OSS資料。在計算架構層，分為兩部分，一部分是傳統的機器學習架構層，通過AlinkServer提供服務，底層是商業化Flink架構叫VVP。另一部分是深度學習架構，包括TensorFlow和PyTorch。使用者實際使用過程中可以使用AlinkServer建構傳統機器學習模型，也可以基于TensorFlow和PyTorch建構深度學習模型。本次的AI挑戰賽以圖像為主，使用較多的是TensorFlow和PyTorch。使用者可以基于計算架構和算法完成資料的預處理和模組化，之後需要做Tunning的工作。阿裡雲PAI團隊提供了調參工具叫AutoML-Tunning，通過AutoML工具實作調參。在算法層，可以使用自己的算法。在服務層，需要将線上的模型與實際工業環境進行對接，有可能會用到PAI-EASCMD或PAI-FaissServer。

Data Science節點深度學習架構

目前，在平台内部為參賽選手内置了TensorFlow和PyTorch兩款深度學習架構，注意需要在python3環境下使用，寫代碼時要以Python3環境實作。在深度學習模組化過程中，會依賴于很多第三方庫，這裡支援通過pip3 install的方式按照相關依賴。參賽選手可以通過vim開發代碼，對vim不熟悉的同學也可以使用zeppeline進行互動式開發，zeppeline可以執行shell操作。

PAI-Alink流批一體化機器學習算法平台

即使大部分選手不使用傳統機器學習算法，但有需要的同學可以使用Alink，不僅支援350多種的傳統機器學習算法，算法覆寫資料預處理、特征工程、模型訓練、模型評估等機器學習全生命周期，如K-Means，随機森林等等。支援流式算法和離線算法。還可以以拖拽的方式拖拽元件。Alink的優勢是支援多種可視化方式，可以很友善的檢視實驗結果。

下圖展示了Alink實驗Demo，藍色為流式算法，黃色為離線算法：

AutoML

AutoML是比賽中常用的元件，想拿到好的結果，除了構模組化型，還需要進行調參找到合适的算法組合。阿裡内部很少人工調參，為了此次AI挑戰賽，阿裡将AutoML放在了Data Science節點内。AutoML使用時，首先要建構模組化的腳本，腳本中有很多參數要調整，如max_depth、learning_rate、train_id等。使用者可以在代碼中使用parser設定需要參與調參的參數。另外使用者需要建構調參的腳本，import pai.automl.hop，将上面的參數做映射，再枚舉需要設定的參數。如果不希望使用枚舉的方式，可支援使用随機采樣方式，使用者劃定範圍，平台支援在區間範圍内做随機采樣。最終調參後的結果如下圖右側，展示了每種參數組合和最後的結果。注意在第二步中，除了設定枚舉值，還需要設定一個metric，指以哪個名額為評估标準，如以準确率還是召回率作為評估标準，甚至使用者可以自己自定義metric。AutoML免去了人工調參的工作。

FaissServer

FaissServer針對部分機器學習應用需要實時計算向量相似度的場景，可以快速計算某個向量其餘向量的距離，将全部向量加載到FaissServer裡，發送GRPC的查詢，回報TopN向量。DataScience節點内置了FaissServer。使用者可以将生成的向量導入FaissServer，建構一個線上TopN向量查詢引擎。FaissServer更多的用在圖像相似度分析，查詢等子產品。

PAI-EAS模型線上服務

EAS可能在決賽階段會用到。針對的場景主要是如果建構了比較好的模型，如何在業務端，如手機端、IoT，使用到模型。使用者通過DataScience内置的PAI-EAS CMD可以将深度學習模型部署成線上服務，通過RestfulAPI服務在業務中使用該模型。EAS支援灰階釋出、線上服務監控、版本控制等功能。

EMR-DataScience介紹 | Spark“數字人體”AI挑戰賽賽題解析二

繼續閱讀

【Torch】最簡潔logging使用指南

筆試面試題目：滑動視窗(二)

27. Remove Element(清單)題目代碼

資料結構與算法（27）——排序（二）

無人機--飛控科普

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

Cloud Studio初體驗

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入

hdu7108哈希