阿里雲異構計算平台——加速AI深度學習創新

雲栖TechDay第36期，阿裡雲進階産品專家霁榮帶來“阿裡雲異構計算平台——加速AI深度學習創新”的演講。本文主要從深度學習催生強大計算力需求開始談起，包括GPU的适用場景，進而引出了彈性GPU服務——EGS（Elastic GPU Service），重點講解了EGS的優勢、EGS監控以及EGS産品家族，最後對EGS支撐AI智能創新進行了總結。以下是精彩内容整理：

基于大資料的深度學習催生強大計算力需求

怎樣加速AI深度學習支撐，幫助大家搭模組化型，支撐大家業務營運等等。

如圖，深度學習出來之後，過去很多人做機器學習是用小資料做，到了大資料時代，我們有了更多的資料樣本，再加上我們的計算力，使得深度學習成為可能。是以說計算能力是深度學習應用的基礎，深度神經網絡模型複雜，神經元可達百萬級别，每層具有億級參數空間，且訓練資料多，需要的計算量巨大，周期也是非常長的。計算能力對于深度學習的支撐與推動作用是不可替代的，計算能力越強，同樣時間内積累的經驗就越多、模型訓練疊代速度也越快。

GPU具有更好的并行計算能力

提到計算力，過去大家都在用CPU，深度學習最開始也是用CPU，但是CPU是面向控制流的，尤其是X86，是複雜指令機，它更多的片上神經元裡面是一些控制邏輯和一些緩存，這樣會更好适合日常桌面等IT辦公，面向産品的，是以它是典型的SISD就是單指令流、單資料流，主要是串行，并行程度也不高，在過去幾十年是OK的，但是真正到了超算，到了深度學習，我們就會發覺，CPU的計算力越來越是瓶頸。而GPU從一開始設定的時候，目标非常單一，它當時是做圖形渲染，在設計的時候就把很多控制邏輯包括緩存等等都去掉，因為很多資料進來是大規模并行的，它是SIMD單指令流、多資料流，這時候它是完全并行來計算的，是以它可以達到幾千個處理核，而傳統的CPU現在可能最多幾十個處理核，是以GPU在深度學習時代就很受歡迎了。

GPU适用的領域及業務場景

GPU 的特點：實時高速、并行計算、浮點計算能力強.

GPU可以做3D渲染，視訊電解碼，這是GPU的老本行，計算效率非常高，現在仍然在大量的使用。繼而就是GPU尤其以CUDA為代表，并行計算架構大大降低了程式設計模型和門檻之後迅速普及起來，它在高性能計算包括AI的深度學習上，得到了非常廣泛的應用。但是在使用GPU的時候，因為GPU價格比較貴，而CPU已經非常普及，是以GPU使用起來，使用關心的問題有很多，比如：

首先會看一下是做渲染的任務還是做深度學習的任務，是做可視化計算還是深度學習，另外會考慮到底怎麼來建設它，這會涉及到一些成本效益對比等問題，哪有可用的GPU資源？我們會從這些角度考慮來設計我們的産品和場景。

當你真正用起來的時候，你會發現GPU還挺好用，對業務加速确實有效果，但是業務量上來了，就需要擴容，這時候又涉及到底怎麼擴，做業務可能會有資料存放，比如大家在做深度學習的時候有非常海量的資料，可能幾百個T，甚至已經達到了PB級别，怎麼存儲呢?可能有多個節點之間的互動，有的節點需要做視訊抽幀，有的節點專門來做GPU計算，那麼就會涉及到網絡之間的互動，節點和節點之間會有網絡互動，包括節點和存儲之間都有網絡互動，這時候該怎麼辦呢？

再進而你的業務發展壯大了，原來可能就在上海提供服務，現在要在美國提供服務，要在東南亞提供服務，如何多地域線上服務？最後還有GPU的工作怎麼樣，因為GPU現在功耗比較大，發熱也是比較高的，是以經常會出現工作不正常，這個時候 GPU監控是非常必要的。

彈性GPU服務（Elastic GPU Service–EGS）

線上下使用GPU的時候會有那麼多考量的因素，是以我們在雲上提供服務的時候，也不是簡單的把它搬上來，裡面還有很多工作要做。阿裡雲現在推出了彈性GPU的服務，它是和阿裡雲所有其他服務是打通的，包括我們的雲盤、負載額均衡等等，完全是天然一體化的，是以在使用的時候和使用别的ECS雲主機并沒有太大的使用差異。面對的場景就是我們現在客戶比較關注的，EGS是基于GPU應用的計算服務，适用于深度學習、視訊解碼、圖形渲染、科學計算等應用場景，具有實時高速，并行計算跟浮點計算能力強等特點。

EGS優勢

EGS具有系列化規格族，可以根據AI深度學習計算力的要求，按需選擇合适的規格，分鐘級即可完成執行個體的建立；根據運算力需求進行GPU執行個體的Scale-out水準擴容或Scale-up垂直變配。

我們并不是簡單的把GPU從線下搬到線上。搬上來之後，我們有很多的優勢：

第一個優勢是彈性。大家在使用GPU的時候，以深度學習為例，當你累計到一段時間或者說你的模型更新，訓練資料增加很多的時候，你會發現計算量的需求會突增。在雲上很容易注意，然後當你用完可以選擇釋放。這是彈性和線下最大的好處，我們應對臨時的需求增加爆增是非常有好處的，。

線上更加是這樣，當你的模型訓練好，把它放線上上提供服務給大家，包括圖象識别服務或者語音服務等等，或者說你現在不是提供這種服務，可能提供的是一個圖象的APP，裡面使用了深度學習來完成這裡面一些業務邏輯，随着通路量爆增的時候，線上的服務能力也需要動态伸縮。

使用線上的彈性雲EGS服務，規格比較多。客戶在使用單卡、兩卡、四卡、八卡的都有這樣需求，入門級客戶可能使用單卡就夠了，對于一些業務量比較大或者是研發能力比較強的，需要多卡，這個時候我們可以根據你的規格來選擇，并且整個建立過程也是非常快的，分鐘級就可以完成。水準擴容線下也可以買，但是我們可以随時變配，這都是線上下使用過程中，随着業務的增長要具備的一種彈性能力。

第二個優勢是極緻性能與安全。實作GPUDirect支援，GPU卡之間點對點通信，可以讓GPU之間在無需CPU幹預下，直接通過PCIe的總線進行高帶寬低延遲時間的互聯通信，極大地提升了AI深度學習訓練中模型參數交換效率；彈性GPU多租戶安全隔離，通過Hypervsior的授權和管理，在隔離的安全性和允許多塊GPU靈活配置互相高速通信。

第三個優勢是與阿裡雲生态深度整合。企業使用者除了GPU之外，阿裡雲有OSS對象存儲，它有着非常低的價格，具備非常海量的存儲能力，我們還有NAS檔案存儲，可以把要訓練的樣本照片，或者文本資料傳到這兩個上面來。當你的容量需求量沒有那麼大的時候，放在我們雲盤上面也OK的，當你需要幾百T或者更大，而且成本要求更低，完全可以放在NAS或者OSS上面，這樣可以天然打通你的訓練資料存儲和我們之間的問題。我們還提供EMR，因為現在都是大資料，海量的資料在訓練之前都要做一些預處理，這些預處理可以定一些EMR的任務來幫你完成，然後把資料先處理最後傳到這邊來處理。處理之後模型就好好的訓練出來，達到業務的要求，接下來就會考慮業務上線，上線之後會有一些前端等跟EGS相配合，另外會和我們彈性伸縮、負載均衡等相配合，以及我們剛才提到的監控等等。不管你是一個小規模業務還是大規模，你可以利用阿裡雲上衆多的服務元件和能力來完成一個以深度學習為核心或者以差異化競争為核心點的關鍵技術，包裝支撐了整個業務的服務平台，我們也支援容器的方式來傳遞，使得整個方式更加便捷。

第四個優勢是成本節約。 EGS執行個體支援靈活的使用方式：

• 使用者可以按年支付以獲得最高的使用折扣；

• 按月付費降低使用者的計算資源使用一次性投入成本，并且具有相對較低的機關小時使用價格；

• 按小時的付費使使用者以最低的單次使用成本來應對臨時性的短期使用需求。

彈性GPU服務監控

我們還會對GPU做一個監控，會知道整個GPU的使用率、記憶體、溫度等等，而且溫度可以使用告警，你可以預先做一些保護性措施，從你的業務層面關聯起來，基本就是免運維直接使用。

總結下來看，使用這種GPU雲伺服器自建，因為很多客戶都在考慮自建，我們可以分級建立，而且我們可以變配，就是執行個體裡面可以改變你的配置；在性能方面我們用的是專業級的GPU卡。而且我們會有一些多卡的支援，包括安全防護以及部署，部署對企業使用者來講是非常重要的。很多的客戶現在整個業務都是布在阿裡雲上，是以他在布GPU的時候，首先會首先考慮部署在阿裡雲上。

EGS産品家族

上面就是作為異購計算平台來講，因為整個深度學習也好，科學計算也好，它實際上是分層的，有些人是做業務，有些人是做算法，還需要有一些人出來做平台加速的，而我現在說的産品就是定位在最底層做平台加速的，我們目标是提供一個高成本效益、非常好用的GPU雲組機給大家，讓大家把自己的算法及業務部署在雲組機裡面，更好的支撐業務的發展。

那麼，目前我們提供什麼樣的能力呢？具體來講，整個阿裡雲EGS彈性GPU服務現在包含兩大類，從我們的業務場景出發，一類是可視化計算，另外一類是通用性計算。

可視化計算有共享型和獨享型。通用計算已經上線了GN4和 GN5。

GA1–可視化計算型

對于可視化計算，我們對它的定位或者我們看到客戶線上上使用它的時候主要在做一些圖形渲染，就是跟圖形互動的可視化相關的一些事情，在我們規格組上，我們會看到，我們過去沒有這個規格，就是說我們可以做到0.5個GPU卡，現在做了一個共享GPU執行個體。很多廠商在雲上面提供GPU的時候是提供了以GPU為機關做分割，但對于在訓練場景下，因為你是計算密集型的，計算能力是越高越好，你不會把它進行分割，但是你在進行可視化尤其是遠端桌面場景下，它其實計算能力是足夠的，大家關心的是成本，是成本效益，是以我們就做了這個共享GPU執行個體，我們可以把一個實體GPU卡變成多個，通過虛拟化技術，我們可以保證性能損失可以忽略不計，而且我們基于硬體的輔助虛拟化，底層的隔離線也非常好。

是以，最小的規格我們可以從0.5個卡，從技術來說我們可以做到更小的力度，但是你會發現更小力度之後，别的能力可能會很弱，可能在使用起來實際意義不大，是以我們把目前規格定在此，到現在最大我們是4個卡的支援，我們會配一些本地的SSD，保證整個端到端的性能取得最佳。

GN4 – Nvidia Tesla M40通用計算加速型

GN4執行個體規格族是企業級異構計算ECS，提供了高成本效益深度學習和視訊處理能力。M40因為整個能力不突出但是也夠用，很多場景底下，包括我們實際售賣中，發現很多客戶也在用它做訓練，更多的是拿它來做一些推理，我們不否認很多客戶線上下用消費級的卡來做訓練，但是線上上提供服務的時候，就必須要考慮選擇一個雲平台。很多客戶跟我們回報說，我現在是GPU密集型的，我的CPU做的事情非常少，高CPU是用不完的。用不完就是一種浪費，是以，我們用自己平台的能力把它進一步的切小，也就是說當你在一塊卡的時候，給你三種CPU memory的選擇，使得多種選擇之後就極大降低你的使用成本。我們兩卡的機型也是一樣的，過去我們隻有固定一種，現在我們通過技術實作把它整個CPU memory降下來，使得你的整體擁有成本更低，更靈活。

GN5 –Nvidia Tesla P100通用計算加速型

GN5執行個體例規格族是企業級異構計算ECS，提供了超高性能深度學習和視訊處理能力。

重點跟大家推薦目前使用的Tesla P100，也是國内共有雲廠商裡第一家推出P100的商家。P100現在市面上可以買到最好的卡，我們可以最大支援8卡。在我們雲上可以用到單機8卡，而且可以以一種按量的方式。如果線下會受限于你的環境，買8卡的伺服器還是比較貴的，但是線上上你可以按量買。它的整個計算能力是非常高的， GN5這一代的實力相比基于GN4能力，單精度浮點能力提升了5倍。

彈性GPU服務支撐AI智能創新

介紹完産品本身的規格能力之後，最後回到這張圖上來。GN4 M40兩卡和GN5 P100的8卡的能力都是夠用的，最重要取決于本身計算力的需求。在多媒體條件裡面，用的比較多的是視訊編解碼和渲染，根據大家業務的要求都可以選擇。EGS會負責完成底下從硬體到虛拟化到作業系統執行個體這一層，然後在這之上阿裡雲會提供容器的服務，再往上我們會做一些擴充深度學習的架構能力，這些可以開源直接部署在我們容器裡面的服務，阿裡雲也在做一些相應的架構，包括人臉識别等等。

阿裡雲的整個模型訓練和線上的推理都是在彈性GPU之上，那麼當你從訓練的時候來看，過去是CPU後來用自建的GPU，主要遇到問題還是彈性、資源問題等等，現在都是放在我們共有雲的GPU服務之上，包括對外提供服務。因為對外提供服務一定是在共有雲之上，他們開發模型訓練包括整理線上的服務都在這個上面，這是深度學習場景；第二個場景就是阿裡雲還有自己的視訊編解碼服務，這裡面也用到了彈性GPU。

我們作為異購計算重要組成部分，我們可以使得業務使用方更加關注本身的模型和算法，還有你提供業務本身邏輯之上，而底下的東西完全由我們來完成。我們提供這樣的服務之中還會有别的考量，包括現在基于GPU做一些性能方面的優化，包括可靠性、網絡能力的提升。

本文為雲栖社群原創内容，未經允許不得轉載，如需轉載請發送郵件至[email protected]；如果您發現本社群中有涉嫌抄襲的内容，歡迎發送郵件至：[email protected] 進行舉報，并提供相關證據，一經查實，本社群将立刻删除涉嫌侵權内容。

阿里雲異構計算平台——加速AI深度學習創新

繼續閱讀

K-近鄰算法以及圖像分類應用

小i機器人受邀赴韓交流，CFO首爾亞洲金融論壇演講

吳恩達deeplearning

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普