天天看點

GTC 2019大會,一文看完阿裡雲三場演講精華

12月17-19日,英偉達(NVIDIA)的GPU技術大會(GTC 2019)在蘇州金雞湖國際會議中心舉辦。

作為異構計算主要的加速器,GPU已經被廣泛使用者圖形圖像、深度學習與人工智能、科學計算。

作為最大的人工智能和深度學習大會之一,GTC大會影響力越來越大,今年也是人頭攢動。英偉達創始人黃仁勳在演講中介紹,今年注冊GTC的人數高達6100人,想比三年前增幅達250%,為史上最大的GTC China會議。

在這場盛會中,阿裡雲團隊受邀出席作分享,還在開發者之夜示範如何利用阿裡雲的GPU工具+開放平台,花了幾塊錢,就在1小時做出手勢識别AI小程式。

阿裡雲異構計算和容器服務四位技術專家介紹了阿裡雲和英偉達共同研發的國内首個輕量級GPU執行個體VGN5i、飛天AI加速解決方案,以及如何在阿裡雲容器服務中使用CPU加速大資料處理。

為5G潛力場景雲遊戲鋪路

阿裡雲異構計算技術專家高峰指出,5G時代即将到來,雲遊戲可能會迎來大爆發。在帶寬不再成為限制的前提下,使用者即便用配置不高的終端裝置,也能玩大型遊戲。這将是GPU未來的重要應用場景。

然而,傳統的GPU虛拟化技術裝置直通模式下,每個GPU隻能提供給一台虛拟機。可在雲遊戲場景中,企業通常僅需要一顆實體GPU幾分之一的計算能力即可流暢完成圖形或視覺計算;深度學習推理場景亦然,可能隻需要訓練階段的數十分之一的GPU計算資源,甚至更少。這就導緻“計算資源過剩”。

針對這種場景,阿裡雲和英偉達共同研發了國内首個公共雲上的輕量級GPU異構計算産品——VGN5i執行個體,該執行個體打破了傳統直通模式的局限,可以提供比單顆實體GPU更細粒度的服務,讓客戶以更低成本、更高彈性開展業務。

該産品基于NVIDIA Tesla P4 GPU,內建了阿裡雲智能資源排程技術,适用于雲遊戲、AR/VR以及圖形處理等GPU計算場景。

高峰介紹,該款産品從硬體級别實作資源隔離,可以讓每個使用者獨享為其配置設定的顯存,并做到虛拟機級别的安全隔離。此外,正常GPU執行個體無法通過線上遷移來保障業務連續性,該款執行個體能實作秒級别的熱遷移。

今年雲栖大會,阿裡雲還釋出了基于NVIDIA T4的GPU異構計算産品VGN6i執行個體。

飛天AI加速解決方案

vGPU面向需要更細顆粒度GPU的場景,AI加速才是GPU目前的主要應用場景,也是阿裡雲異構計算業務的拳頭業務。

相較于自行購買伺服器,客戶在雲上進行AI訓練和推理業務,可以更為省時省力,業務觸發時才購買GPU執行個體資源,訓練和推理任務結束時,自動釋放/停止GPU執行個體資源。該彈性優勢在應用的推理場景中尤為突出。

在雲原有優勢上,阿裡雲還對訓練場景和推理場景,結合阿裡雲的網絡和異構計算架構作了優化。根據阿裡雲彈性人工智能負責人遊亮現場分享,不同案例中、不同節點數下,使用飛天AI訓練加速器有2-14倍的性能提升,推理則有2.5-6.1倍的提升。

飛天AI加速解決方案還是業界首次實作統一支援Tensorflow、PyTorch、MXNET、Caffe等主流開源架構,實作了通過統一加速模式,支援大部分客戶AI訓練和推理場景性能翻倍提升的效果,大幅提升AI場景的計算效率和GPU使用率。

阿裡雲容器服務,為資料科學提供更簡單體驗

除了以上創新産品和拳頭産品,阿裡雲進階技術專家車漾和謝峰還現場介紹與示範了如何在阿裡雲容器服務中使用GPU。

GTC 2019大會,一文看完阿裡雲三場演講精華

在資料科學場景,科學家常借助RAPIDS和Tensorflow等深度學習架構使用GPU來,加速資料預處理、機器學習訓練、預測等整個流程。然而,這些架構部署較為複雜,容器服務可以保證明驗環境的标準化等,降低部署難度,容器管理平台Kubernetes則嘗試讓部署容器化的應用簡單并且高效。

可是這也提高了資料科學家的學習門檻。對于一個大規模的資料科學任務,除了資料科學算法以外,資料科學家還需要關注他們并不擅長的軟體部署、資源配置設定與排程、任務管理與監控等。

GTC 2019大會,一文看完阿裡雲三場演講精華

阿裡雲将彈性GPU服務與基于阿裡雲容器服務(ACK)深度結合,面向機器學習場景提供了專門的解決方案,屏蔽所有底層資源、環境管理、任務排程和GPU配置設定的複雜性,同時相容RAPIDS、Tensorflow、Caffe、MPI、Hovorod和 Pytorch等多種機器學習架構,提供資料科學家最熟悉的使用體驗。

謝峰還提到,未來将對RAPIDS做專門優化,使其在雲上資料處理效率更高。