天天看點

阿裡雲異構計算釋出:輕量級GPU雲伺服器執行個體VGN5i

輕量級GPU雲伺服器是什麼?

輕量級GPU雲伺服器是一種新的GPU雲伺服器規格族,是通過公共雲的GPU虛拟化技術将分片虛拟化後的GPU資源以虛拟GPU的形式安裝在GPU雲伺服器執行個體中。與正常GPU雲伺服器的差別在輕量級GPU雲伺服器提供更細力度的GPU計算資源,比如擁有更少的CUDA計算核心,更小的顯存。這樣做的優勢是在業務應用中,業務可以根據資源所需更加靈活的配置GPU計算資源。

阿裡雲異構計算釋出:輕量級GPU雲伺服器執行個體VGN5i

使用者在使用正常GPU雲伺服器的時候遇到了哪些痛點?

GPU的計算顆粒過大:

單顆實體GPU的計算能力越做越強大,但是許多應用需要更小顆粒的GPU計算資源;

正常GPU資源不利于業務自動伸縮:

擁有單顆實體GPU資源的執行個體在業務部署中會因為要充分利用GPU資源而造成“胖節點”,不利于設計成彈性伸縮架構,缺乏靈活性,無法應對業務快速變化;

正常GPU計算執行個體無法線上遷移:

正常直通虛拟化的GPU執行個體,由于架構特性無法支援GPU執行個體的線上遷移;

輕量級GPU雲伺服器與正常GPU雲伺服器有哪些不同?

我們從GPU加速器呈現方式,業務連續性,計算業務場景以及使用與管理看不同:

GPU加速器呈現

正常GPU雲伺服器執行個體是通過裝置直通方式提供實體GPU加速器;

輕量級GPU雲伺服器執行個體是通過GPU虛拟化方式提供虛拟GPU加速器;

業務連續性

正常GPU雲伺服器僅支援作業離線遷移

輕量級GPU雲伺服器支援作業線上遷移

計算業務場景

正常GPU雲伺服器适用于重負載的GPU加速計算,例如:深度學習訓練與推理計算、HPC計算、重載圖形計算

輕量級GPU雲伺服器适用于輕負載的GPU加速計算,例如:輕負載的深度學習推理計算、深度學習教學場景、雲遊戲與VR/AR場景

使用與管理

正常GPU雲伺服器提供彈性計算服務執行個體、業務擴充以單顆實體GPU資源方式增加

輕量級GPU雲伺服器依然提供彈性計算服務執行個體,但業務擴充以更小粒度GPU資源方式增加(例如:1/8或1/4顆Tesla P4的資源);

VGN5i有哪些技術亮點和技術領先性,解決哪些問題?

技術亮點:支援使用者在公共雲上建立更小顆粒的虛拟GPU的雲伺服器執行個體。

技術領先性有三點:

任何一項領先的計算技術要将其移植到公共雲上輸出,還是要遵循可靠性、經濟性和易用性的技術要求。

首先是可靠性,公共雲伺服器首先是公共服務,要給所有使用者提供“簡單可依賴”的基礎服務;雖然虛拟化GPU技術在私有部署條件下使用比較成熟,但是在公共雲上使用還是要面臨幾個可靠性的挑戰的:第一是資料安全性;第二是資源隔離;這兩個問題在私有部署條件下通常是沒有要求的,原因是私有部署都是給同一使用者部署使用,安全和資源争搶問題都比較容易解決。但是,要在公共雲上使用,這些問題在公共雲上就必須解決。

其次是經濟性,使用者能選擇使用輕量級GPU雲伺服器出發點是希望更加精細的使用GPU資源,本質是追求經濟性。虛拟化GPU技術在私有環境部署,因為需求确定,可以根據預想好的使用場景來配置虛拟化比例,但在公共雲場景就要解決既要滿足所有使用者的使用場景,又要保持排程系統的高效,不斷降低成本,追求經濟性。

最後是易用性,易用性表現在幾個方面,一個是管理接口和使用習慣與其他ECS執行個體保持一緻,另一個是APP在GPU執行個體中的使用場景和方式與其他正常GPU執行個體保持一緻。這樣使用者就沒有學習成本了。

阿裡雲異構計算釋出:輕量級GPU雲伺服器執行個體VGN5i

輕量級GPU雲伺服器如何使用?

GPU執行個體的用法與普通彈性計算執行個體一樣便捷,使用者可以使用Web控制台或者OpenAPI方式配置和購買服務。使用者在使用過程中可以完全掌控該執行個體,該執行個體在阿裡雲計算環境中運作,還可以配合其他雲服務一起使用。當使用者業務遇到業務高峰時可以在數分鐘内擴充新的執行個體來适應業務增長。使用者在虛拟化GPU服務的使用全過程中均可以享受到線上服務咨詢和快速故障處理服務。

輕量級GPU雲伺服器的執行個體有哪些?

目前開放售賣基于NVIDIA Tesla P4的VGN5i執行個體,該執行個體提供八分之一到一比一的虛拟GPU加速器;

後面會上線基于NVIDIA Tesla T4的VGN6i執行個體,該執行個體提供十六分之一到一比一的虛拟GPU加速器;

輕量級GPU雲伺服器的适用場景有哪些?

輕量級GPU雲伺服器可以根據業務需求配置建立貼合業務所需計算資源的GPU雲伺服器執行個體,是以可以在每個輕量級GPU雲伺服器執行個體上僅運作一個計算業務負載,在業務峰值來臨時,橫向擴充某一個計算業務負載即可。這樣的特性十分适合網際網路業務中AI計算的批量部署以及雲遊戲,AR/VR在雲端應用和深度學習的教學實驗場景。

VGN5i的使用者價值有哪些?

VGN5i的使用者價值包括:降低批量部署GPU執行個體的成本,可以輕松實作快速彈性伸縮以及提高運維效率。

降低批量部署成本

在諸多圖形計算和AI推理計算的場景中,使用者通常并不要求單GPU執行個體的計算性能十分強大,而是更加關注業務在批量部署中的成本。小粒度的虛拟化GPU執行個體則更加合适這些場景,很好的平衡使用者業務在批量部署中的成本需求。

實作快速彈性伸縮

擁有了小粒度的虛拟化GPU執行個體,使用者不必再為了比對較強的實體GPU資源而将服務部署成為複雜的胖服務節點,而是可以基于容器方式将有GPU計算需求的服務都解耦部署在不同的虛拟化GPU執行個體節點上。這樣部署的瘦服務節點更加有利于快速彈性伸縮,在業務的任何時刻都可以應對自如,提高業務運維效率。

提高運維效率

使用小顆粒的虛拟化GPU執行個體進行瘦服務節點部署,使得服務環境配置和服務接口變得簡單,使用不同的鏡像即可部署大規模的AI應用而無需部署複雜的胖節點,提供運維效率,降低時間風險和成本。

直播觀看位址:

https://yq.aliyun.com/live/938

檢視産品VGN5i:

https://www.aliyun.com/product/ecs/gpu

VGN5i·釋放GPU計算新動力:

https://promotion.aliyun.com/ntms/act/vgpu.html

阿裡雲新品釋出會頻道:

https://promotion.aliyun.com/ntms/act/cloud/product.html

阿裡雲新品釋出·周刊:

https://yq.aliyun.com/publication/36

繼續閱讀