Serverless Kubernetes和ACK虛拟節點都已基于ECI提供GPU容器執行個體功能,讓使用者在雲上低成本快速搭建serverless AI實驗室,使用者無需維護伺服器和GPU基礎運作環境,極大降低AI平台運維的負擔,顯著提升整體計算效率。
如何使用GPU容器執行個體
在pod的annotation中指定所需GPU的類型(P4/P100/V100等),同時在resource.limits中指定GPU的個數即可建立GPU容器執行個體。每個pod獨占GPU,暫不支援vGPU,GPU執行個體的收費與ECS GPU類型收費一緻,不産生額外費用,目前ECI提供多種規格的GPU類型。(請參考
https://help.aliyun.com/document_detail/114581.html)
示例
1. 建立Serverless Kubernetes叢集
選擇深圳區域,可用區D。

2. 建立GPU容器執行個體
我們使用tensorflow模型對如下圖檔進行識别:
使用模版建立pod,其中選擇P100 GPU規格。在pod中的腳本會下載下傳上述圖檔檔案,并根據模型進行識别計算。
apiVersion: v1
kind: Pod
metadata:
name: tensorflow
annotations:
k8s.aliyun.com/eci-gpu-type : "P100"
spec:
containers:
- image: registry-vpc.cn-shenzhen.aliyuncs.com/ack-serverless/tensorflow
name: tensorflow
command:
- "sh"
- "-c"
- "python models/tutorials/image/imagenet/classify_image.py"
resources:
limits:
nvidia.com/gpu: "1"
restartPolicy: OnFailure
部署後pod會處于pending狀态:
等待幾十秒後pod狀态變成Running,待計算完成後會變成Terminated狀态。
從pod的日志我們可以看到pod能夠識别P100 GPU硬體,而且可以正确識别圖檔為Panda。
總結
通過以上示例可以看出,從環境搭建到計算結束,整個過程使用者無需購買和管理伺服器,無需安裝GPU運作環境,serverless的方式可以讓使用者更加關注在AI模型建構,而不是底層基礎設施的管理和維護。