天天看點

雲上快速搭建Serverless AI實驗室如何使用GPU容器執行個體示例1. 建立Serverless Kubernetes叢集2. 建立GPU容器執行個體總結

Serverless Kubernetes和ACK虛拟節點都已基于ECI提供GPU容器執行個體功能,讓使用者在雲上低成本快速搭建serverless AI實驗室,使用者無需維護伺服器和GPU基礎運作環境,極大降低AI平台運維的負擔,顯著提升整體計算效率。

如何使用GPU容器執行個體

在pod的annotation中指定所需GPU的類型(P4/P100/V100等),同時在resource.limits中指定GPU的個數即可建立GPU容器執行個體。每個pod獨占GPU,暫不支援vGPU,GPU執行個體的收費與ECS GPU類型收費一緻,不産生額外費用,目前ECI提供多種規格的GPU類型。(請參考

https://help.aliyun.com/document_detail/114581.html

示例

1. 建立Serverless Kubernetes叢集

選擇深圳區域,可用區D。

雲上快速搭建Serverless AI實驗室如何使用GPU容器執行個體示例1. 建立Serverless Kubernetes叢集2. 建立GPU容器執行個體總結
雲上快速搭建Serverless AI實驗室如何使用GPU容器執行個體示例1. 建立Serverless Kubernetes叢集2. 建立GPU容器執行個體總結
雲上快速搭建Serverless AI實驗室如何使用GPU容器執行個體示例1. 建立Serverless Kubernetes叢集2. 建立GPU容器執行個體總結

2. 建立GPU容器執行個體

我們使用tensorflow模型對如下圖檔進行識别:

雲上快速搭建Serverless AI實驗室如何使用GPU容器執行個體示例1. 建立Serverless Kubernetes叢集2. 建立GPU容器執行個體總結

使用模版建立pod,其中選擇P100 GPU規格。在pod中的腳本會下載下傳上述圖檔檔案,并根據模型進行識别計算。

雲上快速搭建Serverless AI實驗室如何使用GPU容器執行個體示例1. 建立Serverless Kubernetes叢集2. 建立GPU容器執行個體總結
雲上快速搭建Serverless AI實驗室如何使用GPU容器執行個體示例1. 建立Serverless Kubernetes叢集2. 建立GPU容器執行個體總結
apiVersion: v1
kind: Pod
metadata:
  name: tensorflow
  annotations:
    k8s.aliyun.com/eci-gpu-type : "P100"
spec:
  containers:
  - image: registry-vpc.cn-shenzhen.aliyuncs.com/ack-serverless/tensorflow
    name: tensorflow
    command:
    - "sh"
    - "-c"
    - "python models/tutorials/image/imagenet/classify_image.py"
    resources:
      limits:
        nvidia.com/gpu: "1"
  restartPolicy: OnFailure           

部署後pod會處于pending狀态:

雲上快速搭建Serverless AI實驗室如何使用GPU容器執行個體示例1. 建立Serverless Kubernetes叢集2. 建立GPU容器執行個體總結

等待幾十秒後pod狀态變成Running,待計算完成後會變成Terminated狀态。

雲上快速搭建Serverless AI實驗室如何使用GPU容器執行個體示例1. 建立Serverless Kubernetes叢集2. 建立GPU容器執行個體總結

從pod的日志我們可以看到pod能夠識别P100 GPU硬體,而且可以正确識别圖檔為Panda。

雲上快速搭建Serverless AI實驗室如何使用GPU容器執行個體示例1. 建立Serverless Kubernetes叢集2. 建立GPU容器執行個體總結

總結

通過以上示例可以看出,從環境搭建到計算結束,整個過程使用者無需購買和管理伺服器,無需安裝GPU運作環境,serverless的方式可以讓使用者更加關注在AI模型建構,而不是底層基礎設施的管理和維護。