天天看點

阿裡雲GPU雲伺服器現已支援NVIDIA RAPIDS加速庫

阿裡雲GPU雲伺服器現已支援NVIDIA RAPIDS加速庫

阿裡雲GPU雲伺服器現已支援NVIDIA RAPIDS加速庫,是國内第一家提供RAPIDS加速庫服務的公有雲廠商。

RAPIDS,全稱Real-time Acceleration Platform for Integrated Data Science,是NVIDIA針對資料科學和機器學習推出的一套開源GPU加速庫,基于CUDA-X AI打造,可加速資料準備、模型訓練和圖分析。

使用RAPIDS加速庫可以實作從資料準備、模型訓練到預測整個端到端流程得到GPU的加速支援,大大提升任務的執行效率,在模型精度方面實作突破的同時降低基礎架構TCO。

CUDNN已經成為GPU加速深度學習架構的标準加速庫。

RAPIDS(如下圖)提供的CUDF、CUML和CUGRAPH則提供了對資料準備、機器學習算法以及圖分析的GPU加速庫。

RAPIDS支援輕量級大資料架構DASK,使得任務可以獲得多GPU、多節點的GPU加速支援。

阿裡雲GPU雲伺服器現已支援NVIDIA RAPIDS加速庫

RAPIDS以資料準備為起點,引入新型 GPU 資料架構 (cuDF),進而能實作并行化資料加載和資料操作,充分利用 NVIDIA GPU 上的大型高帶寬顯存。 cuDF 為資料科學家提供了簡單易用且基于 Python 的工具集,可以替換其已十分熟悉的pandas 工具集。資料科學家無需從頭學習 NVIDIA CUDA 技術,隻需要對現有代碼做出極少量更改,便能夠大幅提速資料準備,使其不再受限于 CPU 或 CPU 與記憶體之間的輸入輸出。

RAPIDS 還引入了不斷發展壯大的全新 GPU 加速 ML 算法(cuML) 庫,當中包括 XGBoost 等時下熱門算法,以及 Kalman、K-means、 KNN、 DBScan、 PCA、 TSVD、 OLS 線性回歸、Kalman Filtering 等算法。 ML 算法可産生大量資料傳輸,至今仍難以實作并行化。随着 GPU 加速的 ML 和 NVIDIA NVLink™ 以及NVSwitch 架構陸續降臨于 伺服器系統,模型訓練現可輕松分布于多個 GPU 和多個節點(系統)之間,幾乎不會産生延遲,且能避過 CPU 與記憶體之間的輸入輸出瓶頸。

RAPIDS僅适用于特定的GPU型号(采用NVIDIA Pascal及以上架構的GPU),是以阿裡雲目前支援RAPIDS的執行個體規格有gn6i(Tesla T4)、gn6v(Tesla V100)、gn5(Tesla P100)和gn5i(Tesla P4)。

如何在GPU執行個體上使用RAPIDS加速庫

關于如何在阿裡雲GPU執行個體上基于NGC環境使用RAPIDS加速庫,請參考文檔:在GPU執行個體上使用RAPIDS加速機器學習任務

按照上述文檔,阿裡雲GPU可以運作一個單機的GPU加速的資料預處理+訓練的XGBoost Demo,并對比GPU與CPU的訓練時間。

使用者也可以可以通過選擇更多的資料量和GPU個數來驗證多GPU的支援。

後續阿裡雲GPU還會繼續提供更多的RAPIDS加速的最佳實踐。

按照上述文檔示例,在GN6i執行個體(Tesla T4)上,使用GPU加速的XGBoost訓練任務,可以獲得20倍以上的加速:

阿裡雲GPU雲伺服器現已支援NVIDIA RAPIDS加速庫