天天看點

借助 NVIDIA Aerial CUDA 加速 RAN,增強 5G/6G 的 DU 性能和工作負載整合

作者:NVIDIA英偉達中國
借助 NVIDIA Aerial CUDA 加速 RAN,增強 5G/6G 的 DU 性能和工作負載整合

Aerial CUDA 加速無線接入網 (RAN)可加速電信工作負載,使用 CPU、GPU 和 DPU 在雲原生加速計算平台上提供更高水準的頻譜效率 (SE)。

适用于 Aerial 的 NVIDIA MGX 系統基于先進的 NVIDIA Grace Hopper 超級晶片和 NVIDIA Bluefield-3 DPU 建構,旨在加速 5G 端到端無線網絡:

  • 虛拟化 RAN (vRAN)分布式單元(DU)
  • 集中式單元(CU)
  • 使用者平面函數(UPF)
  • vRouter
  • 網絡安全

這種全棧加速方法可提供領先的性能和頻譜效率,同時降低總擁有成本(TCO),并為更好的資産回報(ROA)開辟新的盈利機會。NVIDIA 6G 研究雲平台中提供了 Aerial CUDA 加速的 RAN 軟體堆棧。

電信公司已投入數十億資金購買 4G/5G 頻譜,預計他們将再次投入購買 6G 頻譜,以滿足日益增長的移動使用者需求。

該生态系統包括晶片制造商、OEM 和獨立軟體供應商(ISV),可提供具有不同性能特征的解決方案。這些解決方案主要基于專用硬體,例如專用內建電路(ASIC)或系統級晶片(SoC),用于處理計算密集型第 1 層(L1)和第 2 層(L2)功能。

挑戰在于如何在 RAN 解決方案中實施算法的複雜程度與實施成本和功耗之間取得平衡。

電信公司希望能夠分解 RAN 工作負載的硬體和軟體,使其能夠在雲基礎設施上建構網絡,進而為軟體創新、新的差異化服務、控制硬體生命周期管理以及提高總體擁有成本(TCO)開辟可能性。

vRAN 展示了商用現成(COTS)平台運作 RAN 分布式單元(DU)工作負載的能力。但是,由于計算性能差距,需要加速,進而實作某些工作負載的固定功能加速,例如前向糾錯(FEC)。

在本文中,我們将讨論用于 DU 工作負載加速的 Aerial CUDA 加速 RAN 的進展,詳細介紹所使用的算法和預期收益、所使用的底層硬體,以及它整合 DU、集中式單元(CU)和核心等電信工作負載以及使用多租戶功能托管創收工作負載的能力。最後,我們将探讨電信公司有望實作的總體 TCO 和 ROA 優勢。

Aerial CUDA 加速 RAN

NVIDIA Aerial RAN 将适用于 5G 和 AI 架構的 Aerial 軟體與 NVIDIA 加速計算平台相結合,幫助電信公司降低 TCO 并實作基礎設施盈利。

Aerial RAN 具有以下主要特性:

  • 一個軟體定義、可擴充、子產品化、高度可程式設計和雲原生的架構,無需任何固定函數加速器。它使生态系統能夠靈活地采用其商業産品所需的子產品。
  • DU L1、DU L2+、CU、UPF 和其他網絡功能的全棧加速,可實作工作負載整合,進而更大限度地提高性能和頻譜效率,實作出色的系統 TCO。
  • 通用型基礎架構,具有多租戶,可支援傳統工作負載和先進的 AI 應用程式,進而實作出色的 RoA。

全棧加速

全棧加速依托如下兩個支柱:

  • NVIDIA Aerial 軟體,可加速 DU 功能 L1 和 L2;
  • 支援生态系統在平台上運作和優化 CU 或 UPF 等工作負載,并實作工作負載整合。

圖 1 顯示加速 DU L1 和 L2 是 NVIDIA 實作全棧加速的關鍵方面。

借助 NVIDIA Aerial CUDA 加速 RAN,增強 5G/6G 的 DU 性能和工作負載整合

圖 1. Aerial RAN 堆棧

DU 加速

Aerial 已實施先進算法,以提高 RAN 協定棧的頻譜效率,涵蓋 DU L1 和 L2。

本文中介紹的加速 L1 和 L2 功能是通過一種利用加速計算平台内的 GPU 并行計算能力的通用方法實作的。

圖 2 顯示 MGX 伺服器平台在同一 GPU 執行個體上托管經加速的 L1 cuPHY 和 L2 MAC 排程程式 cuMAC,并由 CPU 托管 L2+ 堆棧。這展示了基于 GPU 的平台在同時加速多個計算密集型工作負載方面的強大功能。

借助 NVIDIA Aerial CUDA 加速 RAN,增強 5G/6G 的 DU 性能和工作負載整合

圖 2. cuPHY 和 cuMAC 軟體架構

L1 (cuPHY)

Aerial cuPHY 是 RAN 實體層 L1 的資料和控制通道的 3GPP 相容、GPU 加速的全内聯實作。它提供 L1 高 PHY 庫,通過利用 GPU 的強大計算能力和高度并行性來處理 L1 的計算密集型部分,提供無與倫比的可擴充性。它支援标準多輸入多輸出(sMIMO)和大規模 MIMO(mMIMO)配置。

作為一種軟體實作,它支援持續增強和優化工作負載,正如 cuPHY 随着時間推移在 AX800 加速平台和全新 MGX 平台上持續實作容量提升。

L1 中的信道估計是任何無線接收機中的基礎塊,優化的信道估計器可以顯著提高性能。傳統的信道估計方法包括最小平方(LS)或最小均方誤差(MMSE)。這些方法的比較總結在表 1 中。

借助 NVIDIA Aerial CUDA 加速 RAN,增強 5G/6G 的 DU 性能和工作負載整合

表 1. 不同信道估計方法的比較

NVIDIA 使用新的通道估計器增強了 cuPHY L1,該估計器的性能優于表 1 中列出的方法。此實作使用複制核 Hilbert 空間(RKHS)通道估計器算法。

RKHS L1 信道估計

RKHS 信道估計專注于時域信道脈沖響應(CIR)的有意義部分,可限制不必要的噪聲并放大脈沖響應的相關部分(圖 3)。

借助 NVIDIA Aerial CUDA 加速 RAN,增強 5G/6G 的 DU 性能和工作負載整合

圖 3. RKHS 信道估計方法

RKHS 需要複雜的計算,接近無限凸優化問題。RKHS 将這個無限凸問題轉換為有限凸問題,而不會損失任何性能。

RKHS 計算密集型,非常适合在 GPU 上進行并行處理。表 2 總結了 sMIMO 和 mMIMO 配置的 RKHS 增益和計算需求。

借助 NVIDIA Aerial CUDA 加速 RAN,增強 5G/6G 的 DU 性能和工作負載整合

表 2. RKHS 信道估計優勢和實作需求彙總

RKHS 計算得出的 CIR(圖 4)與實際通道(在模拟環境中測量得出)非常接近,用于具有四個天線和兩個 UL 層的分接延遲線(TDL)- C 通道模型。

借助 NVIDIA Aerial CUDA 加速 RAN,增強 5G/6G 的 DU 性能和工作負載整合

圖 4. RKHS 信道估計改進

在一系列調制和編碼方案(MCS)中,與信噪比(SNR)曲線相比,改進後的 CIR 顯著提高了誤碼率(BER)。圖 5 顯示了 RKHS 相對于 MMSE(具有兩個不同的視窗,1 s 和 2.3 s)的優勢,對于 MCS 15,可提供高達 2.5 dB 的增益。

借助 NVIDIA Aerial CUDA 加速 RAN,增強 5G/6G 的 DU 性能和工作負載整合

圖 5. RKHS 信道估計 dB 增益

L2 (cuMAC)

RAN 協定棧中的 L2 MAC 排程程式在決定 UE 如何通路無線電資源方面發揮着重要作用。而這反過來又決定了整個網絡的頻譜效率。

對于 5G 系統,有許多自由度,包括:

  • 傳輸時間間隔(TTI)插槽
  • 已配置設定的實體資源塊(PRB)
  • MCS
  • MIMO 層選擇

典型的排程程式專注于單個單元,這會限制實作的性能。表 3 顯示了典型排程程式方法的比較。

借助 NVIDIA Aerial CUDA 加速 RAN,增強 5G/6G 的 DU 性能和工作負載整合

表 3. 典型排程程式方法對比

在 NVIDIA ,我們使用比例公平(PF)算法實施了多單元排程程式,其性能優于表 3 中列出的兩種方法。

多單元排程程式

NVIDIA 多單元排程程式通過優化大量相鄰單元的排程參數(TTI、PRB、MCS 和 MIMO 層),顯著提高了無線性能(圖 6)。

借助 NVIDIA Aerial CUDA 加速 RAN,增強 5G/6G 的 DU 性能和工作負載整合

圖 6. 多單元排程器方法

使用 PF 算法的多單元排程需要複雜的計算邏輯來解決所有單元中的各種變量。這非常适合具有大規模并行處理能力的 GPU。表 4 總結了 sMIMO 和 mMIMO(聯合排程 20 個單元)的優勢和計算需求。如您所見,CPU 計算需求很高。

借助 NVIDIA Aerial CUDA 加速 RAN,增強 5G/6G 的 DU 性能和工作負載整合

表 4. 多單元排程程式優勢和實施需求彙總

圖 7 顯示了 20 個 100MHz 4T4R 4DL/2UL 單元(每個單元具有 500 個活躍 UE 和 16 個 UE/TTI)的頻譜效率。

借助 NVIDIA Aerial CUDA 加速 RAN,增強 5G/6G 的 DU 性能和工作負載整合

圖 7. 多單元排程器增益

DU 綜合加速提升

總而言之,RKHS 信道估計支援每個 UE 更高的 MCS 配置設定,而多單元排程器代表了無線電資源排程的重大飛躍。這兩種方法都能顯著提高頻譜效率,并在 GPU 上得到優化實施。

例如,對于 6 單元的 100MHz 64T64R 系統,實作 2 倍以上的 SE 增益将需要大約 240 個核心(大約 8 個 32 核心 CPU),需要額外的 CPU 伺服器。相較于 GPU 實作,其中 L1 PHY 處理和 L2 排程程式托管在單個伺服器中的單個 GPU 上。

工作負載整合

如前文所述,全棧加速的第二個支柱是整合多個工作負載并在 Aerial RAN 上加速這些工作負載。這是通過利用 NVIDIA 加速計算平台中的 GPU、CPU 和 DPU 的可用計算資源來實作的。

針對電信工作負載,MGX 系統提供針對資料中心的子產品化和可擴充架構。該系統可提供所需的計算能力,以整合 RAN CU、RAN 智能控制器(RIC)應用等功能以及 UPF 等核心功能。

NVIDIA Grace Hopper 超級晶片結合了 NVIDIA Grace 和 NVIDIA Hopper 架構,使用 NVIDIA NVLink-C2C 為 5G 和 AI 應用提供 CPU+GPU 一緻性記憶體模型。

CU 可以利用許多 Grace CPU 核心。RIC 應用程式(例如通常包含 AI/ML 技術以提高頻譜效率的 xApp)可以在 GPU 上進行加速。

随着我們進一步進入網絡,UPF 等功能通過使用關鍵的 DPU 功能可以從 DPU 加速中受益:

  • GTP 加密和解密
  • 流哈希處理和接收端縮放(RSS)
  • 深度資料包檢測(DPI)

工作負載整合使電信公司能夠更大限度地減少部署在資料中心的伺服器數量,進而全面提高 TCO。

借助 NVIDIA Aerial CUDA 加速 RAN,增強 5G/6G 的 DU 性能和工作負載整合

圖 8. 支援工作負載整合的 NVIDIA MGX

多租戶 Aerial RAN

電信公司需要一個可以滿足電信工作負載嚴苛的性能和可靠性要求的平台,能夠在一個通用平台上托管不同類型的電信工作負載(從 RAN 到核心)。

電信 RAN 基礎設施的使用率明顯不足。借助多租戶雲基礎設施,電信公司可以在有閑置容量時通過可盈利的應用程式提高使用率。

可以為電信公司提供盈利機會的工作負載類型包括生成式 AI 和基于大語言模型(LLM)的多接入邊緣計算(MEC)應用程式。這些類型的工作負載在分布式電信邊緣資料中心引發了前所未有的計算需求。

由于需要在邊緣支援大量基于 LLM 的應用程式,是以專用于執行 LLM 推理的邊緣 GPU 伺服器和各種 MEC 應用程式正在大幅增加。

圖 9 顯示了 MGX 平台,該平台可以托管所有工作負載,并幫助電信公司克服計算資源利用不足的問題,減少總體能源足迹,并提高基礎設施的貨币化程度。

借助 NVIDIA Aerial CUDA 加速 RAN,增強 5G/6G 的 DU 性能和工作負載整合

圖 9. NVIDIA MGX 共享 AI 和電信基礎設施

Aerial CUDA 加速 RAN 的優勢

到目前為止,我們已經讨論了 NVIDIA Aerial 軟體如何幫助提高整體頻譜效率,以及加速計算平台如何提供處理能力,以在同一平台上整合多個工作負載。

多租戶平台支援 AI 工作負載的貨币化。5 年期 TCO 分析顯示,該平台的可用時間約為 AI 的 30%,并考慮到典型的每小時 GPU 定價,可提供顯著抵消平台成本的收入。與僅使用 CPU 的系統相比,此 ROA 對每美元名額的性能有重大影響。

根據條形圖顯示,與 x86 CPU 相比,采用 AI 創收的 GPU 的每成本性能提升了 4.1 倍。

結束語

總而言之,Aerial RAN 可提供出色的 TCO 并釋放新的收入機會,進而更大限度地提高投資回報率(ROA)。

NVIDIA 正在改變電信基礎設施,該基礎設施基于 NVIDIA 加速計算平台建構,并由 Aerial 軟體提供支援。Aerial CUDA 加速的 RAN 可滿足電信公司的願望,以 TCO 高效的方式提供市場領先的無線功能,并能夠開始以當今部署的基礎設施無法實作的方式從部署的基礎設施中獲利。

在本文中,我們詳細介紹了使用新算法在 L1 和 L2 上實作的頻譜效率提升,并讨論了基于 RAN 和 LLM 的工作負載加速 AI 工作負載的能力。新一代 NVIDIA 平台将通過提供更高的單元密度和更高的工作負載加速來進一步改進這些關鍵名額。

Aerial CUDA 加速 RAN 作為 NVIDIA 6G 研究雲平台的一部分提供。有關通路的更多資訊,請參閱 NVIDIA Aerial:

繼續閱讀