PCIe 擴充 GPU VRAM 容量新技術 — 實作兩位數納秒延遲！

用于 AI 和 HPC 應用的現代 GPU 内置了有限數量的高帶寬記憶體（HBM），限制了它們在 AI 和其他工作負載中的性能。然而，新技術将允許GPU通過與連接配接到PCIe總線的裝置插入更多記憶體來擴充GPU記憶體容量，而不是局限于GPU内置的記憶體 - 它甚至允許使用SSD進行記憶體容量擴充。Panmnesia 是一家由南韓著名的 KAIST 研究所支援的公司，它開發了一種低延遲的 CXL IP，可用于使用 CXL 記憶體擴充器擴充 GPU 記憶體。

用于 AI 訓練的更進階資料集的記憶體需求正在迅速增長，這意味着 AI 公司要麼必須購買新的 GPU，要麼使用不太複雜的資料集，要麼以犧牲性能為代價使用 CPU 記憶體。盡管 CXL 是一種正式工作在 PCIe 鍊路之上的協定，進而使使用者能夠通過 PCIe 總線将更多記憶體連接配接到系統，但該技術必須得到 ASIC 及其子系統的認可，是以僅添加 CXL 控制器不足以使該技術正常工作，尤其是在 GPU 上。

由于 GPU 中缺少支援 DRAM 和/或 SSD 端點的 CXL 邏輯結構和子系統，Panmnesia 在內建 CXL 以實作 GPU 記憶體擴充時面臨挑戰。此外，GPU 緩存和記憶體子系統無法識别除統一虛拟記憶體（UVM）之外的任何擴充，後者往往很慢。

為了解決這個問題，Panmnesia 開發了一個符合 CXL 3.1 标準的根複合體（RC），配備多個根端口（RP），支援通過 PCIe 外部記憶體，并且具有帶有主機管理裝置記憶體（HDM）解碼器的主橋，該解碼器連接配接到 GPU 的系統總線。HDM 解碼器負責管理系統記憶體的位址範圍，使 GPU 的記憶體子系統“認為”它在處理系統記憶體，但實際上該子系統使用的是通過 PCIe 連接配接的 DRAM 或 NAND。這意味着可以使用 DDR5 或 SSD 來擴充 GPU 記憶體池。

根據 Panmnesia 的說法，這種基于定制 GPU 并标記為 CXL-Opt 的解決方案經過了廣泛測試，顯示出兩位數納秒的往返延遲（相比之下，三星和 Meta 開發的CXL-Proto，在下圖中顯示為 250 納秒），包括标準記憶體操作和 CXL flit 傳輸之間協定轉換所需的時間。它已經成功內建到硬體 RTL 中的記憶體擴充器和 GPU/CPU 原型中，證明其與各種計算硬體的相容性。

根據 Panmnesia 的測試，UVM（統一虛拟記憶體）在所有測試的 GPU 核心中表現最差，這是由于在頁面錯誤期間主機運作時幹預的開銷以及在頁面級别傳輸資料，這往往超過了 GPU 的需求。相比之下，CXL 允許通過加載/存儲指令直接通路擴充存儲，進而消除了這些問題。

是以，CXL-Proto 的執行時間比 UVM 短 1.94 倍。Panmnesia 的 CXL-Opt 進一步将執行時間減少了 1.66 倍，其優化控制器實作了兩位數納秒的延遲，并将讀/寫延遲最小化。這一模式在另一張圖表中也有所展現，圖表顯示了 GPU 核心執行期間記錄的 IPC 值。資料顯示，Panmnesia 的 CXL-Opt 分别比 UVM 和 CXL-Proto 的性能速度快 3.22 倍和 1.65 倍。

總體而言，CXL 支援可以為 AI/HPC GPU 帶來很多好處，但性能是一個大問題。此外，AMD 和 Nvidia 等公司是否會為其 GPU 添加 CXL 支援還有待觀察。如果将PCIe連接配接記憶體用于GPU的方法确實得到了發展，那麼隻有時間才能證明行業重量級人物是否會使用Panmnesia等公司的IP塊，或者隻是開發自己的技術。