天天看點

AMD GPU 即将開源

作者:電子技術應用ChinaAET
AMD GPU 即将開源

AMD 表示,它有望在 5 月底釋出其微引擎排程程式 (MES) 文檔,随後釋出源代碼。然後,它将繼續以開源方式釋出 Radeon 堆棧的其他部分。該聲明似乎是為了回應Tiny Corp 的 Tweet/X,該公司幾個月來一直在社交媒體上公開與 AMD 通信(并經常批評)。

AMD GPU 即将開源

近幾個月來,Tiny Corp 和 AMD 之間的讨論多次成為頭條新聞。前者設計并預售了 TinyBox AI 伺服器,該伺服器由于使用相對便宜的 AMD Radeon GPU 而引起了人們的興趣。然而,該公司的社交媒體及其創始人喬治·霍茨(George Hotz) 發現消費者級卡的行為不适合伺服器級或企業級,是以變得非常直言不諱。

簡而言之,Tiny Corp 希望更多/更深入地通路 AMD 硬體、固件和驅動程式 IP。該公司認為,隻要能夠充分通路固件和驅動程式堆棧,就可以使 Tiny Box 發揮其宣傳的功能。盡管 Tiny Corp 是一家小公司,AMD 仍參與其中,甚至蘇姿豐博士在 3 月初也加入了對話。早在三月份,Su 就表示“團隊正在努力”,但 Tiny Corp 至今仍對自己所處的情況感到不滿。

“我們正努力在 5 月底釋出微引擎排程程式 (MES) 文檔,并将跟進已釋出的源代碼以供外部審查和回報,” AMD Radeon Twitter/X 官方帳戶在 4 月初指出。“我們還開放了 GitHub 跟蹤器,其中将提供有關修複和釋出日期的最新狀态。”

今天,我們看到 AMD 文檔和開源進展的重大更新。在回應 Tiny Corp 的進一步諷刺時,紅隊圖形部門重申了本月早些時候的 MES 文檔聲明。它補充說,“Radeon 堆棧的其他部分将在全年開源”,然後訓示感興趣的各方密切關注GitHub 存儲庫。

Tiny Corp 已經對 AMD 的聲明做出了回應,将 MES 消息描述為“轉移注意力”,并要求将架構的更多部分開源,并提供硬體排程程式的文檔,它認為這是 Tiny Box 的原因系統死鎖。

作為對使用 Tiny Box 這樣的伺服器并不特别感興趣的 PC 愛好者,我們仍然對額外 Radeon 文檔和開源軟體的釋出可能給我們帶來的連鎖反應非常感興趣。如果 bug 被消除并通過像 Tiny Corp 這樣的實體進行優化,這對其他 Radeon 使用者來說應該是件好事。此外,這一開放舉措可能有利于 Linux 開發人員和社群尋求從 Radeon 硬體中獲得更多收益。

AMD的AI晶片戰略

如果說 AMD 的故事就像過山車一樣,那是輕描淡寫了。因為2014 年的 AMD 和 2024 年的 AMD 之間存在着巨大的反差。十年前的 AMD 舉步維艱,而今天的 AMD 正在複蘇,關鍵的是,他們已經成為了許多市場的參與者。

與該領域的許多其他參與者一樣,人工智能是主要關注點,該公司在内部建立了專門的人工智能團隊,以涵蓋快速發展的人工智能市場的完整端到端戰略。

最近幾周,AMD 首席執行官蘇姿豐 (Lisa Su) 和計算與圖形部門進階副總裁/總經理 Jack Huynh 均回答了行業分析師提出的有關 AMD 人工智能硬體戰略的性質以及如何看待其産品組合的問題,我們來将其綜合以下。

AMD 的 AI 硬體戰略分為三個方面:

第一個是 AMD 的 Instinct 系列資料中心 GPU,以 MI300 系列的形式零售。

MI300X 有兩種變體,專注于 AI - 它已成功獲得 Microsoft 和 Azure 等大型雲廠商以及TensorWave 等一些較小的以 AI 為中心的雲的采用。

在最新的财報電話會議上,Lisa Su 評論稱,對這些晶片的需求不斷擴大,到 2024 年底,收入将從 20 億美元增加到 35 億美元。在釋出會上,AMD 将自己與 NVIDIA 的 H100 進行了比較,标志着八晶片系統在 ML 訓練中相同,但在 ML 推理中更好。

該系列的另一個變體是 MI300A,提供類似的規格,但是 CPU/GPU 組合,面向高性能計算。它已被采用到計劃中的最大的全球超級計算機 El Captian 中,該計算機将使用機器學習模型來協助保護美國核儲備。

在談到 MI300 的采用時,Lisa 表示:

“我們感到驚喜,很高興看到 MI300 的發展勢頭,以及這種勢頭的來源。大型雲[客戶]通常移動速度最快——從工作負載[到工作負載]。LLM 非常适合 MI300 - 我們的記憶體容量和記憶體帶寬[處于市場領先]。人工智能是最主要的工作負載。[我們]擁有相當廣泛的客戶群,他們有不同的需求 - 有些是訓練,有些是微調,有些是混合的。當我們從客戶開始時,[但是]從模式中失去了信心。[我們在軟體環境方面也花費了]大量工作。新客戶[發現]更容易達到他們的性能期望,因為 ROCm(AMD 的軟體堆棧)正在變得成熟。[我們] [MI300] 最大的工作負載是大型語言模型。”

還應該指出的是,AMD 最近宣布正在将其晶片間通信協定(稱為 Infinity Fabric)擴充到 Arista、Broadcom 和 Cisco 等特定網絡合作夥伴。我們希望這些公司能夠建構 Infinity Fabric 交換機,使 MI300 能夠在單一系統之外實作晶片間通信。

AMD 戰略的第二個方面是他們的用戶端 GPU 系列。

這包括 AMD 的 Radeon 獨立顯示卡 (GPU) 及其 APU,後者由內建到用戶端 CPU 上的 GPU 組成,主要用于筆記本電腦。AMD 人工智能戰略的第一個和第二個方面都依賴于他們的計算堆棧,稱為 ROCm,它是 AMD 與 NVIDIA CUDA 堆棧的競争對手。

關于 ROCm(即使是最新版本)的長期抱怨是企業和消費類硬體之間的支援不一緻 - 隻有 AMD 的 Instinct GPU 能夠正确支援 ROCm 及其相關庫并選擇獨立 GPU,而 CUDA 幾乎可以在所有 NVIDIA 硬體上運作。

然而,傑克在我們的問答中說:

“我們[目前]在我們的 7900 旗艦機上啟用 ROCm,以便您可以執行一些人工智能應用程式。我們将更廣泛地擴充 ROCm。” “有些學校、大學和初創公司可能買不起非常高端的 GPU,但他們想要進行修補。我們希望使該社群成為開發者工具。”

我們希望這意味着 ROCm 對目前一代硬體以及所有未來版本的支援更廣泛 - 不僅僅是他們的旗艦 RX7900 系列。

Lisa 還對 AMD 的軟體堆棧發表了評論:

“最近的大問題是軟體。我們在軟體方面取得了巨大進步。ROCm 6 軟體堆棧是一個重大進步。在軟體方面還有很多工作要做……我們希望抓住巨大的機遇。”

AMD 的第三個方面是他們的 XDNA AI 引擎。

雖然該技術來自 Xilinx,但該 IP 在收購之前已授權給 AMD。這些人工智能引擎正在內建到筆記本電腦處理器中,并将作為微軟 AIPC 計劃的 NPU 呈現,以與英特爾和高通的産品競争。這些 AI 引擎專為低功耗推理而設計,而不是高功耗 GPU 能夠進行的高吞吐量推理或訓練。

在評論 NPU 與 GPU 的地位時,Lisa 說:

“人工智能引擎在某些地方會更加流行,例如個人電腦和筆記本電腦。如果您正在尋找大規模、更多的工作站筆記本電腦,[他們]可能會在該架構中使用 GPU。”

AMD 看到了多種人工智能工作負載和引擎的未來:CPU、GPU 和 NPU。值得注意的是,空間中的其他人都發出同樣的聲音。

Jack評論說:

“[對于] NPU,微軟由于功效而大力推動[它]。NPU 仍然可以驅動體驗,但不會損害電池[壽命]。我們将賭注押在 NPU 上。我們将在 AI 上實作 2 倍和 3 倍……NPU 的關鍵在于電池壽命 - 在桌上型電腦中,您往往不用擔心電池,而且還可以将 [NPU 支援的]自定義資料格式帶入桌上型電腦。”

這種三管齊下的方法使 AMD 能夠在各個方面解決人工智能領域的問題,這表明并非所有雞蛋都必須放在同一個籃子裡。AMD 使用這種方法已經取得了一些成功——在資料中心領域,AMD 被認為是 NVIDIA 最接近的競争對手。MI300 的記憶體容量和帶寬使其能夠與 NVIDIA 的 H100 硬體(我們仍在等待 B100 基準測試)進行良好的競争。NPU 領域仍然太新且不穩定,無法真正确定 AMD 的戰略是否獲得回報;不過,微軟很可能會将 NPU 用于本地機器學習模型,例如助手或“‘co-pilot”模型。

從我們的角度來看,AMD 戰略的弱點在于桌面 GPU 方面,因為整個 AMD 硬體堆棧缺乏近乎普遍的 ROCm 支援。這是一個需要時間才能解決的問題——戰線分裂的缺點之一是資源的劃分。AMD 将要求嚴格的管理,以確定整個公司的工作不會重複。不過,也有積極的一面,AMD 不斷提高對 2024 年資料中心收入的預測,聲稱限制隻是需求,而不是供應。

原文連結

https://www.tomshardware.com/pc-components/gpus/amd-pushes-forward-with-its-radeon-stack-open-sourcing-plans-after-being-prodded-by-tiny-corp

來 源 | 半導體行業觀察(ID:icbank)編譯自tomshardware

AMD GPU 即将開源

☞商務合作:☏ 請緻電 010-82306118 / ✐ 或緻件 [email protected]

AMD GPU 即将開源