明年推出256核3nm CPU！Ampere公布未來路線圖，用CPU加速AI計算

芯東西

2024-05-17 19:17釋出于北京芯東西官方賬号

明年推出256核3nm CPU！Ampere公布未來路線圖，用CPU加速AI計算

智東西

作者 | ZeR0

編輯 | 漠影

智東西5月17日報道，今日，美國明星雲原生CPU創企Ampere Computing公布年度戰略和全新CPU産品路線圖更新，宣布2025年将推出下一代旗艦産品3nm AmpereOne CPU，最多支援256核和12通道DDR5記憶體。

3nm AmpereOne CPU将采用與現有192核AmpereOne CPU相同的風冷散熱解決方案。Ampere号稱其性能“比當今市面上任何CPU都高出40%以上”。

Oracle已經在Ampere CPU上部署了Llama、Mistral等大語言模型。Llama 3已在Oracle Cloud的Ampere CPU上運作。性能資料顯示，在沒GPU的128核Ampere Altra CPU上運作Llama 3-8B，可實作與搭配x86 CPU的NVIDIA A10 GPU相同的性能，同時僅消耗1/3的電量。

同時，Ampere宣布與高通合作，利用高通的Cloud AI 100推理加速卡與Ampere CPU開發AI推理的聯合解決方案，以解決全球最大的生成式AI大語言模型推理問題。

在AI平台聯盟中，Ampere成立了UCIe工作組，将利用開放接口技術增強其CPU的靈活性，使其能夠将其他客戶IP整合到未來的CPU中。

新的AmpereOne OEM和ODM平台将在幾個月内發貨。其客戶群正在不斷擴大。

一、“雲計算和AI計算行業能效最高的CPU”

上一代AmpereOne采用5nm工藝節點，擁有192個單線程Ampere自研核心、大型雲優化私有緩存、每核2MB二級緩存。

在AI方面，AmpereOne每個核心有2個128位向量單元，支援bf16、int8、int16、fp16等精度。

Ampere号稱它是“雲計算和AI計算行業中能效最高、性能最高的CPU”，每瓦性能比AMD Genoa高出50%，比Bergamo高出15%。

對于希望更新和整合舊基礎設施以節省空間、預算和電力的資料中心，AmpereOne可為每個機架提供高達34%的性能提升。

在提高每機架性能方面，AmpereOne比AMD Genoa提高了58%，比Bergamo提高了42%。

在傳遞路線圖時，Ampere考慮到資料中心部署的友善性，其CPU與行業标準設計相容，無需使用液冷或非标準外形來更改設計。

Ampere記憶體标簽有助于防止利用緩沖區溢出的惡意代碼進行安全攻擊，這些攻擊可覆寫記憶體并公開安全資料。

啟用Ampere記憶體标簽擴充後，軟體記憶體管理運作時會将密鑰标簽與每個軟體關聯起來。程式中的指針和存儲器中具有相應資料的鎖标簽，這樣可以確定程式的正确密鑰标簽通路正确的實體記憶體位址。

當程式正在執行和通路存儲器時，SoC将每個指針标簽與存儲器标簽進行比較，如果标簽不比對，則會标記錯誤并停止程式執行，進而有效地防止惡意攻擊。

Ampere Quality of Service Enforcement能夠在滿足SLA的同時，對在單個SoC上同時運作的多個應用程式、虛拟機或容器所使用的共享緩存和記憶體資源進行受控配置設定。

在具有不同需求的多租戶環境中，應用程式争奪共享記憶體和緩存資源，每一種可能對帶寬、延遲和容量都有自己的敏感度。AmpereOne確定配置設定最小門檻值的共享資源，進而使對延遲敏感的應用程式不會受到另一個可能占用帶寬的應用程式的負面影響。

這裡是一個對延遲敏感的應用程式，如視訊流，以紅色顯示，保證了共享緩存的配置設定；灰色應用程式可能是郵件伺服器，具有第二優先級和較小的保證配置設定；而黑色應用程式可能是日志實用程式，沒有優先級。這允許跨所有應用程式提供一緻的性能和可預測的服務。

除了記憶體标簽、QoS Enforcement和網格擁塞管理等現有功能外，Ampere還推出了一項新的FlexSKU功能，允許客戶使用相同的SKU來解決橫向擴充和縱向擴充用例。

二、運作80億參數Llama 3模型，功耗隻有x86 CPU+A10 GPU的1/3

“真正的藝術在于建設一種在相同功率下可以提供30%以上性能的産品，”Ampere Computing創始人兼CEO Renee James說，“我們認為未來的資料中心基礎設施必須考慮如何用更新的AI計算改造現有的風冷環境，以及建設可持續的新型資料中心，進而适應電網上的可用電力。”

她談道，Ampere有兩個使命：建設高性能、可持續計算的未來，并使廣大的行業合作夥伴和使用者能夠使用其産品，建立一個開放的生态系統，讓Ampere CPU成為許多公司發明背後的引擎。

AI等颠覆性技術的出現引起資料量指數級增長，推動對更多資料中心和電力的需求。

據最新報道，國際能源機構預測全球資料中心電力需求量将從2022年的400多TWh攀升到2026年的1000TWh，大緻相當于日本全國的用電量。

是以，随着AI計算加速，建構最大化的計算效率至關重要。

比如搜尋工具，內建AI後将極大增加對電力的需求，一個典型的頁面搜尋平均耗電量是0.3Wh，而一個典型的ChatGPT請求處理需要耗電2.9Wh，近10倍的增長。

Ampere專注于應對AI帶來的能效挑戰。當運作最新Llama 3 80億參數大語言模型時，企業可能預設使用一張NVIDIA A10 GPU搭配x86 CPU，這個配置可以提供每秒30個token的性能，而僅僅CPU和GPU就要消耗420W的電力。

如果用Ampere Altra Max 128核CPU來獨立運作該模型，無需GPU，在提供同樣性能的情況下，功耗隻有1/3。

“低功耗曾經是低性能的代名詞。Ampere已經證明事實并非如此。我們開創了計算效率的前沿，并在高效的計算範圍内提供了超越傳統CPU的性能。”Renee James說。

三、支援高性能AI推理，比GPU方案大幅省錢

Ampere Computing首席産品官Jeff Wittich分享了Ampere對“AI計算”的願景，将傳統的雲原生功能融合到AI。

“我們的Ampere CPU可以運作一系列工作負載——從最流行的雲原生應用程式到AI。這包括與傳統雲原生應用程式內建的 AI，例如資料處理、Web服務、媒體傳遞等。”他談道。

AI訓練隻占15%的AI總計算周期，動辄連續運作幾天、幾周乃至幾個月，需要使用專用的AI訓練硬體。而AI推理是一系列較小的、單獨任務，每秒運作百萬或十億次，合計占用AI總計算周期的85%。

Ampere平台支援在沒有GPU的情況下進行AI推理。先前經訓練的模型，如用了TensorFlow、PyTorch、ONNX等常見架構，開箱運作即可得高性能。

Ampere宣布與NETINT聯合推出解決方案，使用該公司的Quadra T1U視訊處理晶片和Ampere CPU，使用OpenAI的Whisper模型實時轉碼360個直播頻道，為40個流媒體提供實時多語言字幕。

建構完整的AI伺服器，不僅要拓展AI方案的可通路性，而且要在伺服器和機架層面提供性能和功耗最優化的方案，即意味着與基于GPU的方案相比，最高5倍的每美元性能。

據介紹，英偉達正在推廣的高端AI解決方案DGX是一個10.2千瓦的大機櫃，價格接近50萬美元，大規模部署時需要占用很大的空間和資料中心基礎設施，在運作像Whisper這樣的AI模型時，每秒推理性能隻有Ampere CPU的20%。

當沒有完全加載AI需求時，GPU無法執行其他計算任務。由于對各種工作負載的需求會随着時間推移而波動，Ampere團隊認為此時一個可運作從AI到Web伺服器再到資料庫的解決方案才是最佳的。

結語：用CPU加速AI推理，讓資料中心更高效可持續

Ampere是一家開放平台公司，支援其他晶片供應商和合作夥伴連接配接到Ampere的計算CPU，并為不同的市場領域建構內建産品。該公司正将其他客戶IP納入其未來的CPU中，旨在建構一個開放的橫向創新平台，不斷擴大IP組合，滿足一系列不同的資料中心需求。

Renee James還談到對一些公司自研CPU、實作計算完全垂直化的看法。在她看來，這在理論上聽起來不錯，但在實踐中存在一些問題，最重要的是對于大多數公司來說在經濟或技術上都不可行。她相信行業必須在AI計算方面找到一個新方向，而Ampere的方法将引領資料中心走向更高效、更可持續的未來。

檢視原圖 310K