天天看點

IEEE: SambaNova的新晶片可運作比OpenAI的ChatGPT進階版大兩倍以上的模型

作者:中關村線上

随着各大公司争相加入人工智能的潮流,晶片和人才供不應求。初創公司SambaNova聲稱,其新處理器可以幫助公司在幾天内建立并運作自己的大型語言模型(LLM)。

IEEE: SambaNova的新晶片可運作比OpenAI的ChatGPT進階版大兩倍以上的模型

SAMBANOVA

這家總部位于帕洛阿爾托的公司已經籌集了超過10億美元的風險投資,不會直接向公司出售晶片。相反,它出售其定制技術堆棧的通路權限,該堆棧具有專門為運作最大的人工智能模型而設計的專有硬體和軟體。

在該公司推出新的SN40L處理器後,該技術堆棧現在得到了重大更新。每個器件采用台灣晶片巨頭台灣半導體制造有限公司的5納米工藝制造,具有1020億個半導體,分布在1040個核上,速度高達638萬億次。它還有一個新穎的三層記憶體系統,旨在應對與人工智能工作負載相關的巨大資料流。

“A trillionparameters is actually not a big model if you can run it on eight [chips].”—Rodrigo Liang, SambaNova

SambaNova聲稱,一個僅由八個晶片組成的節點能夠支援多達5萬億個參數的模型,這幾乎是OpenAI GPT-4 LLM報告大小的三倍。序列長度(衡量模型可以處理的輸入長度)高達256000個令牌。首席執行官Rodrigo Liang表示,使用行業标準GPU也需要數百個晶片,這意味着總擁有成本不到行業标準方法的1/25。

Liang說:“如果你能在八個晶片插座上運作一萬億個參數,那麼它實際上并不是一個大模型。我們正在瓦解成本結構,并真正重構人們對此的看法,而不是将萬億參數模型視為無法通路的東西。”

新晶片使用了與該公司以前的處理器相同的資料流架構。SambaNova的基本論點是,現有的晶片設計過于關注簡化指令流,但對于大多數機器學習應用程式來說,資料的高效移動是一個更大的瓶頸。

為了解決這一問題,該公司的晶片采用了一個由高速交換結構連接配接的存儲器和計算單元組成的平鋪陣列,這使得根據手頭的問題動态重新配置單元的連接配接方式成為可能。這與該公司的SambaFlow軟體協同工作,該軟體可以分析機器學習模型,并找出連接配接單元的最佳方式,以確定無縫資料流和最大限度地使用硬體。

除了從7納米工藝轉變為5納米工藝外,該公司最新晶片與其前身SN30的主要差別在于增加了第三層存儲層。早期的晶片具有640兆位元組的片上SRAM和1兆位元組的外部DRAM,但SN40L将具有520兆位元組的晶片上存儲器、1.5兆位元組的内部存儲器和額外的64兆位元組的高帶寬存儲器(HBM)。

記憶體越來越成為人工智能晶片的一個關鍵差別,因為生成的人工智能模型不斷膨脹,這意味着移動資料對性能的拖累往往大于原始計算能力。這促使公司提高晶片上的記憶體量和速度。SambaNova并不是第一個求助于HBM來對抗這種所謂的記憶體牆的公司,其新晶片的記憶體比競争對手少——英偉達業界領先的H100 GPU的記憶體為80GB,而AMD即将推出的MI300X GPU的記憶體将為192GB。SambaNova不願透露其記憶體的帶寬資料,是以很難判斷它與其他晶片的對比情況。

Liang說,雖然SambaNova更依賴于較慢的外部記憶體,但它的技術是一種軟體編譯器,可以智能地在三個記憶體層之間配置設定負載。該公司晶片之間的專有互連還允許編譯器将八個處理器的設定視為單個系統。Liang表示:“訓練中的表現将會非常棒。”

SambaNova對如何處理人工智能晶片的另一個熱門話題——稀疏性也持謹慎态度。LLM中的許多權重都設定為零,是以對它們執行操作是浪費計算。找到利用這種稀疏性的方法可以提供顯著的加速。SambaNova在其宣傳材料中聲稱,SN40L“提供密集和稀疏計算”。Liang說,這在一定程度上是通過排程和如何将資料帶到晶片上在軟體層實作的,但他也拒絕讨論硬體元件。“稀疏問題是一個戰場,”他說,“是以我們還沒有準備好透露我們是如何做到的。”

幫助人工智能晶片更快、更便宜地運作大型模型的另一個常見技巧是降低參數的表示精度。SN40L使用谷歌工程師發明的bfloat16數字格式,也支援8位精度,但Liang表示,低精度計算不是他們的重點,因為他們的架構已經允許他們在更小的占地面積上運作模型。

Liang表示,該公司的技術堆棧明确專注于運作最大的人工智能模型——他們的目标閱聽人是世界上2000家最大的公司。銷售宣傳是,這些公司坐擁大量資料,但他們不知道其中大部分都在說什麼。SambaNova表示,它可以提供建構人工智能模型所需的所有硬體和軟體,解鎖這些資料,而無需公司為晶片或人工智能人才而戰。Liang說:“你可以在幾天内啟動并運作,而不是幾個月或幾個季度。現在每家公司都可以擁有自己的GPT模型。”

Gartner分析師Chirag Dekate表示,SN40L可能比競争對手硬體具有顯著優勢的一個領域是多模式人工智能。他表示,生成型人工智能的未來是可以處理各種不同類型資料的大型模型,如圖像、視訊和文本,但這會導緻高度可變的工作負載。Dekate說,GPU中相當嚴格的體系結構不太适合這種工作,但這正是SambaNova對可重構性的關注所在。“你可以調整硬體以滿足工作負載的要求,”他說。

然而,Dekate說,像SambaNova制造的定制人工智能晶片确實在性能和靈活性之間進行了權衡。盡管GPU可能沒有那麼強大,但它們幾乎可以開箱即用地運作任何神經網絡,并得到強大的軟體生态系統的支援。Dekate指出,SambaNova一直在建立一個客戶可以利用的預烘焙模型目錄,但英偉達在人工智能開發各個方面的主導地位是一個重大挑戰。

Dekate說:“這種架構實際上優于傳統的GPU架構。但除非你把這些技術掌握在客戶手中,實作大規模消費化,否則我認為你很可能會陷入困境。”

咨詢公司SemiAnalysis的首席分析師Dylan Patel表示,由于英偉達也在通過其DGX雲産品進軍全棧人工智能即服務市場,這将更加具有挑戰性。“晶片是向前邁出的重要一步,”他說。

(8359992)

繼續閱讀