天天看點

今天刷屏的Groq晶片速度超英偉達20倍,但也貴40倍

今天刷屏的Groq晶片速度超英偉達20倍,但也貴40倍

”速度,在這裡成了Groq的雙刃劍。“

今天刷屏的Groq晶片速度超英偉達20倍,但也貴40倍
今天刷屏的Groq晶片速度超英偉達20倍,但也貴40倍

财報釋出前兩天,英偉達突然冒出來一個勁敵。

一家名叫Groq的公司今天在AI圈内刷屏,殺招就一個:快。

在傳統的生成式AI中,等待是稀松平常的事情,字元一個個蹦出,半天才能回答完畢。但在Groq今天開放的雲服務體驗平台上,你看到的會是一秒一屏。當模型收到提示後,幾乎能夠立即生成答案。這些答案不僅真實可信,還附有引用,長度更是達到數百個單詞。

電子郵件初創企業Otherside AI的首席執行官兼聯合創始人馬特·舒默(Matt Shumer)在示範中親自體驗了Groq的強大功能。他稱贊Groq快如閃電,能夠在不到一秒鐘的時間内生成數百個單詞的事實性、引用性答案。更令人驚訝的是,它超過3/4的時間用于搜尋資訊,而生成答案的時間卻短到隻有幾分之一秒。

今天刷屏的Groq晶片速度超英偉達20倍,但也貴40倍

雖然今天才刷屏,但Groq公司并非初出茅廬的新創企業。實際上,該公司成立于2016年,并在那時就注冊了Groq商标。去年11月,當馬斯克釋出人工智能模型Grok時,Groq公司的開發者們就發了一篇文章說馬斯克撞名自己的公司。信寫的挺逗的,但這波流量他們是一點沒吃到。

今天刷屏的Groq晶片速度超英偉達20倍,但也貴40倍

當時Groq發給馬斯克的公開信

這一次他們之是以能突然爆發,主要是因為Groq雲服務的上線,讓大家真的能親身感受一下不卡頓的AI用起來有多爽。

有從事人工智能開發的使用者稱贊,Groq是追求低延遲産品的“遊戲規則改變者”,低延遲指的是從處理請求到獲得響應所需的時間。另一位使用者則表示,Groq的LPU在未來有望對GPU在人工智能應用需求方面實作“革命性提升”,并認為它可能成為英偉達A100和H100晶片的“高性能硬體”的有力替代品。

Groq晶片能在速度上取勝的核心技術是LPU

根據其模型的首次公開基準測試結果,Groq雲服務搭載的Llama2或Mistreal模型在計算和響應速度上遠超ChatGPT。這一卓越性能的背後,是Groq團隊為大語言模型(LLM)量身定制的專用晶片(ASIC),它使得Groq每秒可以生成高達500個 token。相比之下,目前ChatGPT-3.5的公開版本每秒隻能生成大約40個token。

今天刷屏的Groq晶片速度超英偉達20倍,但也貴40倍

Groq在速度上遙遙領先

這一晶片能在速度上取勝的核心技術是Groq首創的LPU技術。

根據推特上與Groq關系密切的投資人k_zeroS分享,LPU的工作原理與GPU截然不同。它采用了時序指令集計算機(Temporal Instruction Set Computer)架構,這意味着它無需像使用高帶寬存儲器(HBM)的GPU那樣頻繁地從記憶體中加載資料。這一特點不僅有助于避免HBM短缺的問題,還能有效降低成本。

今天刷屏的Groq晶片速度超英偉達20倍,但也貴40倍

LPU與GPU的對比

不同于Nvidia GPU需要依賴高速資料傳輸,Groq的LPU在其系統中沒有采用高帶寬存儲器(HBM)。它使用的是SRAM,其速度比GPU所用的存儲器快約20倍。

鑒于AI的推理計算相較于模型訓練需要的資料量遠小,Groq的LPU是以更節能。在執行推理任務時,它從外部記憶體讀取的資料更少,消耗的電量也低于Nvidia的GPU。

如果在AI處理場景中采用Groq的LPU,可能就無需為Nvidia GPU配置特殊的存儲解決方案。LPU并不像GPU那樣對存儲速度有極高要求。Groq公司宣稱,其技術能夠通過其強大的晶片和軟體,在AI任務中取代GPU的角色。

另一位安卡拉大學的助教更形象的解釋了一下LPU和GPU的差别,“想象一下,你有兩個勞工,一個來自Groq(我們稱他們為“LPU”),另一個來自Nvidia(我們稱之為“GPU”)。兩人的任務都是盡快整理一大堆檔案。

GPU就像一個速度很快的勞工,但也需要使用高速傳送系統(這就像高帶寬存儲器或HBM)将所有檔案快速傳送到他們的辦公桌上。這個系統可能很昂貴,有時很難得到(因為HBM産能有限)。

另一方面,Groq的LPU就像一個高效組織任務的勞工,他們不需要那麼快地傳遞檔案,是以用了一張就放在他們身邊的更小的桌子(這就像SRAM,一種更快但更小的存儲器),是以他們幾乎可以立即獲得所需的東西。這意味着他們可以在不依賴快速傳遞系統的情況下快速工作。

對于不需要檢視堆中每一篇檔案的任務(類似于不使用那麼多資料的人工智能任務),LPU甚至更好。它不需要像往常一樣來回移動,既節省了能源,又能快速完成工作。

今天刷屏的Groq晶片速度超英偉達20倍,但也貴40倍

LPU結構

LPU組織工作的特殊方式(這是時态指令集計算機體系結構)意味着它不必一直站起來從堆裡搶更多的論文。這與GPU不同,GPU不斷需要高速系統提供更多的檔案。”

确實快,但是貴,目前并不能成為英偉達的競争對手

在Groq剛剛刷屏的時候,AI行業都沉浸在它閃電速度的震撼之中。然而震撼過後,很多行業大佬一算賬,發現這個快的代價可能有點高。

賈揚清在推特上算了一筆賬,因為Groq小的可憐的記憶體容量(230MB),在運作Llama-2 70b模型時,需要305張Groq卡才足夠,而用H100則隻需要8張卡。從目前的價格來看,這意味着在同等吞吐量下,Groq的硬體成本是H100的40倍,能耗成本是10倍。

晶片專家姚金鑫(J叔)向騰訊科技進行了更詳細的解釋:

按照Groq的資訊,這顆AI晶片的規格如下:

今天刷屏的Groq晶片速度超英偉達20倍,但也貴40倍

從晶片的規格中,可以看到幾個關鍵資訊點:SRAM的容量是230MB,帶寬80TB/s,FP16的算力是188TFLOPs。

按照目前對大模型的推理部署,7B的模型大約需要14G以上的記憶體容量,那麼為了部署一個7B的模型,大約需要70片左右的晶片,根據透露的資訊,一顆晶片對應一張計算卡,按照4U伺服器配置8張計算卡來計算,就需要9台4U伺服器(幾乎占了一個标準機櫃了),總共72顆計算晶片,在這種情況下,算力(在FP16下)也達到了驚人的188T * 72 = 13.5P,如果按照INT8來算就是54P。54P的算力來推理7B的大模型,用大炮打蚊子來形容一點也不為過。

目前社交媒體廣泛傳播的文章對标的是英偉達H100,其采用的是80G的HBM,這個容量可以部署5個7B的大模型執行個體;我們再來看算力,稀疏化後,H100在FP16下的算力将近2P,在INT8上也将近4P。

那麼就可以做個對比,如果從同等算力來看,如果都是用INT8來推理,采用Groq的方案需要9台包含72片的伺服器叢集,而如果是H100,達到同等算力大約需要2台8卡伺服器,此時的INT8算力已經到64P,可以同時部署的7B大模型數量達到80多個。

原文中提到,Groq對Llama2-7B的Token生成速度是750 Tokens/s,如果對标的是H100伺服器,那這2台總共16顆的H100晶片,并發吞吐就高到不知道哪裡去了。如果從成本的角度,9台的Groq伺服器,也是遠遠貴過2台H100的伺服器(即使此刻價格已經高到離譜)。

● Groq:2萬美金*72=144萬美金,伺服器2萬美金*9=18萬美金,純的BOM成本160萬美金以上(全部都是按照最低方式來計算)。

● H100: 30萬美金*2 = 60萬美金(國外),300萬人民币*2=600萬人民币(國内實際市場價)

如果是70B的模型,同樣是INT8,要用到至少600張卡,将近80台伺服器,成本會更高。

這還沒有算機架相關費用,和消耗的電費(9台4U伺服器幾乎占用整個标準機櫃)。

實際上,部署推理成本效益最高的,恰恰是4090這種神卡。

Groq是否真的超越了英偉達?對此,姚金鑫(J叔)也表達了自己不同的看法:

“英偉達在本次AI浪潮中的絕對領先地位,使得全球都翹首以盼挑戰者。每次吸引眼球的文章,總會在最初被人相信,除了這個原因之外,還是因為在做對比時的“套路”,故意忽略其他因素,用單一次元來做比較。這就好比那句名言“抛開事實不談,難道你就沒有一點錯的地方嗎?”

抛開場景來談對比,其實是不合适的。對于Groq這種架構來講,也有其盡顯長處的應用場景,畢竟這麼高的帶寬,對許多需要頻繁資料搬運的場景來說,那就是再好不過了。

總結起來,Groq的架建構立在小記憶體,大算力上,是以有限的被處理的内容對應着極高的算力,導緻其速度非常快。

現在把句話反過來,Groq極高的速度是建立在很有限的單卡吞吐能力上的。要保證和 H100同樣吞吐量,你就需要更多的卡。

速度,在這裡成了Groq的雙刃劍。”

傳奇CEO,小團隊

雖然Groq還面對着很多潛在的問題,但它還是讓人看到了GPU之外的可能路徑。這主要得益于其背後的超強團隊。

Groq的CEO是被稱為“TPU之父”的前谷歌員工喬納森·羅斯;聯合創始人道格拉斯·懷特曼也來自谷歌TPU團隊,并先後創立了四家公司。該公司首席技術官吉姆·米勒曾是亞馬遜雲計算服務AWS設計算力硬體的負責人,CMO曾主導了蘋果Macintosh的市場釋出。

今天刷屏的Groq晶片速度超英偉達20倍,但也貴40倍

喬納森·羅斯

Groq目前的團隊也相對較小,其總部位于加州山景城,該公司僅有180餘名員工,甚至還不到英特爾等大型晶片制造商所需工程師數量的四分之一。

羅斯等人的目标是在Groq複制他在谷歌的成功經驗,打造一個内部晶片項目,引領整個行業向新技術邁進。他希望吸引少數關鍵客戶,通過廣泛部署Groq晶片為公司提供穩定的收入來源,推動公司的獨立發展。目前,這家初創公司已開始向潛在客戶發送樣品。

“這就像獵殺大象,”羅斯說道,“你隻需要少數獵物就能維持自己的生命,尤其在我們還如此弱小的時候。”

繼續閱讀