天天看點

21歲華裔小哥哈佛辍學開發AI加速晶片Sohu,2人公司估值3400萬刀

作者:新智元

編輯:潤 好困

【新智元導讀】最近,兩位哈佛辍學生共同創立的AI晶片公司,估值已達3400萬美元,并計劃明年傳遞一款名為「Sohu」的AI推理加速晶片——其LLM推理性能達到H100的10倍,而單價吞吐量更是高達140倍。

像Pika一樣的神級創業故事又要再次上演了?

兩位哈佛退學的年輕人,想要制造一款專用于大語言模型加速的AI加速器晶片,将于2024年第三季度傳遞,推理性能達H100的10倍。

21歲華裔小哥哈佛辍學開發AI加速晶片Sohu,2人公司估值3400萬刀

在今年6月份,兩位創始人Gavin Uberti和Chris Zhu創立了Etched.ai,獲得了包括Ebay前CEO Devin Wenig在内一衆風投機構的536萬美元的種子輪投資。

公司估值更是高達3400萬美元!

21歲華裔小哥哈佛辍學開發AI加速晶片Sohu,2人公司估值3400萬刀

根據公司官網上放出的資料,這款晶片将在硬體層面上內建Transformer構架,将推理速度相比于英偉達H100提升了8-10倍!

21歲華裔小哥哈佛辍學開發AI加速晶片Sohu,2人公司估值3400萬刀

他們将第一款LLM加速晶片命名為「Sohu」,号稱可以在毫秒級别的時間裡處理數千個單詞。

21歲華裔小哥哈佛辍學開發AI加速晶片Sohu,2人公司估值3400萬刀
21歲華裔小哥哈佛辍學開發AI加速晶片Sohu,2人公司估值3400萬刀

晶片還支援通過樹搜尋更好地編碼,能夠并行比較數百個響應。

21歲華裔小哥哈佛辍學開發AI加速晶片Sohu,2人公司估值3400萬刀

還支援多重推測解碼(Multicast speculative decoding),可以實時生成新的内容。

21歲華裔小哥哈佛辍學開發AI加速晶片Sohu,2人公司估值3400萬刀

根據官方公布的具體細節,這款晶片隻有一個核心,但是配備了144GB的HBM3e顯存:

- 完全開源的軟體棧,可擴充至100T參數型号

- 支援波束搜尋(Beam search)和MCTS解碼

- 支援MoE和Transformer的各種變體

兩個哈佛辍學大學生挑戰晶片行業最頂尖業務

兩人原本計劃從哈佛休學一年,在一家晶片公司找到了一份負責ApacheTVM開源編譯器和微核心的工作。

但在工作中,他們發現Arm的指令集中的一些低效設計使得他們的工作效率很差。

當他們思考如何系統性地解決這個問題時,發現可以利用這個思路來設計一款針對當下爆火的AI加速晶片。

在創始人之一的Uberti看來,通用設計無法獲得他們正在研發的專有加速晶片所能帶來的那種性能提升:

「必須在單一架構上下大力氣,讓晶片處理AI任務,目标太大了,必須要針對更具體的任務來設計晶片......我們認為英偉達最終會這麼做。」

21歲華裔小哥哈佛辍學開發AI加速晶片Sohu,2人公司估值3400萬刀

在他們兩人看來,這個市場機會太大了,一定不能錯過。

「如果你回顧四年前的GPT-2,與Meta最近的 Llama模型相比,隻有兩個差別——大小和激活函數。訓練方式存在差異,但這對于推理來說并不重要。」

Transformer的基本元件是固定的,雖然存在細微差别,但他們并不擔心短期之内就會出現新的構架代替Transformer。

是以他們決定做一個Transformer構架的專用內建電路(ASIC),在未來和英偉達等一系列晶片巨頭在大模型推理市場中競争。

他們認為,Etched.ai推出的第一款晶片,相比于H100,機關價格内将獲得140倍的吞吐量性能!

二到底是什麼樣的背景,能讓兩個大學還沒有畢業的學生,敢于挑戰晶片業目前最炙手可熱的賽道呢?

21歲華裔小哥哈佛辍學開發AI加速晶片Sohu,2人公司估值3400萬刀

創始人兼公司CEO Gavin Uberti自從2020進入哈佛之後,就一直在校外兼職,在2022年底,成立了Etched.ai。

21歲華裔小哥哈佛辍學開發AI加速晶片Sohu,2人公司估值3400萬刀

在進入大學之前,他參與了美國最著名的青少年科技創新大賽FIRST Tech Challenge,團隊獲得了Top 10獎項。團隊開發的自動駕駛軟體排在600個參賽團隊第二名。

21歲華裔小哥哈佛辍學開發AI加速晶片Sohu,2人公司估值3400萬刀

另一位創始人Chris Zhu,也是在哈佛就讀時就在校外瘋狂實習,甚至還沒有從哈佛畢業,就已經成為兼職教員。

21歲華裔小哥哈佛辍學開發AI加速晶片Sohu,2人公司估值3400萬刀
21歲華裔小哥哈佛辍學開發AI加速晶片Sohu,2人公司估值3400萬刀

AMD MI300X決戰NVIDIA H100

而英偉達和AMD這邊,最近打得更是熱火朝天,甚至連官方都直接下場寫部落格硬剛。

就在前段時間,AMD高調釋出了自家最強的AI晶片MI300X。

PPT顯示,由8塊MI300X組成的伺服器在大模型推理方面的表現,要比同樣規模的H100速度最高提升1.6倍之多。

對于AMD來說,這種直接對标,實屬罕見。

21歲華裔小哥哈佛辍學開發AI加速晶片Sohu,2人公司估值3400萬刀

對此,英偉達很快就發表了一篇部落格文章,駁斥AMD的評測不客觀。

英偉達表示,如果H100 GPU使用了優化過的軟體進行正确的基準測試,它的性能将大大超過MI300X。

作為回應,英偉達展示了采用TensorRT-LLM優化設定後,兩款GPU在Llama 2 70B上的比較結果。

21歲華裔小哥哈佛辍學開發AI加速晶片Sohu,2人公司估值3400萬刀

文章位址:https://developer.nvidia.com/blog/achieving-top-inference-performance-with-the-nvidia-h100-tensor-core-gpu-and-nvidia-tensorrt-llm/

可以看到,當批處理大小設定為1時,H100的性能達到了MI300X的2倍。

甚至,當采用與AMD相同的2.5秒延遲時,H100的性能可以達到MI300X的14倍之多。

英偉達表示,AMD采用的替代軟體不支援Hopper的Transformer Engine,并且忽略了TensorRT-LLM中的關鍵優化功能。而這些都可以在GitHub上免費擷取。

21歲華裔小哥哈佛辍學開發AI加速晶片Sohu,2人公司估值3400萬刀

AMD毫不示弱

見狀,AMD也發文表示,既然要用優化,那就大家都用。

而即便是在這種情況下,MI300X的性能依然比H100強了30%。

21歲華裔小哥哈佛辍學開發AI加速晶片Sohu,2人公司估值3400萬刀

文章位址:https://community.amd.com/t5/instinct-accelerators/competitive-performance-claims-and-industry-leading-inference/ba-p/652304

具體來說:

1. 在同樣采用vLLM FP16的設定時,相比于釋出會上展示的1.4倍性能,AMD最新的優化已經讓這一優勢擴大到了2.1倍。

2. 與使用TensorRT-LLM優化的H100相比,使用vLLM的MI300X實作了1.3倍的延遲改善。

3. 相比于采用低精度FP8和TensorRT-LLM的H100,使用vLLM和高精度FP16的MI300X在絕對延遲方面,表現更好。

21歲華裔小哥哈佛辍學開發AI加速晶片Sohu,2人公司估值3400萬刀

AMD指出,英偉達在H100上進行基準測試時使用的是自家專有的技術TensorRT-LLM,而非更廣泛使用的vLLM。

此外,在延遲方面,英偉達隻關注吞吐量的性能,卻忽視了實際工作中的延遲問題。

最後,AMD表示,之是以選擇使用FP16,是因為它非常流行,而且目前vLLM還不支援FP8。

GPU大戰進入白熱化

在人工智能加速器領域,一些公司擁有針對特定工作負載的專門架構。

21歲華裔小哥哈佛辍學開發AI加速晶片Sohu,2人公司估值3400萬刀

資料中心的專用架構主要集中在DLRM(深度學習推薦模型),因為GPU很難加速這類任務。

Meta最近宣布已經建構了自己的DLRM推理晶片,并且已經得到廣泛部署。

而對于Transformer構架的加速,英偉達是通過在H100 GPU中部署Transformer Engine的軟體功能來實作的。

Transformer Engine使得LLM推理無需進一步量化即可進行,大大加速了GPU推理LLM的效果。

而Etched.ai要做的就是更近一步,在硬體層面完成這個設計,進而使得LLM的推理速度和能效都更上一層樓。

而投資人之是以願意給兩位大學辍學生投入如此之大的一筆錢,更重要的是迄今為止,所有人都認為現在LLM推理的成本過高,其中一定有創新的空間。

除了這樣的明星初創公司以外,傳統巨頭對于大模型推理市場同樣抱有很高的期待。

蘇媽在各種場合不斷表示,未來大模型推理市場的規模将遠遠大于模型訓練市場。是以AMD也一直在強調自己的産品已經對這個市場做好了充分地準備。

21歲華裔小哥哈佛辍學開發AI加速晶片Sohu,2人公司估值3400萬刀

從英偉達和AMD首次公開對比自家産品的性能這件事來看,GPU領域的競争顯然正在加劇。

目前,英偉達除了要面對AMD的挑戰之外,還需要考慮英特爾和Cerebras取得的快速進展。

就在12月14日,首席執行官Pat Gelsinger展示了英特爾最新的AI晶片——采用5nm工藝制程,性能提升了1.5倍的Gaudi 3。

相比于上一代Gaudi 2,Gaudi 3的BFloat16性能提升了4倍,計算能力提升2倍,顯存容量提升50%達到144GB,并且采用的是HBM3或HBM3e。

21歲華裔小哥哈佛辍學開發AI加速晶片Sohu,2人公司估值3400萬刀

同樣,英偉達也計劃在明年初推出GH200超級晶片。

鑒于競争如此激烈,AMD可能會被諸如微軟、Meta和甲骨文這些已經宣布将其技術內建到資料中心的公司,視為備選方案。

Gelsinger預測,到2027年,GPU市場規模将達到驚人的4000億美元,這無疑為激烈的競争提供了廣闊的舞台。

Cerebras Systems的CEO Andrew Feldman更是毫不遮掩自己的野心:「我們正在努力超越英偉達,到明年,我們将建構高達36 exaflops的AI算力。」

參考資料:

https://www.etched.ai/

https://analyticsindiamag.com/gpu-battle-nvidia-vs-amd/

https://www.eetimes.com/harvard-dropouts-raise-5-million-for-llm-accelerator/

繼續閱讀