編輯：潤好困

【新智元導讀】最近，兩位哈佛辍學生共同創立的AI晶片公司，估值已達3400萬美元，并計劃明年傳遞一款名為「Sohu」的AI推理加速晶片——其LLM推理性能達到H100的10倍，而單價吞吐量更是高達140倍。

像Pika一樣的神級創業故事又要再次上演了？

兩位哈佛退學的年輕人，想要制造一款專用于大語言模型加速的AI加速器晶片，将于2024年第三季度傳遞，推理性能達H100的10倍。

在今年6月份，兩位創始人Gavin Uberti和Chris Zhu創立了Etched.ai，獲得了包括Ebay前CEO Devin Wenig在内一衆風投機構的536萬美元的種子輪投資。

公司估值更是高達3400萬美元！

根據公司官網上放出的資料，這款晶片将在硬體層面上內建Transformer構架，将推理速度相比于英偉達H100提升了8-10倍！

他們将第一款LLM加速晶片命名為「Sohu」，号稱可以在毫秒級别的時間裡處理數千個單詞。

晶片還支援通過樹搜尋更好地編碼，能夠并行比較數百個響應。

還支援多重推測解碼（Multicast speculative decoding），可以實時生成新的内容。

根據官方公布的具體細節，這款晶片隻有一個核心，但是配備了144GB的HBM3e顯存：

- 完全開源的軟體棧，可擴充至100T參數型号

- 支援波束搜尋（Beam search）和MCTS解碼

- 支援MoE和Transformer的各種變體

兩個哈佛辍學大學生挑戰晶片行業最頂尖業務

兩人原本計劃從哈佛休學一年，在一家晶片公司找到了一份負責ApacheTVM開源編譯器和微核心的工作。

但在工作中，他們發現Arm的指令集中的一些低效設計使得他們的工作效率很差。

當他們思考如何系統性地解決這個問題時，發現可以利用這個思路來設計一款針對當下爆火的AI加速晶片。

在創始人之一的Uberti看來，通用設計無法獲得他們正在研發的專有加速晶片所能帶來的那種性能提升：

「必須在單一架構上下大力氣，讓晶片處理AI任務，目标太大了，必須要針對更具體的任務來設計晶片......我們認為英偉達最終會這麼做。」

在他們兩人看來，這個市場機會太大了，一定不能錯過。

「如果你回顧四年前的GPT-2，與Meta最近的 Llama模型相比，隻有兩個差別——大小和激活函數。訓練方式存在差異，但這對于推理來說并不重要。」

Transformer的基本元件是固定的，雖然存在細微差别，但他們并不擔心短期之内就會出現新的構架代替Transformer。

是以他們決定做一個Transformer構架的專用內建電路（ASIC），在未來和英偉達等一系列晶片巨頭在大模型推理市場中競争。

他們認為，Etched.ai推出的第一款晶片，相比于H100，機關價格内将獲得140倍的吞吐量性能！

二到底是什麼樣的背景，能讓兩個大學還沒有畢業的學生，敢于挑戰晶片業目前最炙手可熱的賽道呢？

創始人兼公司CEO Gavin Uberti自從2020進入哈佛之後，就一直在校外兼職，在2022年底，成立了Etched.ai。

在進入大學之前，他參與了美國最著名的青少年科技創新大賽FIRST Tech Challenge，團隊獲得了Top 10獎項。團隊開發的自動駕駛軟體排在600個參賽團隊第二名。

另一位創始人Chris Zhu，也是在哈佛就讀時就在校外瘋狂實習，甚至還沒有從哈佛畢業，就已經成為兼職教員。

AMD MI300X決戰NVIDIA H100

而英偉達和AMD這邊，最近打得更是熱火朝天，甚至連官方都直接下場寫部落格硬剛。

就在前段時間，AMD高調釋出了自家最強的AI晶片MI300X。

PPT顯示，由8塊MI300X組成的伺服器在大模型推理方面的表現，要比同樣規模的H100速度最高提升1.6倍之多。

對于AMD來說，這種直接對标，實屬罕見。

對此，英偉達很快就發表了一篇部落格文章，駁斥AMD的評測不客觀。

英偉達表示，如果H100 GPU使用了優化過的軟體進行正确的基準測試，它的性能将大大超過MI300X。

作為回應，英偉達展示了采用TensorRT-LLM優化設定後，兩款GPU在Llama 2 70B上的比較結果。

文章位址：https://developer.nvidia.com/blog/achieving-top-inference-performance-with-the-nvidia-h100-tensor-core-gpu-and-nvidia-tensorrt-llm/

可以看到，當批處理大小設定為1時，H100的性能達到了MI300X的2倍。

甚至，當采用與AMD相同的2.5秒延遲時，H100的性能可以達到MI300X的14倍之多。

英偉達表示，AMD采用的替代軟體不支援Hopper的Transformer Engine，并且忽略了TensorRT-LLM中的關鍵優化功能。而這些都可以在GitHub上免費擷取。

AMD毫不示弱

見狀，AMD也發文表示，既然要用優化，那就大家都用。

而即便是在這種情況下，MI300X的性能依然比H100強了30%。

文章位址：https://community.amd.com/t5/instinct-accelerators/competitive-performance-claims-and-industry-leading-inference/ba-p/652304

具體來說：

1. 在同樣采用vLLM FP16的設定時，相比于釋出會上展示的1.4倍性能，AMD最新的優化已經讓這一優勢擴大到了2.1倍。

2. 與使用TensorRT-LLM優化的H100相比，使用vLLM的MI300X實作了1.3倍的延遲改善。

3. 相比于采用低精度FP8和TensorRT-LLM的H100，使用vLLM和高精度FP16的MI300X在絕對延遲方面，表現更好。

AMD指出，英偉達在H100上進行基準測試時使用的是自家專有的技術TensorRT-LLM，而非更廣泛使用的vLLM。

此外，在延遲方面，英偉達隻關注吞吐量的性能，卻忽視了實際工作中的延遲問題。

最後，AMD表示，之是以選擇使用FP16，是因為它非常流行，而且目前vLLM還不支援FP8。

GPU大戰進入白熱化

在人工智能加速器領域，一些公司擁有針對特定工作負載的專門架構。

資料中心的專用架構主要集中在DLRM（深度學習推薦模型），因為GPU很難加速這類任務。

Meta最近宣布已經建構了自己的DLRM推理晶片，并且已經得到廣泛部署。

而對于Transformer構架的加速，英偉達是通過在H100 GPU中部署Transformer Engine的軟體功能來實作的。

Transformer Engine使得LLM推理無需進一步量化即可進行，大大加速了GPU推理LLM的效果。

而Etched.ai要做的就是更近一步，在硬體層面完成這個設計，進而使得LLM的推理速度和能效都更上一層樓。

而投資人之是以願意給兩位大學辍學生投入如此之大的一筆錢，更重要的是迄今為止，所有人都認為現在LLM推理的成本過高，其中一定有創新的空間。

除了這樣的明星初創公司以外，傳統巨頭對于大模型推理市場同樣抱有很高的期待。

蘇媽在各種場合不斷表示，未來大模型推理市場的規模将遠遠大于模型訓練市場。是以AMD也一直在強調自己的産品已經對這個市場做好了充分地準備。

從英偉達和AMD首次公開對比自家産品的性能這件事來看，GPU領域的競争顯然正在加劇。

目前，英偉達除了要面對AMD的挑戰之外，還需要考慮英特爾和Cerebras取得的快速進展。

就在12月14日，首席執行官Pat Gelsinger展示了英特爾最新的AI晶片——采用5nm工藝制程，性能提升了1.5倍的Gaudi 3。

相比于上一代Gaudi 2，Gaudi 3的BFloat16性能提升了4倍，計算能力提升2倍，顯存容量提升50%達到144GB，并且采用的是HBM3或HBM3e。

同樣，英偉達也計劃在明年初推出GH200超級晶片。

鑒于競争如此激烈，AMD可能會被諸如微軟、Meta和甲骨文這些已經宣布将其技術內建到資料中心的公司，視為備選方案。

Gelsinger預測，到2027年，GPU市場規模将達到驚人的4000億美元，這無疑為激烈的競争提供了廣闊的舞台。

Cerebras Systems的CEO Andrew Feldman更是毫不遮掩自己的野心：「我們正在努力超越英偉達，到明年，我們将建構高達36 exaflops的AI算力。」

參考資料：

https://www.etched.ai/

https://analyticsindiamag.com/gpu-battle-nvidia-vs-amd/

https://www.eetimes.com/harvard-dropouts-raise-5-million-for-llm-accelerator/

21歲華裔小哥哈佛辍學開發AI加速晶片Sohu，2人公司估值3400萬刀

【新智元導讀】最近，兩位哈佛辍學生共同創立的AI晶片公司，估值已達3400萬美元，并計劃明年傳遞一款名為「Sohu」的AI推理加速晶片——其LLM推理性能達到H100的10倍，而單價吞吐量更是高達140倍。

AMD毫不示弱

繼續閱讀

華為開發者大會：HarmonyOS Next系統、盤古5.0大模型等技術亮相

為什麼要開發白沙新城

全球第一枚3nm晶片問世，不是台積電生産，高端半導體晶片有多難

最具價值的：零售業+旅遊+飛行汽車+光伏+鴻蒙+半導體+晶片

晶片概念，6月14日主力資金大幅流入詳情

港媒：美國制裁是催化劑，中國科學家研發無限壽命存儲晶片材料

美論壇：美國能在晶片戰争中赢中國嗎？能阻止他們成為世界第一？

中國晶片可能全球第一？今年前5個月的資料顯示，已超越汽車出口

今年前5個月的資料，中國晶片可能全球第1，超越汽車出口！

華為Mate X6手機已在路上，搭載麒麟9100晶片，采用側邊電容式指紋

分享10個每個開發者都應該掌握的TypeScript進階特性

8295晶片讓智能更出色，6月購車權益也豐富

如何全面推進綠色礦山建設？專家：資源開發與環境保護是綠色礦山的建設重點

對話Gartner研究副總裁盛陵海：美國持續更新AI晶片管制，對中國AI發展影響幾何？｜钛媒體AGI

探索高性能解碼晶片的世界CS4398、ESS 9038、WM8741 和 PCM1798！

“鄧超微網誌電影之夜被架走，笑翻全場，人類對他的開發不足1%！”