馬斯克突發Grok 1.5！上下文長度至128k、HumanEval得分超GPT-4

作者：量子位 2024-03-29 10:05:00

豐色西風發自凹非寺

量子位 | 公衆号 QbitAI

就在剛剛，馬斯克Grok大模型宣布重大更新。

難怪之前突然開源了Grok-1，因為他有更強的Grok-1.5了，主打推理能力。

來自xAI的官方推送啥也沒說，直接甩連結。主打一個“字少事大”（旺柴）

馬斯克突發Grok 1.5！上下文長度至128k、HumanEval得分超GPT-4

新版本Grok有啥突破？

一是上下文長度飙升，從8192增長到128k，和GPT-4齊平。

二是推理性能大幅提升，數學能力直接漲點50%之多、HumanEval資料集上得分超過GPT-4。

消息一出，評論區立刻就躁起來了。

具體跑分結果如何，咱們立馬來看。

Grok-1.5來了

首先，對于上下文視窗。

這次是一把直接提升到之前的16倍，來到128k量級。

這也就意味着Grok可以處理更長和更複雜的提示，同時保持其遵循指令的能力。

在“大海撈針”（NIAH）測試中，Grok-1.5在128K token的上下文中完美檢索嵌入的文本。

整個圖一水兒的藍色（100%的檢索深度）：

其次，推理方面。

Grok-1.5處理程式設計和數學相關任務的能力大幅提升，全面超越Grok-1、Mistral Large、Claude 2。

數學方面，Grok-1.5在MATH基準測試上得分50.6%，超越中杯Claude 3 Sonnet；GSM8K上得分90%。

程式設計方面，Grok-1.5在HumanEval基準測試上得分74.1%，超越中杯Claude 3 Sonnet、Gemini Pro1.5、GPT-4，僅次于大杯Claude 3 Opus。

看起來，Grok這次的實力也是不可小觑。

Grok系列與其他大模型相比還有一個特色，不使用通用的Python語言+Pytorch架構。

據官方介紹，Grok 1.5采用分布式訓練架構，使用Rust、JAX、Kubernetes建構。

為了提高訓練可靠性和維持正常運作時間，團隊提出了自定義訓練協調器，可自動檢測到有問題的節點，然後剔除。

除此之外，他們還優化了checkpointing、資料加載和訓練重新開機等流程，最大限度地減少故障停機時間。

這，才速速有了現在的Grok 1.5～

更多資訊官方也暫時還沒有披露。

可以确定的是，新版本未來幾天會先推送給早期測試者。并按照“老規矩”，很快将在平台上線。

有網友表示，Grok進步真的相當迅速。

有人甚至稱馬斯克這是發了另一個“GPT-4等效模型”，喊着：

OpenAI搞快點啊。

你期待新版本的Grok嗎？

參考連結：

[1]https://twitter.com/xai/status/1773510159740063860

[2]https://x.ai/blog/grok-1.5

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們，第一時間獲知前沿科技動态

馬斯克突發Grok 1.5！上下文長度至128k、HumanEval得分超GPT-4

Grok-1.5來了

繼續閱讀

陰陽怪氣！神舟十八号發射圓滿成功，有人卻說不如馬斯克的SpaceX

獨步全球！比亞迪太陽能全景天窗技術震撼釋出，馬斯克現身關注

上三天班就掙了35000！馬斯克太實在了！特斯拉裁員賠償高到離譜

莫迪等不起！馬斯克計劃投資印度，但在中方提醒後，一切回到起點

賈躍亭喊話馬斯克：我能讓特斯拉再進一步！馬斯克:你在教我做事?

馬斯克：你們怎麼可以對自己同胞這麼無情？

瘋狂的市值蒸發！特斯拉雪崩式裁員，馬斯克緊急“逆襲”計劃曝光

2天在車展走了近5萬步！雷軍再提模仿馬斯克、喬布斯：特意穿了一件淡綠色T恤，避免大家老說我撞衫

特斯拉新款 Model 3 高性能版開售，馬斯克曝平價新車還在路上

傳馬斯克 AI 公司将獲 60 億美元融資；谷歌一季度淨利潤增 57%；「噴打火機器狗」開售，1 萬美元抱回家 | 極客早知道

安踏0碳使命店開幕；VICUTU威可多30周年品牌更新首倡“正裝全場景”；太平鳥品牌VI更新；方裡官宣梅耶·馬斯克｜消研所周報

FSD和華為ADS2.0硬碰硬，馬斯克找到特斯拉股價催化劑

關鍵時刻，馬斯克緊急表态，“砸了”拜登場子

“都怪中國多事”！印度剛批完《環球時報》，馬斯克就反悔不來了

馬斯克這段話讓我停止了内耗。

馬斯克訪京謀求全自動駕駛軟體準許：科技巨頭之行引發猜測