天天看點

馬斯克突發Grok 1.5!上下文長度至128k、HumanEval得分超GPT-4

作者:量子位

豐色 西風 發自 凹非寺

量子位 | 公衆号 QbitAI

就在剛剛,馬斯克Grok大模型宣布重大更新。

難怪之前突然開源了Grok-1,因為他有更強的Grok-1.5了,主打推理能力。

來自xAI的官方推送啥也沒說,直接甩連結。主打一個“字少事大”(旺柴)

馬斯克突發Grok 1.5!上下文長度至128k、HumanEval得分超GPT-4

新版本Grok有啥突破?

一是上下文長度飙升,從8192增長到128k,和GPT-4齊平。

二是推理性能大幅提升,數學能力直接漲點50%之多、HumanEval資料集上得分超過GPT-4。

消息一出,評論區立刻就躁起來了。

馬斯克突發Grok 1.5!上下文長度至128k、HumanEval得分超GPT-4

具體跑分結果如何,咱們立馬來看。

Grok-1.5來了

首先,對于上下文視窗。

這次是一把直接提升到之前的16倍,來到128k量級。

這也就意味着Grok可以處理更長和更複雜的提示,同時保持其遵循指令的能力。

在“大海撈針”(NIAH)測試中,Grok-1.5在128K token的上下文中完美檢索嵌入的文本。

整個圖一水兒的藍色(100%的檢索深度):

馬斯克突發Grok 1.5!上下文長度至128k、HumanEval得分超GPT-4

其次,推理方面。

Grok-1.5處理程式設計和數學相關任務的能力大幅提升,全面超越Grok-1、Mistral Large、Claude 2。

數學方面,Grok-1.5在MATH基準測試上得分50.6%,超越中杯Claude 3 Sonnet;GSM8K上得分90%。

程式設計方面,Grok-1.5在HumanEval基準測試上得分74.1%,超越中杯Claude 3 Sonnet、Gemini Pro1.5、GPT-4,僅次于大杯Claude 3 Opus。

馬斯克突發Grok 1.5!上下文長度至128k、HumanEval得分超GPT-4

看起來,Grok這次的實力也是不可小觑。

Grok系列與其他大模型相比還有一個特色,不使用通用的Python語言+Pytorch架構。

據官方介紹,Grok 1.5采用分布式訓練架構,使用Rust、JAX、Kubernetes建構。

為了提高訓練可靠性和維持正常運作時間,團隊提出了自定義訓練協調器,可自動檢測到有問題的節點,然後剔除。

除此之外,他們還優化了checkpointing、資料加載和訓練重新開機等流程,最大限度地減少故障停機時間。

這,才速速有了現在的Grok 1.5~

更多資訊官方也暫時還沒有披露。

可以确定的是,新版本未來幾天會先推送給早期測試者。并按照“老規矩”,很快将在平台上線。

馬斯克突發Grok 1.5!上下文長度至128k、HumanEval得分超GPT-4

有網友表示,Grok進步真的相當迅速。

馬斯克突發Grok 1.5!上下文長度至128k、HumanEval得分超GPT-4

有人甚至稱馬斯克這是發了另一個“GPT-4等效模型”,喊着:

OpenAI搞快點啊。
馬斯克突發Grok 1.5!上下文長度至128k、HumanEval得分超GPT-4

你期待新版本的Grok嗎?

參考連結:

[1]https://twitter.com/xai/status/1773510159740063860

[2]https://x.ai/blog/grok-1.5

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們,第一時間獲知前沿科技動态

繼續閱讀