魚羊發自凹非寺

量子位 | 公衆号 QbitAI

能打得過GPT-4的開源模型出現了！

大模型競技場最新戰報：

1040億參數開源模型Command R+攀升至第6位，與GPT-4-0314打成平手，超過了GPT-4-0613。

這也是第一個在大模型競技場上擊敗GPT-4的開放權重模型。

大模型競技場，可是大神Karpathy口中唯二信任的測試基準之一。

Command R+來自AI獨角獸Cohere。這家大模型創業公司的聯合創始人兼CEO，正是Transformer最年輕作者Aidan Gomez（簡稱割麥子）。

這份戰報一出，又掀起了一波大模型社群的熱烈讨論。

大家夥兒興奮的理由很簡單：基礎大模型卷了一整年，沒想到在2024年格局還在不斷地發展變化。

HuggingFace聯合創始人Thomas Wolf就說：

最近大模型競技場上的情況發生了巨大的變化：

Anthropic的Claude 3 opus在閉源模型中獨占鳌頭。

Cohere的Command R+則成為了開源模型中的最強者。

沒想到，2024年在開源和閉源兩條路線上，人工智能團隊的發展都如此之快。

另外，Cohere機器學習總監Nils Reimers還指出了值得關注的一點：

Command R+最大的特色是對内置RAG（檢索增強生成）進行了全面優化，而在大模型競技場中，RAG這樣的外挂能力并未納入測試。

RAG優化模型登上開源王座

在Cohere官方定位中，Command R+是一個“RAG優化模型”。

就是說，這個1040億參數的大模型主要針對檢索增強生成技術進行了深度優化，以減少幻覺的産生，更适配于企業級工作負載。

和此前推出的Command R一樣，Command R+的上下文視窗長度是128k。

此外，Command R+還具備以下特點：

覆寫10+種語言，包括英語、中文、法語、德語等；
能使用工具完成複雜業務流程的自動化

從測試結果來看，在多語種、RAG和工具使用這三個次元上，Command R+都達到了GPT-4 turbo的水準。

但在輸入成本方面，Command R+的價格僅為GPT-4 turbo的1/3。

輸出成本方面，Command R+則是GPT-4 turbo的1/2。

正是這點引發了不少網友的關注：

不過，盡管在大模型競技場這種人類主觀評測上表現搶眼，還是有網友甩出了一些不同觀點。

在HumanEval上，Command R+的代碼能力就連GPT-3.5都沒打過，在兩組測試中分别排在32位和33位。

最新版GPT-4 turbo則沒有懸念地拿下了第一。

另外，我們也在最近剛登上正經論文的弱智吧benchmark上簡單測試了一下Command R+的中文能力。

你給打個分？

需要說明的是，Command R+的開源隻面向學術研究，并不能免費商用。

One More Thing

最後的最後，還是多聊一嘴割麥子小哥。

Aidan Gomez，Transformer圓桌騎士中最年輕的一位，加入研究團隊時隻是個大學生——

不過，是在多倫多大學讀大三時就加入了Hinton實驗室的那種。

2018年，割麥子被牛津大學錄取，開始像他的論文搭子們那樣攻讀CS博士學位。

但在2019年，随着Cohere的創立，他最終選擇退學加入AI創業的浪潮。

Cohere主要是為企業提供大模型解決方案，目前估值達到了22億美元。

參考連結：

[1]https://twitter.com/lmsysorg/status/1777630133798772766

[2]https://txt.cohere.com/command-r-plus-microsoft-azure/

— 完 —

量子位 QbitAI · 頭條号

關注我們，第一時間獲知前沿科技動态簽約

開源模型首勝GPT-4！大模型競技場最新戰報引熱議

RAG優化模型登上開源王座

One More Thing

繼續閱讀

BIM複雜大模型輕量化難題，這款輕量化引擎幫你輕松解決！

【積木玩具車】39.9元起！四個車型，仿真模型，真車1:14比例複刻還原！積木銜接絲滑緊密，光滑無刺～

零一萬物李謀：當大模型推理遇到算力瓶頸，如何進行工程優化？

人工智能也能提供“情緒價值”了，OpenAI釋出全新大模型GPT-4o

李開複首次分享零一萬物大模型方法論，并表示十年不變現

大模型效能工具之智能CommitMessage

衆多企業都在用，大模型在中國全面落地，豆包大模型優勢在哪？

國中數學幾何模型之最短路徑和将軍飲馬模型

探索大語言模型：了解Self Attention| 京東物流技術團隊

谷歌I/O開發者大會總結：Gemini 1.5 Pro大模型、全新TPU晶片、多項AI功能

vivo發高端新機，卷上影像算法，也卷大模型

查理芒格已走，這100個思維模型永存

位元組跳動打響大模型價格戰？價格比同行低99.3%，稱不用虧損換收入

華為HDC 2024大會将發盤古大模型5.0丨馬斯克xAI計劃融資60億美元

2024熱潮繼續！本地跑AI大模型，解鎖無網盡享它的魔力！

vivo釋出首款Ultra版手機藍心大模型更新為多模态