天天看點

開源模型新王誕生!3100塊H100狂肝2個月,132B推理能力飙升2倍

作者:新智元

編輯:編輯部

【新智元導讀】就在剛剛,全球最強開源大模型王座易主,創業公司Databricks釋出的DBRX,超越了Llama 2、Mixtral和Grok-1。MoE又立大功!這個過程隻用了2個月,1000萬美元,和3100塊H100。

全球最強開源模型,一夜易主!

剛剛,超級獨角獸Databricks重磅推出1320億參數的開源模型——DBRX。

它采用了細粒度MoE架構,而且每次輸入僅使用360億參數,實作了更快的每秒token吞吐量。

開源模型新王誕生!3100塊H100狂肝2個月,132B推理能力飙升2倍

這種獨特的MoE架構,讓DBRX成為開源模型的SOTA,推理速度比LLaMA 2-70B快了2倍!

最重要的是,訓練成本直接砍半!隻用了1000萬美元和3100塊H100,Databricks就在2個月内肝出了DBRX。

比起Meta開發Llama2所用的成本和晶片,這隻是很小一部分。

開源模型新王誕生!3100塊H100狂肝2個月,132B推理能力飙升2倍
開源模型新王誕生!3100塊H100狂肝2個月,132B推理能力飙升2倍

DBRX在語言了解、程式設計、數學和邏輯方面輕松擊敗了開源模型LLaMA2-70B、Mixtral,以及Grok-1。

開源模型新王誕生!3100塊H100狂肝2個月,132B推理能力飙升2倍

甚至,DBRX的整體性能超越GPT-3.5。尤其在程式設計方面,完全擊敗了GPT-3.5。

開源模型新王誕生!3100塊H100狂肝2個月,132B推理能力飙升2倍

并且,DBRX還為開放社群和企業提供了僅限于封閉模型的API功能。現在,基本模型(DBRX Base)和微調模型(DBRX Instruct)的權重,已經在Hugging Face開放許可了。

從今天開始,Databricks客戶就可以通過API使用DBRX。它在Macbook Pro上都可跑,LLM很快能為個人裝置提供支援了。

Pytorch之父Soumith Chintala對最新開源模型DBRX也是非常看好。

開源模型新王誕生!3100塊H100狂肝2個月,132B推理能力飙升2倍

從Mistral、到Grok-1,再到DBRX,MoE架構的模型正在占領開源界。

開源模型新王誕生!3100塊H100狂肝2個月,132B推理能力飙升2倍

而Databricks的員工激動地表示,過去3個月,朋友們周末約我都說「不行,這周不行我有事,但是又不能說有啥事」的日子終于結束了,DBRX就是我們加班加點搞出來的一頭「怪獸」。

開源模型新王誕生!3100塊H100狂肝2個月,132B推理能力飙升2倍

還有網友表示,「如果實驗室繼續開源大型MoE模型,英偉達可能就需要推出最強Blackwell架構的消費級GPU了」。

開源模型新王誕生!3100塊H100狂肝2個月,132B推理能力飙升2倍

全球最強開源模型易主

DBRX是一種基于Transformer純解碼器的大模型,同樣采用下一token預測進行訓練。

它采用的是細粒度專家混合(MoE)架構,也就是具有更多的專家模型。

開源模型新王誕生!3100塊H100狂肝2個月,132B推理能力飙升2倍

是的,這次立大功的,依然是MoE。在MoE中,模型的某些部分會根據查詢的内容啟動,這就大大提升了模型的訓練和運作效率。

DBRX大約有1320億個參數,Llama 2有700億個參數,Mixtral 有450億個,Grok有3140億個。

但是,DBRX處理一個典型查詢,平均隻需激活約360億個參數。

這就提高了底層硬體的使用率,将将訓練效率提高了30%到50%。不僅響應速度變快,還能減少所需的能源。

而與Mixtral、Grok-1等其他開源MoE模型相比,DBRX使用了更多的小型專家。

具體來說,DBRX有16個不同的專家,在每層為每個token選擇4個專家。Mixtral和Grok-1有8個專家,一個路由網絡在每層為每個token選擇2個專家。

顯然,DBRX提供了65倍的專家組合可能性,能夠顯著提升模型品質。

此外,DBRX還使用了旋轉位置編碼(RoPE)、門控線性單元(GLU)和分組查詢注意力(GQA),并使用tiktoken存儲庫中提供的GPT-4分詞器。

DBRX模型在12萬億Token的文本和代碼進行預訓練,支援的最大上下文長度為32k。

開源模型新王誕生!3100塊H100狂肝2個月,132B推理能力飙升2倍

研究人員估計,這些資料比用來預訓練MPT系列模型的資料至少好2倍。

這個新的資料集,使用全套資料庫工具開發,包括用于資料處理的ApacheSpark™和Databricks筆記本,用于資料管理和治理的Unity Catalog,以及用于實驗追蹤的MLFlow。

團隊使用了「課程學習」(curriculum learning)進行預訓練,并在訓練過程中改變資料組合,大大提高了模型品質。

那麼,DBRX究竟表現如何?

擊敗2.4倍參數Grok-1

如下表1,在綜合基準、程式設計和數學基準以及MMLU上,DBRX Instruct重新整理了開源AI的SOTA。

綜合基準

研究人員在兩個綜合基準上對DBRX Instruct和其他開源模型進行了評估,一個是Hugging Face的Open LLM Leaderboard,另一個是Databricks Model Gauntlet。

Databricks Model Gauntlet由30多項任務組成,涵蓋了6個類别:世界知識、常識推理、語言了解、閱讀了解、符号問題解決和程式設計。

就綜合基準來看,DBRX Instruct超越了所有聊天、指令調優的模型。

開源模型新王誕生!3100塊H100狂肝2個月,132B推理能力飙升2倍

程式設計和數學基準

DBRX Instruct在程式設計和數學方面尤為突出。

它在HumanEval以及GSM8k上,得分均高于其他開源模型。

在程式設計基準上,DBRX Instruct得分為70.1%,Grok-1為63.2%,LLaMA2-70B Chat為32.2%。在數學基準上,DBRX Instruct為66.9%,Grok-1為62.9%,LLaMA2-70B Base為54.1%。

盡管Grok-1的參數是DBRX的2.4倍,但DBRX在程式設計和數學方面的性能,均超越了排名第二的Grok-1。

在HumanEval上,DBRX Instruct(70.1%)甚至超過了CodeLLaMA-70B Instruct(67.8%),這是一個專門為程式設計建構的模型。

在語言了解測試基準MMLU方面,DBRX Instruct得分高于所有模型,為73.7%。

開源模型新王誕生!3100塊H100狂肝2個月,132B推理能力飙升2倍

全面超越GPT-3.5

另外,與閉源模型GPT-3.5相比,DBRX Instruct的性能全面超越了它,還可與Gemini 1.0 Pro和Mistral Medium相較量。

具體來說,DBRX Instruct在MMLU的常識知識(73.7% vs. 70.0%)、常識推理HellaSwg(89.0% vs. 85.5%)和WinoGrand(81.8% vs. 81.6%)方面優于GPT-3.5。

在HumanEval(70.1% vs. 48.1%)和GSM8k(72.8% vs. 57.1%)的測試中,DBRX同樣在程式設計和數學推理方面尤其出色。

此外,在Inflection Corrected MTBench、MMLU、HellaSwag以及HumanEval基準上,DBRX Instruct的得分高于Gemini 1.0 Pro。

不過,Gemini 1.0 Pro在GSM8k的表現上,明顯更強。

在HellaSwag基準上,DBRX Instruct和Mistral Medium得分相似,而Winogrande和MMLU基準上,Mistral Medium更強。

另外,在HumanEval、GSM8k、以及Inflection Corrected MTBench基準上,DBRX Instruct取得了領先優勢。

開源模型新王誕生!3100塊H100狂肝2個月,132B推理能力飙升2倍

在Databricks看來,開源模型擊敗閉源模型非常重要。

在上個季度,團隊成員看到自家12,000多名客戶群重大轉變,即将專有模型替換為開源模型,以提高效率。

現在,許多客戶可以通過定制開源模型來完成特定任務,進而在品質和速度上超越專有模型。

DBRX的推出,就是為了加速這個過程。

長上下文任務品質和RAG

DBRX Instruct采用高達32K token上下文進行了訓練。

表3比較了它與Mixtral Instruct,以及最新版本的GPT-3.5 Turbo和GPT-4 Turbo API,在一套長上下文基準測試上的性能。

毫無疑問,GPT-4Turbo是執行這些任務的最佳模型。

但是,除了一個例外,DBRX Instruct在所有上下文長度和序列的所有部分的表現,都優于GPT-3.5 Turbo。

DBRX Instruct和Mixtral Instruct的總體性能相似。

開源模型新王誕生!3100塊H100狂肝2個月,132B推理能力飙升2倍

利用模型上下文的最常見的方法之一是,檢索增強生成(RAG)。

在RAG中,從資料庫中檢索與提示相關的内容,并與提示一起呈現,進而為模型提供更多資訊。

表4顯示了DBRX在兩個RAG基準測試——Natural Questions和HotPotQA上的品質。

DBRX Instruct與Mixtral Instruct和LLaMA2-70B Chat等開源模型,以及GPT-3.5 Turbo相比,具有很強的競争力。

開源模型新王誕生!3100塊H100狂肝2個月,132B推理能力飙升2倍

訓練效率是非MoE模型兩倍

模型品質必須放在模型的訓練和使用效率的上下文中,在Databricks尤其如此,

研究人員發現訓練MoE模型在訓練的計算效率方面,提供了實質性的改進(表5)。

比如,訓練DBRX系列中較小的成員DBRX MoE-B(總參數為23.5B,活躍參數為6.6B)所需的Flop比LLaMA2-13B少1.7倍,才能在Databricks LLM Gauntlet上達到45.5%的得分。

DBRX MOE-B包含的有效參數也是LLaMA2-13B的一半。

從整體上看,端到端LLM預訓練pipeline,在過去十個月中的計算效率提高了近4倍。

2023年5月5日,Databricks釋出了MPT-7B,這是一個在1T token上訓練的7B參數模型,在Databricks LLM Gauntlet上得分為30.9%。

DBRX系列中名為DBRX MoE-A的(總參數為7.7B,活躍參數為2.2B)得分為30.5%,而FLOPS減少了3.7倍。

這種效率是一系列改進的結果,包括使用MoE架構、網絡的其他架構更改、更好的優化政策、更好的分詞,以及更好的預訓練資料。

開源模型新王誕生!3100塊H100狂肝2個月,132B推理能力飙升2倍

單獨來看,更好的預訓練資料對模型品質有很大的影響。

研究人員使用DBRX預訓練資料在1T token(稱為DBRX Dense-A)上訓練了7B模型。在Databricks Gauntlet上得分39.0%,而MPT-7B為30.9%。

研究者估計,全新的預訓練資料至少比用于訓練MPT-7B的資料高出2倍。

換句話說,要達到相同的模型品質,所需的token數要少一半。

進而,研究人員通過在500B token上訓練DBRX Dense-A确定了這一點。

它在Databricks Gauntlet上的表現優于MPT-7B,達到32.1%。

除了更好的資料品質外,token效率提高的另一個重要原因可能是GPT-4分詞器。

推理效率

總體而言,MoE模型的推理速度,它們的總參數所顯示的要快。這是因為它們對每個輸入使用的參數相對較少。

DBRX推理吞吐量是132B非MoE模型的2-3倍。

推理效率和模型品質通常是互相沖突的:模型越大通常品質越高,但模型越小推理效率越高。

使用MoE架構可以在模型品質和推理效率之間,實作比密集模型更好的平衡。

開源模型新王誕生!3100塊H100狂肝2個月,132B推理能力飙升2倍

通過Mosaic AI Model Serving測量,DBRX生成速度明顯快于LLaMA2-70B

比如,DBRX的品質比LLaMA2-70B更高,而且由于活躍參數量大約是LLaMA2-70B的一半,DBRX推理吞吐量最多可快2倍。

Mixtral是MoE模型改進的「帕累托最優」(pareto frontier)另一個點:它比DBRX小,品質相對較低,但實作了更高的推理吞吐量。

在優化的8位量化模型服務平台上,Databricks Foundation Model API推理吞吐量每秒多達150個token。

開源模型新王誕生!3100塊H100狂肝2個月,132B推理能力飙升2倍

企業免費用

企業可以在Databricks平台上通路DBRX,能在RAG系統中利用長上下文功能,還可以在自己的私有資料上建構定制的DBRX模型。

而開源社群可以通過GitHub存儲庫和Hugging Face通路DBRX。

開源模型新王誕生!3100塊H100狂肝2個月,132B推理能力飙升2倍

項目位址:https://github.com/databricks/dbrx

開源模型新王誕生!3100塊H100狂肝2個月,132B推理能力飙升2倍

項目位址:https://huggingface.co/databricks

因為DATABricks是完全基于資料庫來建構DBRX的,是以每個企業使用者都可以使用相同的工具和技術來建立或改進自己的定制化模型。

使用者可以通過Unity Catalog中集中管理訓練資料,使用ApacheSpark和Lilac AI提供的工具和服務進行處理和清理。

大規模的模型訓練和微調由DataBricks前不久剛剛收購的Mosaic AI提供的服務。

對齊問題,也可以通過的他們的平台和服務解決。

納斯達克,埃森哲等客戶和合作夥伴已經用上了這一套服務和工具。

收購估值13億公司,2個月肝出來

外媒Wired的一篇報道,為我們詳述了世界最強開源模型的誕生過程。

開源模型新王誕生!3100塊H100狂肝2個月,132B推理能力飙升2倍

此前,Databricks在業界已經小有名聲。

在本周一,Databricks的十幾位工程師和高管,在會議室等待着最終的結果——

團隊花費了數月時間,投入了大概1000萬美元訓練的LLM,會取得怎樣的成績?

顯然,能力測試最終結果出來之前,他們并不知道自己創造的模型有這麼強大。

開源模型新王誕生!3100塊H100狂肝2個月,132B推理能力飙升2倍

「我們超越了所有模型!」随着首席神經網絡架構師、DBRX團隊負責人Jonathan Frankle宣布這一結果,成員們爆發出熱烈的歡呼和喝彩聲。

開源模型新王誕生!3100塊H100狂肝2個月,132B推理能力飙升2倍

Databrick的決策者:Jonathan Frankle,Naveen Rao, Ali Ghodsi,Hanlin Tang

是的,DBRX就是這樣超越了Llama 2、Mixtral這兩個如今最流行的開源模型。

甚至馬斯克的xAI最近開源的Grok AI,也被DBRX打敗了。

Frankle開玩笑說:如果收到馬斯克發出的一條刻薄的推特,我們就鐵定成功了。

最令團隊感到驚訝的是,DBRX在多項名額上甚至接近了GPT-4這個機器智能的巅峰之作。

毫無疑問,DBRX現在為開源LLM設立了全新的技術标準。

獨角獸重振開源界

通過開源DBRX,Databricks進一步推動了開源運動,加入了Meta對抗OpenAI和谷歌的開源大潮。

不過,Meta并沒有公布Llama 2模型的一些關鍵細節,而Databricks會将最後階段做出關鍵決策的過程全部公開,要知道,訓練DBRX的過程,耗費了數百萬美元。

艾倫人工智能研究所的CEO AliFarhadi表示,AI模型的建構和訓練,亟需更大的透明度。

Databricks有理由選擇開源。盡管谷歌等巨頭過去一年裡部署了AI,但行業内的許多大公司,還還沒有在自己是資料上廣泛使用大模型。

在Databricks看來,金融、醫藥等行業的公司渴望類似ChatGPT的工具,但又擔心将敏感資料發到雲上。

而Databricks将為客戶定制DBRX,或者從頭為他們的業務量身定做。對于大公司來說,建構DBRX這種規模模型的成本非常合理。

「這就是我們的大商機。」

為此,Databricks去年7月收購了初創公司MosaicML,引入了Frankle在内的多名技術人才。此前,兩家公司内都沒人建構過如此大的模型。

内部運作

開源模型新王誕生!3100塊H100狂肝2個月,132B推理能力飙升2倍

Databricks首席執行官Ali Ghodsi

OpenAI等公司,執着地追求更大的模型。但在Frankle看來,LLM重要的不僅僅是規模。

怎樣讓成千上萬台計算機通過交換機和光纜巧妙地連接配接在一起并且運轉起來,尤其具有挑戰性。

而MosailML公司的員工,都是這門晦澀學問的專家,是以Databrick去年收購它時,對它的估值高達13億美元。

另外,資料對最終結果也有很大影響,或許也是是以,Databricks并沒有公開資料細節,包括資料的品質、清洗、過濾和預處理。

Databricks副總裁、MosaicML創始人兼CEO Naveen Rao表示:「你幾乎可以認為,這是模型品質的重中之重。」

價值數百萬美元的問題

有時候,訓練一個龐大AI模型的過程不僅考驗技術,還牽涉到情感上的抉擇。

兩周前,Databricks的團隊就遇到了一個涉及數百萬美元的棘手問題:如何充分利用模型的潛能。

在租用的3072個強大英偉達H100 GPU上訓練模型兩個月後,DBRX在多個基準測試中已經取得了卓越的成績。但很快,他們可以使用的時間隻剩下了最後一周。

團隊成員在Slack上互抛主意,其中一個提議是制作一個專門生成計算機代碼的模型版本,或者是一個小型版本供業餘愛好者嘗試。

團隊還考慮了不再增加模型的大小,轉而通過精心挑選的資料來提升模型在特定功能上的表現,這種方法稱為課程學習。

或者,他們可以繼續按原計劃擴大模型的規模,希望使其變得更加強大。

最後這種做法被團隊成員親切地稱為「随它去」選項,似乎有人對此格外情有獨鐘。

開源模型新王誕生!3100塊H100狂肝2個月,132B推理能力飙升2倍

雖然讨論過程中大家都保持了友好,但随着各位工程師為自己青睐的方案力争上遊,激烈的觀點交鋒不可避免。

最終,Frankle巧妙地将團隊的方向引向了以資料為中心的方法(課程學習)。兩周後,這個決定顯然帶來了巨大的回報。

然而,對于項目的其他預期成果,Frankle的判斷就沒那麼準确了。

他原本認為DBRX在生成計算機代碼方面不會有特别突出的表現,因為團隊并沒有将重點放在這一領域。

他甚至信心滿滿地表示,如果自己判斷錯誤,就會把頭發染成藍色。

然而,周一的結果卻顯示,DBRX在标準的編碼基準測試上勝過了所有其他開源AI模型。

「我們的模型代碼能力非常強。」他在周一的成果釋出會上說道,「我已經預約了今天去染發。」

風險評估

最後還有一個問題,就是開源模型的風險。

DBRX是迄今最強的開源大模型,任何人都可以使用或修改。

這是否會帶來不可預知的風險,比如被網絡犯罪或者生化武器濫用?

Databricks表示,已經對模型進行了全面的安全測試。

Eleuther AI的執行主任Stella Biderman說,幾乎沒有證據表明開源會增加安全風險。「我們并沒有特别的理由相信,開放模型會比現有的封閉模型大幅增加風險。」

此前,EleutherAI曾與Mozilla以及其他約50個組織和學者一道,向美國商務部長雷蒙多發出了一封公開信,要求她確定未來的人工智能監管為開源AI項目留出足夠的發展空間。

信中專家們相信,AI開源有利于經濟增長,因為它們有助于初創企業和小企業接觸到這項突破性的進展,還有助于加速科學研究。

而這也是Databricks希望DBRX能夠做出的貢獻。

Frankle說,DBRX 除了為其他人工智能研究人員提供了一個新的模型和建構自己模型的有用技巧外,還有助于加深對AI實際工作原理的了解。

Databricks團隊計劃研究模型在訓練的最後階段是如何變化的,也許能揭示一個強大的模型是如何湧現出額外能力的。

繼續閱讀