天天看點

微軟釋出Phi-3大模型,3.8B擊敗chatgpt

作者:不秃頭程式員
微軟釋出Phi-3大模型,3.8B擊敗chatgpt

微軟在4月23日釋出了Phi-3,Phi-3用 3.8B 的小版本做到了 Mixtral-8x7B 一樣的效果,換算到dense大約等于一個14B的水準。量化後大小約1.8G, 在 iPhone15 上一秒可以出 20 個 token。小版本訓練用了3.3T token 訓練,更大的模型用了4.5T token 。

在社交媒體上也得到了廣泛的讨論。

微軟釋出Phi-3大模型,3.8B擊敗chatgpt

在reddit上有個有趣的文章,Phi-3 僅用 4B大小在 香蕉邏輯問題中擊敗了GPT 3.5 Turbo。

微軟釋出Phi-3大模型,3.8B擊敗chatgpt

翻一下,類似弱智吧的問題: 一個香蕉上放了一個盤子,然後把盤子挪到另一個屋,香蕉會怎麼樣?

GPT3.5:香蕉完好無損,但是會挪動位置。

Phi-3:屁事沒有,除非香蕉粘在了盤子上,否則還在原來的位置。

能看出GPT3.5被繞進去了,Phi-3在這個環節勝出。

能看出來,Phi-3确實用更小的參數實作了不錯的效果。

Phi-3是微軟Phi系列的第4個版本:

我們先回顧下4代的Phi發展路線。

23年6月的Phi-1[1],Phi1 模型參數規模 1.3B,僅需用8個 A100 訓練 4 天即可完成。這個模型隻能寫代碼,訓練資料由 6B token的來自網絡,經過嚴格清洗,另外有1B預訓練+180M的指令微調資料,都由GPT-3.5 生成的合成資料組成。

洗資料的思路和我們之前提過的方法類似,用監督學習的品質打分模型篩選的方式,隻不過這個模型用的是GPT4做的資料标注。具體是:從The Stack和StackOverflow中篩選的6B token訓練資料,利用GPT-3.5生成的1B token合成資料(用于預訓練),利用GPT-3.5生成的180M token合成資料(用于SFT)。

Phi-1模型在180M資料上SFT後,代碼名額大幅提升。Phi-1-small模型Pass@1達到45%(SFT前為20%),Phi-1模型Pass@1達到51%(SFT前為29%)。

23年9月的Phi-1.5[2],Phi-1.5的訓練資料包括兩部分:來自Phi-1的7B訓練資料,和新收集的20B合成資料。新收集的20B合成資料的主題從Phi-1的僅代碼資料,擴充到了通用的世界知識和常識推理。作者構造了2萬個主題作為種子,使用gpt生成資料。

Phi1.5還做了這樣的實驗,即隻用網絡資料訓練,網絡資料從Falcon 的資料集上過濾得到,簡稱過濾資料。還有原始的7B訓練,20B生成的實驗。

結論:過濾資料+合成+原始訓練資料>合成+原始訓練資料>過濾資料

證明了合成資料和代碼資料對效果有提升作用。

微軟釋出Phi-3大模型,3.8B擊敗chatgpt

Phi-1.5資料實驗

23年12月的Phi-2[3],Phi-2有用的資訊就更少了,隻給出了一個技術部落格。報告指出了Phi-2繼續擴充了web過濾類的資料量,但最終的訓練資料集大小沒說。Phi-2将模型大小從1.3B提升到2.7B,并類似Phi-1.5-web在擴充後的混合資料集上一共訓練了共1.4T token。

24年4月的 Phi-3[4],在Phi-3這一代,微軟繼續探索了和llama3一樣的合成資料實驗(在Phi-1時候已經使用),有所差別的是,llama3用了15T的token,Phi-3最多測試了4.5T的token。

能看出來微軟是特别卷的,在這個事兒上的疊代速度保持了平均3個月一個版本。

總結Phi-3的關鍵資訊:

1.Phi-3-mini是一個3.8億參數的語言模型,盡管規模較小,但其性能與一些大型模型如Mixtral 8x7B和GPT-3.5相當。

2.Phi-3-mini的量化後部署在手機上,量化後1.8G 在 iPhone16 上每秒可以出 20 個 token。

3.Phi-3-mini的訓練資料集是Phi-2所用資料集的擴充版,包含了大量過濾的網絡資料和合成資料。基礎版本3.3T token 訓練,更大的模型用了4.5T,要比llama3。

4.長上下文支援:通過LongRope技術,Phi-3-mini還引入了長上下文版本,将上下文長度從預設的4K擴充到128K。

5.使用了pipeline的資料訓練方式,第一階段用高品質網絡資料,第二階段用更強力過濾後的一階段子集加 GPT 合成資料。第一階段學語言能力和常識,第二階段主要學邏輯推理能力。

微軟釋出Phi-3大模型,3.8B擊敗chatgpt

Phi-3 效果圖

橫向比較一下Phi從1到3代的關鍵資訊,如下表所示:

模型參數量訓練成本 (A100*小時)模型訓練token數MMLU分數Phi-11.3B76850B-Phi-1.5-web1.3B3000300B37.9Phi-22.7B32,2561.4T56.3Phi-314B-4.5T68.8

從表格可以看出,除了微軟一直強調的資料品質,資料量的增長和模型尺寸的擴大也是相當關鍵的。

資料,一直是目前大模型的核心秘密,各種号稱開源的大模型,資料都幾乎不開源。除了幾個特定的瞄準“全開源”的模型,但是他們因為效果的原因沒有得到特别高的關注度。

資料的來源,配比,多樣性,品質方面的實踐方法,成為各家大模型最深的“護城河”

另外作者也強調了一些局限性:

雖然 phi-3-mini 模型達到了與大型模型相似的語言了解和推理能力水準,但模型根本沒有能力存儲太多「事實知識」,這可以從 TriviaQA 上的低評分中看出,這個可能是參數大小的原因,對于知識類儲備的拟合不是特别充分。但作者表示,這個可以用RAG來彌補,是以Phi-3有可能是最适合做RAG的高效率的小模型。

參考資料

[1] Textbooks Are All You Need : http://arxiv.org/abs/2306.11644

[2] Textbooks Are All You Need II: Phi-1.5 technical report: http://arxiv.org/abs/2309.05463

[3] Phi-2: https://huggingface.co/microsoft/Phi-2

[4] Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone: http://arxiv.org/abs/2404.14219

繼續閱讀