微軟釋出Phi-3大模型，3.8B擊敗chatgpt

微軟在4月23日釋出了Phi-3，Phi-3用 3.8B 的小版本做到了 Mixtral-8x7B 一樣的效果，換算到dense大約等于一個14B的水準。量化後大小約1.8G，在 iPhone15 上一秒可以出 20 個 token。小版本訓練用了3.3T token 訓練，更大的模型用了4.5T token 。

在社交媒體上也得到了廣泛的讨論。

在reddit上有個有趣的文章，Phi-3 僅用 4B大小在香蕉邏輯問題中擊敗了GPT 3.5 Turbo。

翻一下,類似弱智吧的問題: 一個香蕉上放了一個盤子，然後把盤子挪到另一個屋，香蕉會怎麼樣？

GPT3.5：香蕉完好無損，但是會挪動位置。

Phi-3：屁事沒有，除非香蕉粘在了盤子上，否則還在原來的位置。

能看出GPT3.5被繞進去了，Phi-3在這個環節勝出。

能看出來，Phi-3确實用更小的參數實作了不錯的效果。

Phi-3是微軟Phi系列的第4個版本：

我們先回顧下4代的Phi發展路線。

23年6月的Phi-1[1]，Phi1 模型參數規模 1.3B，僅需用8個 A100 訓練 4 天即可完成。這個模型隻能寫代碼，訓練資料由 6B token的來自網絡，經過嚴格清洗，另外有1B預訓練+180M的指令微調資料，都由GPT-3.5 生成的合成資料組成。

洗資料的思路和我們之前提過的方法類似，用監督學習的品質打分模型篩選的方式，隻不過這個模型用的是GPT4做的資料标注。具體是：從The Stack和StackOverflow中篩選的6B token訓練資料，利用GPT-3.5生成的1B token合成資料（用于預訓練），利用GPT-3.5生成的180M token合成資料（用于SFT）。

Phi-1模型在180M資料上SFT後，代碼名額大幅提升。Phi-1-small模型Pass@1達到45%（SFT前為20%），Phi-1模型Pass@1達到51%（SFT前為29%）。

23年9月的Phi-1.5[2]，Phi-1.5的訓練資料包括兩部分：來自Phi-1的7B訓練資料，和新收集的20B合成資料。新收集的20B合成資料的主題從Phi-1的僅代碼資料，擴充到了通用的世界知識和常識推理。作者構造了2萬個主題作為種子，使用gpt生成資料。

Phi1.5還做了這樣的實驗，即隻用網絡資料訓練，網絡資料從Falcon 的資料集上過濾得到，簡稱過濾資料。還有原始的7B訓練，20B生成的實驗。

結論：過濾資料+合成+原始訓練資料>合成+原始訓練資料>過濾資料

證明了合成資料和代碼資料對效果有提升作用。

Phi-1.5資料實驗

23年12月的Phi-2[3]，Phi-2有用的資訊就更少了，隻給出了一個技術部落格。報告指出了Phi-2繼續擴充了web過濾類的資料量，但最終的訓練資料集大小沒說。Phi-2将模型大小從1.3B提升到2.7B，并類似Phi-1.5-web在擴充後的混合資料集上一共訓練了共1.4T token。

24年4月的 Phi-3[4]，在Phi-3這一代，微軟繼續探索了和llama3一樣的合成資料實驗（在Phi-1時候已經使用），有所差別的是，llama3用了15T的token，Phi-3最多測試了4.5T的token。

能看出來微軟是特别卷的，在這個事兒上的疊代速度保持了平均3個月一個版本。

總結Phi-3的關鍵資訊：

1.Phi-3-mini是一個3.8億參數的語言模型，盡管規模較小，但其性能與一些大型模型如Mixtral 8x7B和GPT-3.5相當。

2.Phi-3-mini的量化後部署在手機上，量化後1.8G 在 iPhone16 上每秒可以出 20 個 token。

3.Phi-3-mini的訓練資料集是Phi-2所用資料集的擴充版，包含了大量過濾的網絡資料和合成資料。基礎版本3.3T token 訓練，更大的模型用了4.5T，要比llama3。

4.長上下文支援：通過LongRope技術，Phi-3-mini還引入了長上下文版本，将上下文長度從預設的4K擴充到128K。

5.使用了pipeline的資料訓練方式，第一階段用高品質網絡資料，第二階段用更強力過濾後的一階段子集加 GPT 合成資料。第一階段學語言能力和常識，第二階段主要學邏輯推理能力。

Phi-3 效果圖

橫向比較一下Phi從1到3代的關鍵資訊，如下表所示：

模型參數量訓練成本 (A100*小時)模型訓練token數MMLU分數Phi-11.3B76850B-Phi-1.5-web1.3B3000300B37.9Phi-22.7B32,2561.4T56.3Phi-314B-4.5T68.8

從表格可以看出，除了微軟一直強調的資料品質，資料量的增長和模型尺寸的擴大也是相當關鍵的。

資料，一直是目前大模型的核心秘密，各種号稱開源的大模型，資料都幾乎不開源。除了幾個特定的瞄準“全開源”的模型，但是他們因為效果的原因沒有得到特别高的關注度。

資料的來源，配比，多樣性，品質方面的實踐方法，成為各家大模型最深的“護城河”

另外作者也強調了一些局限性：

雖然 phi-3-mini 模型達到了與大型模型相似的語言了解和推理能力水準，但模型根本沒有能力存儲太多「事實知識」，這可以從 TriviaQA 上的低評分中看出，這個可能是參數大小的原因，對于知識類儲備的拟合不是特别充分。但作者表示，這個可以用RAG來彌補，是以Phi-3有可能是最适合做RAG的高效率的小模型。

參考資料

[1] Textbooks Are All You Need : http://arxiv.org/abs/2306.11644

[2] Textbooks Are All You Need II: Phi-1.5 technical report: http://arxiv.org/abs/2309.05463

[3] Phi-2: https://huggingface.co/microsoft/Phi-2

[4] Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone: http://arxiv.org/abs/2404.14219

微軟釋出Phi-3大模型，3.8B擊敗chatgpt

繼續閱讀

周日靜學（139）：期刊論文2.1 傳統供應鍊下批發價契約模型

美國東北大學提出視訊資料增強方法，能讓視訊模型學到更好的表征

吉利浩瀚平台+百度AI大模型，極越07才是小米SU7最強對手？

浮力計算8大計算模型

搞了一年大模型，科大訊飛怎麼樣了？

奧爾特曼選取網友提示詞，用OpenAI新款大模型Sora生成

誰是中國版Sora？國産文生視訊大模型加速跑

微軟“叛變”了！本月或将推出5000億新AI模型MAI-1，對抗谷歌和OpenAI｜钛媒體AGI

大模型+教育見成效，訊飛星火入選教育部“人工智能+高等教育”首批典型應用場景案例

“坪效之王”南城香，會是中式快餐的“終極模型”嗎？

港股進入技術性牛市，行業大模型第一股第四範式獲多家券商看好

AIGC大模型第一股，成“五一檔”超強黑馬！交易量股價雙創新高

天圖萬境圖拉古：大部分大模型公司5年内死去

辯證看待“幻覺”問題，蔚來汽車在 AI 和大模型領域的應用實踐

深度學習與化學語言模型結合，用于藥物從頭設計，登Nature子刊

戰略基本功第1篇：一個實用的企業增長模型