4月23日晚，微軟在官網開源了小參數的大語言模型——Phi-3-mini。

據悉，Phi-3-mini是微軟Phi家族的第4代，有預訓練和指令微調多種模型，參數隻有38億訓練資料卻高達3.3T tokens，比很多數百億參數的模型訓練資料都要多，這也是其性能超強的主要原因之一。

Phi-3-mini對記憶體的占用極少，可以在 iPhone 14等同類手機中部署使用該模型。盡管受到移動硬體裝置的限制，但每秒仍能生成12 個tokens資料。

值得一提的是，微軟在預訓練Phi-3-mini時使用了合成資料，能幫助大模型更好地了解語言架構、表達方式、文本語義了解、邏輯推理以及特定業務場景的專業術語等。

開源位址：https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3

Ollama位址：https://ollama.com/library/phi3

技術報告：https://arxiv.org/abs/2404.14219

2023年6月，微軟首次推出了專用于Python編碼的模型Phi-1，隻有13億參數卻在程式設計領域擊敗了GPT-3.5等知名模型，這讓微軟看到小參數模型的廣闊發展空間。

随後在Phi-1基礎之上，微軟推出了具備推理、文本生成、内容總結、起草郵件的大語言模型Phi-1.5，成為當時最強小參數模型之一。

2023年12月，微軟在Phi-1.5基礎之上開發了Phi-2，參數隻有27億并且在沒有人類回報強化學習和指令微調的情況下，擊敗了130億參數的Llama-2和70億參數的Mistral；在編碼和數學測試中，Phi-2的性能甚至超過了700億參數的Llama-2。

本次釋出的Phi-3系列集合了之前三代所有的優秀技術特征，并使用了海量高品質資料集、創新的訓練、微調方法，使其成為目前最強的開源小參數模型。

Phi-3-mini架構簡單介紹

Phi-3-mini采用了transformer架構，支援4K和128K上下文視窗，也是同類小模型中第一個支援128K的開源産品。

高品質訓練資料集是Phi-3-mini性能超強的重要原因之一，微軟使用了3.3T tokens資料集包括：經過嚴格品質篩選的網絡公開文檔、精選的高品質教育資料和程式設計代碼；

通過合成資料建立的教科書式資料，例如，數學、編碼、常識推理、世界常識、心理科學等；

高品質聊天格式的監督資料，涵蓋各種主題以反映人類在不同方面的偏好，例如，遵循指令、真實性、誠實性等。

在訓練政策方面，為了幫助Phi-3-mini更好地吸收合成資料，微軟使用了疊代訓練政策：初始階段，Phi-3-mini使用了公開網絡資料，學會了基本的文法、語義和上下文了解；

疊代階段，将合成資料與網絡資料合并建構全新的訓練集，并對Phi-3-mini進行疊代訓練，進一步強化模型的了解和生成能力，并且進行多次重複訓練。

測試資料方面，Phi-3 Mini在MMLU、GSM-8K、MedQA、BigBench-Hard等知名基準測試平台中，對語言了解、邏輯推理、機器翻譯、編碼等進行了綜合測試。

結果顯示，Phi-3-mini僅通過少量樣本提示，在語言了解、編碼、數學的性能超過了參數更大的模型，整體性能非常出色。

微軟表示，在未來幾周内還會釋出70億參數的Phi-3-small和140億參數的Phi-3-medium兩款小模型。其中，Phi-3-medium的性能可媲美Mixtral 8x7B 和GPT-3.5，資源消耗卻更少。

微軟開源最強小參數大模型—Phi-3 Mini