天天看點

微軟開源最強小參數大模型—Phi-3 Mini

作者:不秃頭程式員
微軟開源最強小參數大模型—Phi-3 Mini

4月23日晚,微軟在官網開源了小參數的大語言模型——Phi-3-mini。

據悉,Phi-3-mini是微軟Phi家族的第4代,有預訓練和指令微調多種模型,參數隻有38億訓練資料卻高達3.3T tokens,比很多數百億參數的模型訓練資料都要多,這也是其性能超強的主要原因之一。

Phi-3-mini對記憶體的占用極少,可以在 iPhone 14等同類手機中部署使用該模型。盡管受到移動硬體裝置的限制,但每秒仍能生成12 個tokens資料。

值得一提的是,微軟在預訓練Phi-3-mini時使用了合成資料,能幫助大模型更好地了解語言架構、表達方式、文本語義了解、邏輯推理以及特定業務場景的專業術語等。

開源位址:https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3

Ollama位址:https://ollama.com/library/phi3

技術報告:https://arxiv.org/abs/2404.14219

微軟開源最強小參數大模型—Phi-3 Mini

2023年6月,微軟首次推出了專用于Python編碼的模型Phi-1,隻有13億參數卻在程式設計領域擊敗了GPT-3.5等知名模型,這讓微軟看到小參數模型的廣闊發展空間。

随後在Phi-1基礎之上,微軟推出了具備推理、文本生成、内容總結、起草郵件的大語言模型Phi-1.5,成為當時最強小參數模型之一。

微軟開源最強小參數大模型—Phi-3 Mini

2023年12月,微軟在Phi-1.5基礎之上開發了Phi-2,參數隻有27億并且在沒有人類回報強化學習和指令微調的情況下,擊敗了130億參數的Llama-2和70億參數的Mistral;在編碼和數學測試中,Phi-2的性能甚至超過了700億參數的Llama-2。

本次釋出的Phi-3系列集合了之前三代所有的優秀技術特征,并使用了海量高品質資料集、創新的訓練、微調方法,使其成為目前最強的開源小參數模型。

Phi-3-mini架構簡單介紹

Phi-3-mini采用了transformer架構,支援4K和128K上下文視窗,也是同類小模型中第一個支援128K的開源産品。

微軟開源最強小參數大模型—Phi-3 Mini

高品質訓練資料集是Phi-3-mini性能超強的重要原因之一,微軟使用了3.3T tokens資料集包括:經過嚴格品質篩選的網絡公開文檔、精選的高品質教育資料和程式設計代碼;

通過合成資料建立的教科書式資料,例如,數學、編碼、常識推理、世界常識、心理科學等;

高品質聊天格式的監督資料,涵蓋各種主題以反映人類在不同方面的偏好,例如,遵循指令、真實性、誠實性等。

在訓練政策方面,為了幫助Phi-3-mini更好地吸收合成資料,微軟使用了疊代訓練政策:初始階段,Phi-3-mini使用了公開網絡資料,學會了基本的文法、語義和上下文了解;

微軟開源最強小參數大模型—Phi-3 Mini

疊代階段,将合成資料與網絡資料合并建構全新的訓練集,并對Phi-3-mini進行疊代訓練,進一步強化模型的了解和生成能力,并且進行多次重複訓練。

測試資料方面,Phi-3 Mini在MMLU、GSM-8K、MedQA、BigBench-Hard等知名基準測試平台中,對語言了解、邏輯推理、機器翻譯、編碼等進行了綜合測試。

結果顯示,Phi-3-mini僅通過少量樣本提示,在語言了解、編碼、數學的性能超過了參數更大的模型,整體性能非常出色。

微軟開源最強小參數大模型—Phi-3 Mini

微軟表示,在未來幾周内還會釋出70億參數的Phi-3-small和140億參數的Phi-3-medium兩款小模型。其中,Phi-3-medium的性能可媲美Mixtral 8x7B 和GPT-3.5,資源消耗卻更少。

微軟開源最強小參數大模型—Phi-3 Mini