微軟3.8B模型媲美GPT-3.5！小到用iPhone就能跑起來

這周，“小模型”之戰打得可謂精彩非凡，讓人目不暇接。前腳，小紮剛在采訪中自豪地宣布Llama3 80億模型幾乎與此前Llama2 700億模型的性能差不多！

緊接着，微軟祭出的“Phi-3-Mini”以3.8B的小體積，跑出Mixtral 8x7B和GPT-3.5等大模型才有的成績，似乎在用實力證明，在小模型這件事上，微軟才是真正的領先者。讓人直呼離譜！

下圖能看到Phi-3-Mini并非誇張！通過學術基準和内部測試來看，Phi-3-Mini在MMLU上達到了69（高于Mixtral 8x7B的68.4），在MT-bench上達到了8.38（高于GPT的8.35 ）。

這下Phi-3-Mini是一個名副其實的小體積，大性能的模型了。研究人員直接用iPhone進行了測試。

結果：Phi-3-Mini可以在手機上完全離線地本地運作，該模型的小體積使其可以量化到4位，占用僅約1.8GB的記憶體（比微信小得多）。Phi-3-Mini在iPhone 14上使用A16 Bionic晶片進行了原生部署，完全離線運作，每秒可以生成超過12個token。

今早，Phi-3-Mini已經進行開源，感興趣的朋友可以移步位址：

https://huggingface.co/microsoft/Phi-3-mini-4k-instruct

Phi-3-Mini好到不像真的。X上知名科技部落客說，看完Phi-3-Mini，她毫不懷疑今年年底有超越GPT-4的7B模型會誕生！

Phi-3-Mini的獨門心法：更好的資料集

模型到底是怎麼做到“又小又好的”？Phi-3-Mini的技術報告中寫着“創新完全在于我們的訓練資料集”。

Phi-3-Mini模型的訓練重點放在了資料的品質上，而不是單純的資料量或規模。他們使用了用于Phi-2的訓練資料集的擴充版本，由經過嚴格過濾的網絡資料和合成資料組成，資料集共3.3萬億tokens。

這種方法偏離了傳統的僅僅依賴于資料量來提升模型性能的scaling laws。這意味着在訓練過程中，更加關注于使用高品質、精心篩選和優化的資料，提高模型的性能和效率。

Phi-3-Mini的預訓練分“兩步走”。

第一階段：主要使用網絡資料，目的是教授模型通用知識和語言了解能力。這些資料是從開放的網際網路源中擷取的，并且是根據“教育水準”進行重度過濾的，以確定資料的相關性和準确性。

第二階段：在該階段中，預訓練過程進一步合并了更加嚴格過濾的網絡資料（這些資料是第一階段中使用的子集）和一些合成資料。合成資料是通過使用大型語言模型（LLM）生成的，目的是教授模型邏輯推理和各種專業技能。

當然小模型也有弱點。Phi-3-Mini由于其體積太小，在某些任務上受到根本性的限制。例如，它缺乏存儲大量“事實知識”的能力，導緻在TriviaQA等任務上的表現較差。

不過Phi-3-Mini也有對策，相信朋友們也猜到了，那就是：RAG!——通過為模型增加搜尋引擎，可以解決這樣的弱點，是以雖然AI能離線運作在你的手機上，還是有網的時候更香！

更大的模型的探索：7B到14B的提升不夠顯著

微軟還推出了Phi-3-Mini模型的兩個擴充版本：Phi-3-Small和Phi-3-Medium模型，它們都比Phi-3-Mini有顯著的更強能力。

Phi-3-Small擁有70億參數，使用tiktoken分詞器以改善多語言分詞。它擁有100,352的詞彙量和8K的預設上下文長度。

Phi-3-Medium，擁有140億參數，使用與Phi-3-Mini相同的分詞器和架構，但訓練了更多的tokens。

性能表現上，更大的體積當然提升了性能。在MMLU（Massive Multitask Language Understanding）基準測試中，Phi-3-Small和Phi-3-Medium相較于Phi-3-Mini（得分68.8%）表現出顯著的性能提升。

具體來說，Phi-3-Small在MMLU上得分為75.3%，而Phi-3-Medium得分為78.2%。

不過，研究人員發現：在從3.8B參數擴充到7B和14B參數時，某些基準測試的提升幅度有所不同，從7B到14B的提升可能沒有從3.8B到7B的提升顯著。

這個結論啟發了研究人員，訓練資料混合可能需要進一步的優化，以達到14B參數模型的“資料最優範圍”。

Good data is all you need

合成資料并不是一個新概念。随着新的AI模型和GenAI模型的出現，“合成資料”這個術語獲得了新的含義。

合成資料最常見的兩個用途是性能測試和可擴充性場景。此外，許多科學場景和其他應用依賴于合成資料來探索新的可能性和運作模拟，因為合成資料可以代表超越現實世界資料可能代表的假設情況。

此前，人們啟用合成資料是因為開發人員沒有足夠的資料來訓練他們的模型，現在，經過嚴格過濾的合成資料似乎能提升資料集品質，改變模型在資料中“大浪淘沙”的境地。

合成資料的典型好處有以下幾條：

優化隐私和安全：通過使用合成資料而不是真實資料，組織可以在仍然訓練有效的AI模型的同時保護敏感的使用者資訊。
改善資料多樣性：合成資料可以增加有限的真實資料，建立更全面和具有代表性的教育訓練集，引入更多樣化的資料進入AI訓練。
減少偏見：合成資料提供了引入可控偏見的可能性，這些偏見可以識别模型中的無意偏見，并通過分析算法進一步減少。
提高可用資源的有效利用：生成合成資料比收集、處理和存儲大量真實資料更具資源效率。

當然，這些好處都必須基于嚴格過濾的基礎之上，否則可能帶來多種風險。

寫在最後

模型的“瘦身”潮流呼應着大家對AI能力應用、落地的期待。人們不再滿足于如此強大的AI能力，卻止步于聊天機器人單一的對話視窗中。而手機作為日常使用頻率最高的端側電子裝置，無疑是接入AI能力的絕佳入口。

如今微軟、蘋果都在緊鑼密鼓地研究能在端側運作的小模型，國内的手機廠商也紛紛将AI作為“全村最後的希望”。

周鴻祎說，不做AI能力的手機廠商會淪為諾基亞，這句話正在成為一個普遍的共識。AI手機能做的不止是通過語音互動設定一個鬧鐘，也遠不止于消除照片中闖入的行人。

一個超越GPT-4性能的小模型設想無疑讓人興奮：高性能AI模型更小一點，我們距離将智能助理裝入口袋就更近一點。

參考連結：

1.https://analyticsindiamag.com/microsoft-introduces-phi-3-llm-that-runs-on-the-phone/

2.https://www.nytimes.com/2024/04/06/technology/ai-data-tech-companies.html

微軟3.8B模型媲美GPT-3.5！小到用iPhone就能跑起來

繼續閱讀

軒轅大模型的實踐與應用 | ML-Summit 2024

移動UI大模型問世，蘋果iPhone或迎更新新周期

科大訊飛不講大模型的“性感故事”

Meta釋出“最強開源AI模型”，下一代或比GPT更強

面壁新模型：早于Llama3、比肩 Llama3、推理超越 Llama3！

華為一季度利潤暴漲564%；天涯社群恢複；小紅書内測自研大模型

有效溝通表達的13個模型

一天吃透一條産業鍊:NO.37 AI大模型産業鍊

10款國産大模型大戰弱智吧——中文了解能力測評

最全解讀MoE混合專家模型：揭秘關鍵技術與挑戰

全面超越！開源！百度最強SOTA：基于擴散模型的3DGS！

沖刺2024“半年紅” | 六成AI企業實作盈利增長，大模型企業賺錢了？

對話優必選焦繼超：大模型加速人形機器人“進廠打工”

科大訊飛的盈利迷局：在大模型領域的高投入與低回報

阿裡林俊旸：大模型對很多人來說不夠用，打造多模态Agent是關鍵

AI教母李飛飛創辦空間智能公司，力圖克服大模型AI技術的現有局限