微軟推出iPhone能跑的ChatGPT級模型，網友：OpenAI得把3.5淘汰了

夢晨發自凹非寺

量子位 | 公衆号 QbitAI

Llama 3釋出剛幾天，微軟就出手截胡了？

微軟推出iPhone能跑的ChatGPT級模型，網友：OpenAI得把3.5淘汰了

剛剛釋出的Phi-3系列小模型技術報告，引起AI圈熱議。

其中僅3.8B參數的Phi-3-mini在多項基準測試中超過了Llama 3 8B。

為了友善開源社群使用，還特意設計成了與Llama系列相容的結構。

微軟這次打出“手機就能直接跑的小模型”的旗号，4bit量化後的phi-3-mini在iPhone 14 pro和iPhone 15使用的蘋果A16晶片上跑到每秒12 token。

這意味着，現在手機上能本地運作的最佳開源模型，已經做到ChatGPT水準。

在技術報告中還玩了一把花活，讓phi-3-mini自己解釋為什麼建構小到手機能跑的模型很令人驚歎。

除了mini杯之外，小杯中杯也一并釋出：

Phi-3-small，7B參數，為支援多語言換用了tiktoken分詞器，并額外增加10%多語種資料。

Phi-3-medium，14B參數，在更多資料上訓練，多數測試中已超越GPT-3.5和Mixtral 8x7b MoE。

（大杯他們目前不打算做）

作者陣容一看也不簡單，一眼掃過去MSRA和MSR雷蒙德團隊都投入了不少人。

那麼，Phi-3系列到底有什麼獨特之處呢？

根據技術報告中披露，其核心秘訣就在于資料。

去年團隊就發現，單純堆砌參數量并不是提升模型性能的唯一路徑。

反而是精心設計訓練資料，尤其是利用大語言模型本身去生成合成資料，配合嚴格過濾的高品質資料，反而能讓中小模型的能力大幅躍升。

也就是訓練階段隻接觸教科書級别的高品質資料，Textbooks are all you need。

Phi-3也延續了這一思路，這次他們更是下了血本:

投喂了多達3.3萬億token的訓練資料（medium中杯是4.8萬億）
大幅強化了資料的”教育水準”過濾
更多樣化的合成資料，涵蓋邏輯推理、知識問答等多種技能
獨特的指令微調和RLHF訓練，大幅提升對話和安全性

舉個例子，比如某一天足球比賽的結果可能對于大模型是良好的訓練資料，但微軟團隊删除了這些加強知識的資料，留下更多能提高模型推理能力的資料。

這樣一來，對比Llama-2系列，就可以用更小的參數獲得更高的MMLU測試分數了。

不過小模型畢竟是小模型，也不可避免存在一些弱點。

微軟透露，模型本身參數中沒能力存儲太多事實和知識，這一點也可以從TriviaQA測試分數低看出來。

緩解辦法就是聯網接入搜尋引擎增強。

總之，微軟研究院團隊是鐵了心了要在小模型+資料工程這條路上走下去，未來還打算繼續增強小模型的多語言能力、安全性等名額。

對于開源小模型超過ChatGPT這回事，不少網友都認為壓力現在給到OpenAI這邊，需要趕快推出GPT-3.5的繼任者了。

參考連結：

[1]https://arxiv.org/abs/2404.14219

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們，第一時間獲知前沿科技動态

微軟推出iPhone能跑的ChatGPT級模型，網友：OpenAI得把3.5淘汰了

繼續閱讀

大模型時代，資料中台現在過氣了嗎？

突發！微軟、OpenAI遭集體起訴

軒轅大模型的實踐與應用 | ML-Summit 2024

ChatGPT曆史聊天功能将不會再收集使用者聊天記錄

移動UI大模型問世，蘋果iPhone或迎更新新周期

科大訊飛不講大模型的“性感故事”

Meta釋出“最強開源AI模型”，下一代或比GPT更強

面壁新模型：早于Llama3、比肩 Llama3、推理超越 Llama3！

華為一季度利潤暴漲564%；天涯社群恢複；小紅書内測自研大模型

有效溝通表達的13個模型

一天吃透一條産業鍊:NO.37 AI大模型産業鍊

10款國産大模型大戰弱智吧——中文了解能力測評

最全解讀MoE混合專家模型：揭秘關鍵技術與挑戰

全面超越！開源！百度最強SOTA：基于擴散模型的3DGS！

沖刺2024“半年紅” | 六成AI企業實作盈利增長，大模型企業賺錢了？

AI革命：微軟與OpenAI的未來之路