天天看點

微軟推出目前最小的AI模型 Phi-3 Mini,可在手機上運作

作者:開山怪阿土

微軟推出了其最新的輕量級AI模型 Phi-3 Mini ,這是該公司計劃釋出的三個小型模型中的第一個,也是迄今為止最小的一個AI模型。這是一種 38 億參數的語言模型,其性能可與 Mixtral 8x7B 和 GPT-3.5 等, 比其大10 倍的模型相媲美,同時又足夠緊湊,可以在智能手機上運作。

微軟推出目前最小的AI模型 Phi-3 Mini,可在手機上運作

有趣的是微軟的開發人員像教育兒童一樣來訓練 Phi-3 Mini 。他們的靈感來自于孩子們如何從睡前故事、單詞更簡單的書籍以及談論更大主題的句子結構中學習。微軟 Azure AI 平台公司副總裁 Eric Boyd說“市面上沒有足夠的兒童讀物,是以我們列出了 3,000 多個單詞的清單,并要求AI大語言模型制作‘兒童讀物’來教授 Phi ”。

Microsoft 研究人員開始建立一個從 3,000 個單詞開始的離散資料集,其中包括大緻相等數量的名詞、動詞和形容詞。然後,他們要求一個大型語言模型使用清單中的一個名詞、一個動詞和一個形容詞來建立一個兒童故事——他們在幾天内重複了數百萬次這一提示,生成了數百萬個小兒童故事。

Phi-3 Mini 雖然小,但測試成績并不差,它在 MMLU 基準上取得了 69% 的成績,在 MT 基準上取得了 8.38 的成績,表現出與更大的模型相當的推理能力。該模型還針對訓練過程中的魯棒性、安全性和聊天互動進行了調整。

微軟推出目前最小的AI模型 Phi-3 Mini,可在手機上運作

像 Phi-3 Mini 這樣的小語言模型最引人注目的方面之一是它們能夠在智能手機上本地運作。通過将模型量化為 4 位,研究人員能夠将其記憶體占用量減少至僅 1.8GB。這使得他們能夠在 iPhone 14 上部署該模型,在裝置上本地運作并完全離線。盡管受到移動硬體的限制,Phi-3 Mini 仍設法每秒生成超過 12 個令牌。

微軟推出目前最小的AI模型 Phi-3 Mini,可在手機上運作

4 位量化 phi-3-mini 在配備 A16 Bionic 晶片的 iPhone 上本地運作,每秒生成超過 12 個令牌

雖然 Phi-3 Mini 可能缺乏大型同類産品的巨大知識存儲容量,但其搜尋功能的能力彌補了這一弱點。開發人員通過将模型與搜尋引擎內建,使其能夠即時通路相關資訊,展示了該模型的潛力。Phi-3 Mini 已在 Azure、Hugging Face 和 Ollama 上提供。

Phi-3 Mini 的開發是AI行業更廣泛趨勢的一部分,即建立更小、更高效的模型,可以部署在更廣泛的裝置上。有傳言稱,蘋果公司正在為其下一代 iPhone 開發一款裝置端模型。微軟的競争對手也有自己的小型AI模型,其中大多數針對更簡單的任務,例如文檔摘要或編碼輔助。Google 的 Gemma 2B 和 7B非常适合簡單的聊天機器人和語言相關的工作。Anthropic 的 Claude 3 Haiku可以閱讀帶有圖表的密集研究論文并快速總結它們,谷歌此前也釋出了Gemma 2B和Gemini Nano。

微軟計劃在 Phi-3 系列中釋出另外兩個型号:Phi-3 Small(7B 參數)和 Phi-3 Medium(14B 參數)。早期結果表明,這些模型将進一步突破較小語言模型的可能性界限,Phi-3 Medium 在 MMLU 上達到 78%,在 MT-bench 上達到 8.9。

微軟推出目前最小的AI模型 Phi-3 Mini,可在手機上運作

微軟把目前這種适合小終端部署的AI模型,叫做SLM(小語言模型)。“這裡的主張并不是 SLM 将取代或取代大型語言模型,”上司微軟研究院AI前沿實驗室的微軟副總裁 Ece Kamar 說。相反,SLM“具有獨特的定位,适用于邊緣計算、裝置上計算以及無需轉到雲端即可完成工作的計算。這就是為什麼我們了解這個模型組合的優點和缺點很重要。”也既是為正确的任務選擇正确大小的語言模型。

參考連結:

news.microsoft.com/source/features/ai/the-phi-3-small-language-models-with-big-potential

huggingface.co/microsoft/Phi-3-mini-128k-instruct

arxiv.org/abs/2404.14219

繼續閱讀