天天看点

微软推出目前最小的AI模型 Phi-3 Mini,可在手机上运行

作者:开山怪阿土

微软推出了其最新的轻量级AI模型 Phi-3 Mini ,这是该公司计划发布的三个小型模型中的第一个,也是迄今为止最小的一个AI模型。这是一种 38 亿参数的语言模型,其性能可与 Mixtral 8x7B 和 GPT-3.5 等, 比其大10 倍的模型相媲美,同时又足够紧凑,可以在智能手机上运行。

微软推出目前最小的AI模型 Phi-3 Mini,可在手机上运行

有趣的是微软的开发人员像教育儿童一样来训练 Phi-3 Mini 。他们的灵感来自于孩子们如何从睡前故事、单词更简单的书籍以及谈论更大主题的句子结构中学习。微软 Azure AI 平台公司副总裁 Eric Boyd说“市面上没有足够的儿童读物,因此我们列出了 3,000 多个单词的清单,并要求AI大语言模型制作‘儿童读物’来教授 Phi ”。

Microsoft 研究人员开始创建一个从 3,000 个单词开始的离散数据集,其中包括大致相等数量的名词、动词和形容词。然后,他们要求一个大型语言模型使用列表中的一个名词、一个动词和一个形容词来创建一个儿童故事——他们在几天内重复了数百万次这一提示,生成了数百万个小儿童故事。

Phi-3 Mini 虽然小,但测试成绩并不差,它在 MMLU 基准上取得了 69% 的成绩,在 MT 基准上取得了 8.38 的成绩,表现出与更大的模型相当的推理能力。该模型还针对训练过程中的鲁棒性、安全性和聊天交互进行了调整。

微软推出目前最小的AI模型 Phi-3 Mini,可在手机上运行

像 Phi-3 Mini 这样的小语言模型最引人注目的方面之一是它们能够在智能手机上本地运行。通过将模型量化为 4 位,研究人员能够将其内存占用量减少至仅 1.8GB。这使得他们能够在 iPhone 14 上部署该模型,在设备上本地运行并完全离线。尽管受到移动硬件的限制,Phi-3 Mini 仍设法每秒生成超过 12 个令牌。

微软推出目前最小的AI模型 Phi-3 Mini,可在手机上运行

4 位量化 phi-3-mini 在配备 A16 Bionic 芯片的 iPhone 上本地运行,每秒生成超过 12 个令牌

虽然 Phi-3 Mini 可能缺乏大型同类产品的巨大知识存储容量,但其搜索功能的能力弥补了这一弱点。开发人员通过将模型与搜索引擎集成,使其能够即时访问相关信息,展示了该模型的潜力。Phi-3 Mini 已在 Azure、Hugging Face 和 Ollama 上提供。

Phi-3 Mini 的开发是AI行业更广泛趋势的一部分,即创建更小、更高效的模型,可以部署在更广泛的设备上。有传言称,苹果公司正在为其下一代 iPhone 开发一款设备端模型。微软的竞争对手也有自己的小型AI模型,其中大多数针对更简单的任务,例如文档摘要或编码辅助。Google 的 Gemma 2B 和 7B非常适合简单的聊天机器人和语言相关的工作。Anthropic 的 Claude 3 Haiku可以阅读带有图表的密集研究论文并快速总结它们,谷歌此前也发布了Gemma 2B和Gemini Nano。

微软计划在 Phi-3 系列中发布另外两个型号:Phi-3 Small(7B 参数)和 Phi-3 Medium(14B 参数)。早期结果表明,这些模型将进一步突破较小语言模型的可能性界限,Phi-3 Medium 在 MMLU 上达到 78%,在 MT-bench 上达到 8.9。

微软推出目前最小的AI模型 Phi-3 Mini,可在手机上运行

微软把目前这种适合小终端部署的AI模型,叫做SLM(小语言模型)。“这里的主张并不是 SLM 将取代或取代大型语言模型,”领导微软研究院AI前沿实验室的微软副总裁 Ece Kamar 说。相反,SLM“具有独特的定位,适用于边缘计算、设备上计算以及无需转到云端即可完成工作的计算。这就是为什么我们了解这个模型组合的优点和缺点很重要。”也既是为正确的任务选择正确大小的语言模型。

参考链接:

news.microsoft.com/source/features/ai/the-phi-3-small-language-models-with-big-potential

huggingface.co/microsoft/Phi-3-mini-128k-instruct

arxiv.org/abs/2404.14219

继续阅读