在这场关于 AI 的竞争中,科技巨头们一直在争相开发更大的语言模型,不过现在出现了一个新趋势:在这场大小的较量中,小型模型正逐渐占据上风。随着 LLM 的发展逐渐趋于平稳,研究者和开发者开始更多地关注小语言模型(SLM)。这些小巧、高效并且适应性极强的 AI 模型正在挑战着之前『越大越好』的旧观念。这一转变预示着我们将以新的方式来开发 AI 技术。
LLM 是否开始趋于稳定?
近期 Vellum 与 HuggingFace 发布的性能对比数据显示,不同 LLM 间的性能差异正在迅速缩小。这一趋势在处理多项选择、推理及数学问题等特定任务时尤为明显,顶尖模型间的表现差异已微乎其微。例如,Claude 3 Opus、GPT-4 和 Gemini Ultra 在多项选择题上的得分均超过 83%,而在推理任务中,它们的准确率甚至超过了 92%。
令人称奇的是,一些较小的模型如 Mixtral 8x7B 和 Llama 2 - 70B 在某些领域表现同样出色,甚至在推理和多项选择题中表现要优于一些大型模型。这表明模型的大小并非性能的唯一决定因素,模型的架构、训练数据及微调技术也同样重要。
关于最新的 LLM,近期的研究论文均显示出一个共同的趋势。Uber AI 前负责人、《Rebooting AI》作者 Gary Marcus 在接受 VentureBeat 采访时表示:“从经验上看,最近的十几篇论文基本上都与 GPT-4 处于相同的水平。其中一些模型的表现略优于 GPT-4,但并没有实现质的飞跃。大家普遍认为,GPT-4 相较于 GPT-3.5 已经是一个巨大的进步。但在过去的一年多时间里,并没有出现任何革命性的突破。”
随着性能差距的不断缩小,更多的模型展现出竞争力,这不禁让人思考:LLM 的发展是否真的已经进入了稳定期?如果这种趋势持续下去,可能会对未来语言模型的开发和部署产生深远的影响,开发者可能会从单纯增大模型尺寸转向探索更高效、更专业化的架构。
LLM 的缺点
尽管 LLM 功能强大,但它们也存在一些明显的缺陷。首先,训练 LLM 需要大量的数据,其参数可达数十亿乃至数万亿,这让训练过程变得极其耗费资源。同时,训练和运行 LLM 所需的计算力和能源消耗也是极为惊人的,由此带来的高昂成本使得小公司或个人难以参与到核心 LLM 的开发中。OpenAI CEO Sam Altman 在去年的 MIT 一次活动中提到,仅训练 GPT-4 的成本就至少需要 1 亿美元。
此外,操作 LLM 所需的工具和技术复杂性高,开发者需要克服陡峭的学习曲线,这进一步限制了其普及性。从训练到构建及部署模型,开发者需要经历很长一段时间,这也减慢了开发和实验的步伐。最近剑桥大学的一篇论文表明,公司部署一个机器学习模型可能需要 90 天甚至更长的时间。
LLM 容易产生所谓的 “幻觉”,即生成看似合理但实际并非真实的输出,这是因为 LLM 在训练时是基于训练数据中的模式预测下一个最可能的词,而非真正理解信息。因此,LLM 可能会自信地产生不真实的陈述,编造事实或将不相关的概念结合在一起,形成毫无意义的内容。发现并减少这些幻觉是开发可靠和值得信赖的语言模型的持续挑战。
Marcus 警告说:“如果你用它来处理高风险问题,肯定不希望因此侮辱客户,传递错误的医疗信息,或在驾驶时冒险。”
LLM 的规模和不透明性也使得它们难以解释和调试,这对于建立对模型输出的信任极为关键。训练数据和算法的偏见可能导致不公正、不准确甚至有害的输出。正如 Google 的 Gemini 所展示的,让 LLM 变得 “安全” 和可靠的技术也可能降低其效能。此外,LLM 的集中化特征也引起了人们对权力和控制权集中在少数几家大型科技公司手中的担忧。
小语言模型(SLM)
让我们来看看 SLM。相较于 LLM,SLM 参数更少,设计更简洁。它们所需的数据和训练时间大大减少 —— 只需几分钟或几小时,而不是几天。这一特点使得 SLM 在小型设备或现场直接部署变得更加高效和简单。
SLM 的一个主要优势是它们适合特定的应用场景。因为 SLM 的关注点更集中,所需数据较少,这使得它们比大型通用模型更容易针对特定领域或任务进行精细调整。这种定制化使得企业能够开发出适合自身特定需求的高效 SLM,例如进行情感分析、命名实体识别或针对特定领域的问题解答。SLM 在这些特定应用中的专业性能够提升性能和效率。
SLM 在隐私和安全方面也显示出了明显的优势。它们的代码基础较小,结构简单,更易于审核,不太可能隐藏未预见的安全漏洞。这使得 SLM 特别适合处理敏感数据的场景,如医疗或金融领域,因为数据泄露可能导致严重的后果。此外,SLM 较低的计算需求使其更适合在本地设备或企业服务器上运行,而非依赖云服务,这种本地处理方式能进一步提升数据安全性,减少在数据传输过程中的风险。
SLM 在其特定领域内不太可能出现检测不到的错误输出。它们通常针对特定领域或应用的较窄数据集进行训练,有助于模型学习最相关的模式、词汇和信息。这种集中关注降低了生成无关、出人意料或不一致输出的可能性。由于参数更少,结构更优化,SLM 在训练数据中捕捉和放大噪声或错误的可能性也较低。
HuggingFace CEO Clem Delangue 指出,多达 99% 的使用场景可以通过 SLM 来解决,并预测 2024 年将是 SLM 元年。HuggingFace 允许开发者构建、训练和部署机器学习模型,该公司今年早些时候与 Google 建立了战略合作关系。合作后,他们将 HuggingFace 整合进 Google 的 Vertex AI,使开发者能够通过 Google Vertex Model Garden 迅速部署成千上万的模型。
Gemma
在最初与 OpenAI 在 LLM 方面竞争失败后,Google 正大力发展 SLM。今年二月,Google 推出了 Gemma 系列模型,这些模型设计更为高效和用户友好。Gemma 模型可以轻松运行在各种日常设备上,如智能手机、平板电脑和笔记本电脑,无需特殊硬件或复杂优化。
自 Gemma 发布以来,其在 HuggingFace 的下载量已超过 400,000 次,一些激动人心的项目也随之浮现。例如,Cerule 结合了 Gemma 2B 与 Google 的 SigLIP,它在庞大的图文数据集上训练,通过高效的数据选择技术,展现了无需大量数据或计算就能达到高性能的可能,特别适合新兴的边缘计算场景。
另一个案例是 CodeGemma,这是 Gemma 的一个专注于编程和数学推理的版本。CodeGemma 提供了三种不同的模型,针对不同的编程活动,使开发者能更高效地使用先进的编程工具。
SLM 的变革性潜力
随着 AI 界不断挖掘小型语言模型的潜力,其快速的开发周期、高效的运行效率及针对特定需求的定制能力的优势愈发明显。SLM 正赋能各行各业,使 AI 技术的应用更加民主化,并推动创新。SLM 在边缘计算中的部署开辟了在金融、娱乐、汽车系统、教育、电商和医疗等多个领域中,实现实时、个性化和安全应用的新可能。
通过本地处理数据,减少对云计算基础设施的依赖,边缘计算搭配 SLM 能够实现更快的响应时间、更好的数据隐私保护和更优的用户体验。这种去中心化的 AI 技术应用方式将彻底改变企业和消费者与技术的互动方式,为现实世界带来更个性化、更直观的体验。面对计算资源的挑战和可能的性能瓶颈,SLM 的兴起预示着 AI 生态系统将以惊人的速度持续演变。
原文链接:https://venturebeat.com/ai/why-small-language-models-are-the-next-big-thing-in-ai/