生成AI的"虚构"噩梦，ServiceNow的新技术一招制服!

当前,大型语言模型(Large Language Model,LLM)虽然取得了令人瞩目的成就,但其存在一个明显的缺陷——虚构(hallucination)。即LLM在生成输出时,可能产生一些不存在或者与事实不符的内容。这不仅影响了输出的可信度,也成为了LLM在现实世界中广泛应用的一大障碍

为解决这一问题,ServiceNow（这项研究是由 Patrice Béchard 和 Orlando Marquez Ayala 进行的，他们都隶属于基于云的工作流程自动化解决方案的领先提供商 ServiceNow）在最新一期的arXiv上发表了一篇题为《通过检索增强生成减少结构化输出中的虚构》的论文。文章提出了一种新颖的检索增强生成(Retrieval-Augmented Generation, RAG)方法,研究人员旨在解决LLM在应用于结构化输出任务（例如根据自然语言要求生成工作流程）时出现的幻觉挑战。这对于现实世界的 GenAI 系统获得用户信任和采用至关重要

论文基于一个实际的企业应用场景——根据自然语言需求生成工作流。具体来说,用户可以用自然语言描述一个需要自动化的流程,系统则根据描述生成对应的结构化JSON工作流文档,其中包含了工作流中的每个步骤及它们之间的逻辑关系

生成这种结构化输出的关键在于,LLM不仅要能正确理解自然语言,而且输出的每个步骤名称和数据表名称都必须是现有的,否则生成的工作流将无法被执行。而LLM由于缺乏足够的知识,很容易产生不存在的步骤或表名,造成虚构输出

为解决这一问题,研究人员提出了如下的RAG方法:

训练检索器

首先,研究人员训练了一个小型检索器模型,将自然语言查询与JSON工作流步骤及表名相匹配。通过对检索器进行细调,使其学习到将非结构化查询与结构化JSON对象相关联的技能

为LLM输入提供检索建议

在生成JSON工作流时,作者将检索器输出的建议步骤和表名添加到LLM的输入中。这样一来,LLM在生成时就有了一些已存在的选择,从而减少了虚构的可能性

训练RAG系统

使用包含检索建议的数据集,对LLM进行了进一步的微调训练,指导其基于输入的建议生成正确的JSON工作流输出

实验结果表明,与不使用检索器的基线模型相比,采用RAG方法可以将步骤虚构率从21%降低到不到7.5%,表名虚构率从42.8%降低到不到4.5%,同时保持较高的输出质量

此外,由于检索器模型非常小(只有1.1亿参数),因此作者可以使用较小的LLM(如7亿参数)而不会影响性能。这不仅节省了计算资源,也减少了部署成本,对于企业级应用来说是非常重要的

值得一提的是,RAG方法不仅可以在源领域(IT运维)取得不错的效果,在其他领域如人力资源、财务等看不见过的场景下,也能保持较高的性能,而无需对LLM和检索器进行重新微调训练。这验证了RAG方法具有很强的泛化能力

这可以实现哪些产品？

短期：

自然语言到工作流程工具：开发允许用户使用自然语言指令创建工作流程的应用程序，从而简化和普及流程自动化
低资源 LLM 应用程序：使用较小的 LLM 和检索器实施 RAG，以便在资源受限的环境中进行部署
可定制的企业工作流程：构建允许企业轻松添加自己的工作流程步骤并使系统适应其特定需求的系统

长期：

通用结构化输出生成：将 RAG 方法扩展到其他结构化输出任务，例如生成代码、SQL 查询或其他特定于域的格式
AI驱动的业务流程自动化：设计能够使用自然语言描述自动分析和优化业务流程并生成相应工作流程的系统。

这项研究证明了 RAG 在减轻幻觉和LLM生成的结构化输出的质量和可信度方面的有效性。这对于可靠且实用的 GenAI 系统的开发具有重大影响，特别是在准确性和定制性至关重要的企业环境中

结语

检索器的召回率可以通过将复杂的查询分解为更小的部分以进行更精确的检索来提高。LLM可以从进一步的训练中受益，以更好地理解任务的语义，特别是涉及逻辑和控制流的步骤。未来的工作包括探索检索器和LLM的联合训练以实现更好的协同作用，并研究替代的结构化输出格式和解码方法以提高效率。