作者 | 郁博文、戴音培、郎皓、蔡泽枫、高畅、傅浩敏、张业勤、赵英秀、刘澈、惠彬原、林廷恩、马文涛、曹荣禹、余海洋、黄非、李永彬

来源 | 阿里开发者公众号

近日，自然语言处理领域的国际顶级会议EMNLP 2022录用结果出炉，达摩院Conversational AI团队10篇论文被EMNLP 2022录用，围绕着任务型对话、表格型对话、文档型对话、多模态对话、以及对话终身学习和对话表示学习等前沿方向全面开花。本文对这10篇论文的内容进行系统介绍，以此来总结达摩院Conversational AI团队面向对话智能前沿研究的思考和进展。

一、任务型对话

任务型对话主要指为满足用户某一目标需求而产生的多轮对话，面向垂直领域，帮助用户完成预定任务或动作，例如预定机票、查询公积金等。当前任务型对话领域的研究缺乏面向真实人机对话系统的评测数据集，并且大多数研究工作在在封闭世界的假设下开展，在实际应用中并不成立。针对这两个问题，我们从更真实的数据集，和Out-of-Domain检测两个角度展开研究。

A Large-Scale Benchmark for Chinese Goal-oriented Dialog Evaluation

Yinpei Dai, Wanwei He, Bowen Li, Yuchuan Wu, Zheng Cao, Zhongqi An, Jian Sun and Yongbin Li

真实的人机对话系统面临着多样化的知识来源（如实体知识、预定义任务流和QA语料库等）和带噪的用户问题（用户语音提问在转话为文本过程中存在噪声）等挑战，然而目前的任务型对话数据集未能全面考虑这些问题。因此我们提出了首个大规模的中文任务型对话评估数据集CGoDial (Chinese Goal-Oriented Dialog)。CGoDial共计包含了96,763个对话，574,949轮次的对话内容，覆盖了以下3种主流的任务型对话类型：

1. 填槽式对话（Slot-based Dialog, SBD)，即系统一般通过多轮交互获得实体属性并将合适实体告知给用户。我们在已有中文数据集RiSAWOZ的基础上进行改造，引入了基于QA pairs的外部知识、Out-of-scope的用户表述以及口语化噪音来从而得到SBD数据集；

2. 流程式对话（Flow-based Dialog, FBD)，即系统一般根据一个树形结构的对话流来引导用户完成目标任务。我们构建了首个中文基于Flow的对话数据集，包含住保、交管、政务和高速收费4种场景37个domain，共计6786个对话2.6万轮次；

3. 检索式对话(Retrieval-based Dialog, RBD)，即系统根据用户问题在一个QA语料库中检索出对应回复。我们基于已有的淘宝电商对话数据集E-commerce Dilaog Corpus进行筛选和口语化特征改造，构建了RBD数据集；

上述三类数据集示例如下：

在基线模型上，我们除了基于Chinese-T5，CDial-GPT等中文预训练模型提供了基线效果，还基于UniLM架构和1亿的论坛对话语料预训练了一个预训练对话模型，提供了更具有竞争力的基线。相关的数据集和代码均会在近期开源，以推进中文领域任务对话技术的发展。

Estimating Soft Labels for Out-of-Domain Intent Detection

Hao Lang,Yinhe Zheng,Jian Sun,Fei Huang,Luo Si,Yongbin Li

意图识别(intent detection)是任务型对话系统的重要能力。目前，大多数方法在封闭世界的假设下(closed-world assumption)都取得了较好的效果，即数据是静态的，且只考虑一个固定的意图集合。然而，这样的假设在实际应用中并不成立。我们通常会面对一个开放的世界(open-world)，即未经过训练的未知意图可能在测试阶段出现。因此，我们需要赋予对话系统Out-of-Domain(OOD) 检测的能力，使之既可以正确分类出已知In-Domain(ID)的意图，又可以检测出未知OOD意图。OOD检测的一个主要技术挑战是缺点足够的OOD样本。在大多数应用中，在训练阶段从测试分布(test distribution)采样并标注OOD样本都是非常困难的。

针对该问题，研究者提出了在训练阶段生成伪OOD样本的各种方法。主流的方法包括：1）Phrase Distortion，即对ID样本中的短语做选择性的扰动和替换；2）Feature mixup，即通过对ID样本的特征做混合生成OOD特征样本；3）Latent generation，即从ID样本的低密度空间(low-density area)采样OOD样本。这些方法的一个共同缺陷是都赋予生成的伪OOD样本one-hot硬标签，即完全属于OOD未知意图类别。然后，对于模型训练最有价值的OOD样本是一些“难”的OOD样本，即与ID样本分布最接近的一些OOD样本。我们注意到“难”OOD样本可能含有已知ID意图。

因此，one-hot硬标签的设定会导致伪OOD样本与ID样本有交叉，导致训练效果下降。我们认为伪OOD样本的理想标签应该是软标签(soft labels)，即赋予所有的意图类别都是非零概率(non-zero probabilities)。基于平滑假设(smoothness assumption)，即空间中相邻的样本拥有相似的标签，我们计算伪OOD样本的软标签。具体地，我们先基于图平滑(graph-based smoothing)算法得到初始软标签，然后基于co-training优化算法进一步优化它们的软标签。实验表明，基于软标签的伪OOD生成算法在三个标准数据集都取得了新SOTA结果。

二、表格型对话

表格（Table）被广泛应用于存储和展示结构化数据。而表格的语义解析技术（Text-To-SQL）近些年来得到了学术界和工业界的广泛关注，其目的是在多轮交互（对话）中，围绕表格 / 数据库等二维结构化知识，自动地将用户的自然语言问句转换为 SQL 语句，执行后得到目标信息，从而大幅提升与数据库交互的效率和体验。Text-To-SQL模型需要一方面具备对用户提出的自然语言问句的精准理解，另一方面具备在结构化表格中根据需求查找答案的精准推理。然而在实际应用场景中，Text-To-SQL模型会遇到多种多样的用户问句，需要模型具有较强的的泛化能力和鲁棒性。面向这一挑战，我们从模型预训练和模型微调策略两方面展开研究。

STAR: SQL Guided Pre-Training for Context-dependent Text-to-SQL Parsing

Zefeng Cai, Xiangyu Li, Binyuan Hui, Min Yang, Bowen Li, Binhua Li, Zheng Cao, Weijie Li, Fei Huang, Luo Si and Yongbin Li

预训练模型最近几年在 NLP 的各种任务上大放异彩，但由于表格和自然语言之间内在的差异性，普通的预训练语言模型（PLM，e.g. BERT) 在该任务上无法达到最优的性能，所以面向对话式语义解析的预训练表格模型（TaLM）应运而生。

预训练表格模型（TaLM）需要处理两个核心问题，包括如何利用上下文 query 复杂依赖（指代、意图偏移）及如何有效利用历史生成的 SQL 结果。对此，我们提出了两个预训练目标: (1) 对于上下文 query 利用，提出了基于 SQL 相似度的对比学习任务 UDT (Utterance Dependency Tracking），我们的关键动机在于，类似的 SQL 对应的 query 在语义上更具相关性，因为 SQL 可以看作用户意图的高度结构化表示；(2) 对于上下文 SQL 问题，直接将 SQL 拼接到模型的输入容易引发长度、非语言等性问题，我们借助 SQL 定义 schema 在每一轮的具体状态（扮演什么样的关键词角色），提出了 SST (Schema State Tracking) 任务，最终利用类似状态追踪的想法进行训练。

这两个任务都依赖 SQL 的引导，共同完成上下文的复杂建模，所以我们将最终的模型命名为 STAR: SQL Guided Pre-Training for Context-dependent Text-to-SQL Parsing。我们在对话式语义解析的权威 benchmark SParC 和 CoSQL 上进行了评估，在公平的下游模型对比下，STAR 相比之前最好的预训练表格模型 SCoRe，SParC 数据集 QM / IM 提升 4.6 / 3.3%，CoSQL 数据集 IM 显著提升 7.4% / 8.5%，而 CoSQL 相比 SParC 数据集，拥有更多的上下文变化，验证了我们提出的预训练任务的有效性。截至目前，STAR 仍然是两个榜单的 rank 1。

Towards Generalizable and Robust Text-to-SQL Parsing

Chang Gao, Bowen Li, Wenxuan Zhang, Wai Lam, Binhua Li, Fei Huang, Luo Si and Yongbin Li

除了模型预训练，我们还希望在模型微调阶段增强模型的鲁棒性。为此，我们提出一种让模型学习从简单到复杂的范式，称为TKK框架，它主要包含三个阶段：任务拆解、知识获取和知识组合（Task decomposition & Knowledge acquisition & Knowledge composition），这模仿了人类学习处理Text-To-SQL任务的过程。模型框架如图所示。在任务分解阶段，TKK将原始任务分解为多个子任务。每个子任务对应于将自然语言问题映射到SQL查询的一个或多个子句，这些任务包括SELECT、FROM、WHERE等子任务。之后，TKK采用基于提示词的学习策略，分别获取子任务的知识，并利用所学知识处理主要任务，即生成整个SQL查询。在知识获取阶段，TKK以多任务学习方式训练包含所有子任务的模型；在知识组合阶段，TKK模型在主任务上进行微调，以组合获得的子任务知识并学习它们之间的依赖关系。

通过将Text-To-SQL的学习过程拆解成多个阶段，我们的框架提升了模型获取通用SQL知识的能力，而不是仅仅学习简单的模式，从而使得模型具有更强的泛化能力和鲁棒性。为了验证我们提出的TKK模型的泛化能力，我们在公开的三个Text-To-SQL数据集，Spider、SparC和CoSQL上进行实验，均获得了当时的SOTA结果，分别为75.6、66.6和58.3。另一方面，为了验证TKK模型的鲁棒性，我们在增加噪音的Spider-Syn和Spider-Realistic数据集上进行实验，相比于T5-3B模型，TKK模型分别提升2.6（59.4->63.0）和5.3（63.2->68.5）个百分点。总而言之，我们为了提升Text-To-SQL模型的泛化能力和鲁棒性，提出了一种包括任务拆解、知识获取和知识组合的三阶段框架，并且通过实验验证了该框架的有效性。

三、文档型对话

现代企业与组织在其日常经营活动中会产生大量的文档数据，它们通常都有着巨大的价值。当前，多数企业与组织仍在利用搜索引擎从这些文档中获取信息，这不仅要求用户给出较为精确的检索关键字而且很难处理某些复杂而抽象的信息查询请求。于是，越来越多的研究开始面向文档对话系统（document-grounded dialog system），它期望通过对话的方式来交互式的从文档中获取知识。

Towards Generalized Open Information Extraction

Bowen Yu, Zhenyu Zhang, Jingyang Li, Haiyang Yu, Tingwen Liu, Jian Sun, Yongbin Li, Bin Wang

开放信息抽取（OpenIE）希望从任意领域的文本中抽取不限定关系类型的三元组类知识，采用原始文本中的片段作为头实体、关系短语和尾实体，这样的开放知识能够在文档问答等知识问答任务中发挥重要价值。然而，当前OpenIE领域的工作往往采用独立同分布的评测方式，即训练集和测试集来源于分布类似的领域，这无疑违背了OpenIE希望从任意领域进行有效抽取的初衷。为此，我们首先人工标注了一个大规模多领域的OpenIE测试集 GLOBE，包含来自保险、教育、医疗等6个领域的两万多个句子，采用和当前最大的人工标注OpenIE数据集SAOKE相同的标注规范。

在此基础上，我们构建了一个更贴近真实的OpenIE评测范式：在SAOKE上训练，在GLOBE上测试。先期实验发现，当前的SOTA OpenIE模型在新的评测范式下会出现高达70%的性能损失。进一步分析发现，SOTA模型需要构建包含O(n^2)条连边的图来表示包含n个片段的开放知识，任何一条连边错误都会导致错误的抽取结果，所以在领域变化导致抽取能力下降时不鲁棒。因此我们提出了一个图上最简的OpenIE表达形式：将开放知识表达成为有向无环图，复杂度由O(n^2)降低到了O(n)。实验结果表明，在原始的独立同分布评测范式下，本文提出的方法取得了3.6pt的性能提升。在新的out-of-domain评测范式下，性能提升进一步增加到了6.0pt，并且仅用10%的训练数据就可以获得和之前SOTA模型类似的效果。

复制链接查看原文，获取更多福利！

https://developer.aliyun.com/article/1079257?utm_content=g_1000364386

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

一次中稿10篇EMNLP22，达摩院对话智能团队在研究什么

一、任务型对话

二、表格型对话

三、文档型对话

继续阅读

[人工智能]得人工智能者得天下？百度200万美元奖励不到20人的团队

人工智能有多火？阿里云半年团队规模翻倍还不够用

2016 CCF 大数据与计算智能大赛完美落幕，11 支技术团队脱颖而出

阿里巴巴跨物理界招人，世界级音频专家冯津伟入职人工智能团队iDST

大数据+人工智能阿里搜索团队国际大赛再拔头筹

安卓创始人成立新团队打造智能家居产品

阿里云智能事业群 EMR团队招人啦！

创业开发团队的9个误区

马斯克460亿美元收购推特（Twitter）logo蓝鸟改为X，整理内部人员结构裁员后，从亏损边缘拉回盈利阶段，跨时