作者 | 郁博文、戴音培、郎皓、蔡澤楓、高暢、傅浩敏、張業勤、趙英秀、劉澈、惠彬原、林廷恩、馬文濤、曹榮禹、餘海洋、黃非、李永彬

來源 | 阿裡開發者公衆号

近日，自然語言處理領域的國際頂級會議EMNLP 2022錄用結果出爐，達摩院Conversational AI團隊10篇論文被EMNLP 2022錄用，圍繞着任務型對話、表格型對話、文檔型對話、多模态對話、以及對話終身學習和對話表示學習等前沿方向全面開花。本文對這10篇論文的内容進行系統介紹，以此來總結達摩院Conversational AI團隊面向對話智能前沿研究的思考和進展。

一、任務型對話

任務型對話主要指為滿足使用者某一目标需求而産生的多輪對話，面向垂直領域，幫助使用者完成預定任務或動作，例如預定機票、查詢公積金等。目前任務型對話領域的研究缺乏面向真實人機對話系統的評測資料集，并且大多數研究工作在在封閉世界的假設下開展，在實際應用中并不成立。針對這兩個問題，我們從更真實的資料集，和Out-of-Domain檢測兩個角度展開研究。

A Large-Scale Benchmark for Chinese Goal-oriented Dialog Evaluation

Yinpei Dai, Wanwei He, Bowen Li, Yuchuan Wu, Zheng Cao, Zhongqi An, Jian Sun and Yongbin Li

真實的人機對話系統面臨着多樣化的知識來源（如實體知識、預定義任務流和QA語料庫等）和帶噪的使用者問題（使用者語音提問在轉話為文本過程中存在噪聲）等挑戰，然而目前的任務型對話資料集未能全面考慮這些問題。是以我們提出了首個大規模的中文任務型對話評估資料集CGoDial (Chinese Goal-Oriented Dialog)。CGoDial共計包含了96,763個對話，574,949輪次的對話内容，覆寫了以下3種主流的任務型對話類型：

1. 填槽式對話（Slot-based Dialog, SBD)，即系統一般通過多輪互動獲得實體屬性并将合适實體告知給使用者。我們在已有中文資料集RiSAWOZ的基礎上進行改造，引入了基于QA pairs的外部知識、Out-of-scope的使用者表述以及口語化噪音來進而得到SBD資料集；

2. 流程式對話（Flow-based Dialog, FBD)，即系統一般根據一個樹形結構的對話流來引導使用者完成目标任務。我們建構了首個中文基于Flow的對話資料集，包含住保、交管、政務和高速收費4種場景37個domain，共計6786個對話2.6萬輪次；

3. 檢索式對話(Retrieval-based Dialog, RBD)，即系統根據使用者問題在一個QA語料庫中檢索出對應回複。我們基于已有的淘寶電商對話資料集E-commerce Dilaog Corpus進行篩選和口語化特征改造，建構了RBD資料集；

上述三類資料集示例如下：

在基線模型上，我們除了基于Chinese-T5，CDial-GPT等中文預訓練模型提供了基線效果，還基于UniLM架構和1億的論壇對話語料預訓練了一個預訓練對話模型，提供了更具有競争力的基線。相關的資料集和代碼均會在近期開源，以推進中文領域任務對話技術的發展。

Estimating Soft Labels for Out-of-Domain Intent Detection

Hao Lang,Yinhe Zheng,Jian Sun,Fei Huang,Luo Si,Yongbin Li

意圖識别(intent detection)是任務型對話系統的重要能力。目前，大多數方法在封閉世界的假設下(closed-world assumption)都取得了較好的效果，即資料是靜态的，且隻考慮一個固定的意圖集合。然而，這樣的假設在實際應用中并不成立。我們通常會面對一個開放的世界(open-world)，即未經過訓練的未知意圖可能在測試階段出現。是以，我們需要賦予對話系統Out-of-Domain(OOD) 檢測的能力，使之既可以正确分類出已知In-Domain(ID)的意圖，又可以檢測出未知OOD意圖。OOD檢測的一個主要技術挑戰是缺點足夠的OOD樣本。在大多數應用中，在訓練階段從測試分布(test distribution)采樣并标注OOD樣本都是非常困難的。

針對該問題，研究者提出了在訓練階段生成僞OOD樣本的各種方法。主流的方法包括：1）Phrase Distortion，即對ID樣本中的短語做選擇性的擾動和替換；2）Feature mixup，即通過對ID樣本的特征做混合生成OOD特征樣本；3）Latent generation，即從ID樣本的低密度空間(low-density area)采樣OOD樣本。這些方法的一個共同缺陷是都賦予生成的僞OOD樣本one-hot硬标簽，即完全屬于OOD未知意圖類别。然後，對于模型訓練最有價值的OOD樣本是一些“難”的OOD樣本，即與ID樣本分布最接近的一些OOD樣本。我們注意到“難”OOD樣本可能含有已知ID意圖。

是以，one-hot硬标簽的設定會導緻僞OOD樣本與ID樣本有交叉，導緻訓練效果下降。我們認為僞OOD樣本的理想标簽應該是軟标簽(soft labels)，即賦予所有的意圖類别都是非零機率(non-zero probabilities)。基于平滑假設(smoothness assumption)，即空間中相鄰的樣本擁有相似的标簽，我們計算僞OOD樣本的軟标簽。具體地，我們先基于圖平滑(graph-based smoothing)算法得到初始軟标簽，然後基于co-training優化算法進一步優化它們的軟标簽。實驗表明，基于軟标簽的僞OOD生成算法在三個标準資料集都取得了新SOTA結果。

二、表格型對話

表格（Table）被廣泛應用于存儲和展示結構化資料。而表格的語義解析技術（Text-To-SQL）近些年來得到了學術界和工業界的廣泛關注，其目的是在多輪互動（對話）中，圍繞表格 / 資料庫等二維結構化知識，自動地将使用者的自然語言問句轉換為 SQL 語句，執行後得到目标資訊，進而大幅提升與資料庫互動的效率和體驗。Text-To-SQL模型需要一方面具備對使用者提出的自然語言問句的精準了解，另一方面具備在結構化表格中根據需求查找答案的精準推理。然而在實際應用場景中，Text-To-SQL模型會遇到多種多樣的使用者問句，需要模型具有較強的的泛化能力和魯棒性。面向這一挑戰，我們從模型預訓練和模型微調政策兩方面展開研究。

STAR: SQL Guided Pre-Training for Context-dependent Text-to-SQL Parsing

Zefeng Cai, Xiangyu Li, Binyuan Hui, Min Yang, Bowen Li, Binhua Li, Zheng Cao, Weijie Li, Fei Huang, Luo Si and Yongbin Li

預訓練模型最近幾年在 NLP 的各種任務上大放異彩，但由于表格和自然語言之間内在的差異性，普通的預訓練語言模型（PLM，e.g. BERT) 在該任務上無法達到最優的性能，是以面向對話式語義解析的預訓練表格模型（TaLM）應運而生。

預訓練表格模型（TaLM）需要處理兩個核心問題，包括如何利用上下文 query 複雜依賴（指代、意圖偏移）及如何有效利用曆史生成的 SQL 結果。對此，我們提出了兩個預訓練目标: (1) 對于上下文 query 利用，提出了基于 SQL 相似度的對比學習任務 UDT (Utterance Dependency Tracking），我們的關鍵動機在于，類似的 SQL 對應的 query 在語義上更具相關性，因為 SQL 可以看作使用者意圖的高度結構化表示；(2) 對于上下文 SQL 問題，直接将 SQL 拼接到模型的輸入容易引發長度、非語言等性問題，我們借助 SQL 定義 schema 在每一輪的具體狀态（扮演什麼樣的關鍵詞角色），提出了 SST (Schema State Tracking) 任務，最終利用類似狀态追蹤的想法進行訓練。

這兩個任務都依賴 SQL 的引導，共同完成上下文的複雜模組化，是以我們将最終的模型命名為 STAR: SQL Guided Pre-Training for Context-dependent Text-to-SQL Parsing。我們在對話式語義解析的權威 benchmark SParC 和 CoSQL 上進行了評估，在公平的下遊模型對比下，STAR 相比之前最好的預訓練表格模型 SCoRe，SParC 資料集 QM / IM 提升 4.6 / 3.3%，CoSQL 資料集 IM 顯著提升 7.4% / 8.5%，而 CoSQL 相比 SParC 資料集，擁有更多的上下文變化，驗證了我們提出的預訓練任務的有效性。截至目前，STAR 仍然是兩個榜單的 rank 1。

Towards Generalizable and Robust Text-to-SQL Parsing

Chang Gao, Bowen Li, Wenxuan Zhang, Wai Lam, Binhua Li, Fei Huang, Luo Si and Yongbin Li

除了模型預訓練，我們還希望在模型微調階段增強模型的魯棒性。為此，我們提出一種讓模型學習從簡單到複雜的範式，稱為TKK架構，它主要包含三個階段：任務拆解、知識擷取和知識組合（Task decomposition & Knowledge acquisition & Knowledge composition），這模仿了人類學習處理Text-To-SQL任務的過程。模型架構如圖所示。在任務分解階段，TKK将原始任務分解為多個子任務。每個子任務對應于将自然語言問題映射到SQL查詢的一個或多個子句，這些任務包括SELECT、FROM、WHERE等子任務。之後，TKK采用基于提示詞的學習政策，分别擷取子任務的知識，并利用所學知識處理主要任務，即生成整個SQL查詢。在知識擷取階段，TKK以多任務學習方式訓練包含所有子任務的模型；在知識組合階段，TKK模型在主任務上進行微調，以組合獲得的子任務知識并學習它們之間的依賴關系。

通過将Text-To-SQL的學習過程拆解成多個階段，我們的架構提升了模型擷取通用SQL知識的能力，而不是僅僅學習簡單的模式，進而使得模型具有更強的泛化能力和魯棒性。為了驗證我們提出的TKK模型的泛化能力，我們在公開的三個Text-To-SQL資料集，Spider、SparC和CoSQL上進行實驗，均獲得了當時的SOTA結果，分别為75.6、66.6和58.3。另一方面，為了驗證TKK模型的魯棒性，我們在增加噪音的Spider-Syn和Spider-Realistic資料集上進行實驗，相比于T5-3B模型，TKK模型分别提升2.6（59.4->63.0）和5.3（63.2->68.5）個百分點。總而言之，我們為了提升Text-To-SQL模型的泛化能力和魯棒性，提出了一種包括任務拆解、知識擷取和知識組合的三階段架構，并且通過實驗驗證了該架構的有效性。

三、文檔型對話

現代企業與組織在其日常經營活動中會産生大量的文檔資料，它們通常都有着巨大的價值。目前，多數企業與組織仍在利用搜尋引擎從這些文檔中擷取資訊，這不僅要求使用者給出較為精确的檢索關鍵字而且很難處理某些複雜而抽象的資訊查詢請求。于是，越來越多的研究開始面向文檔對話系統（document-grounded dialog system），它期望通過對話的方式來互動式的從文檔中擷取知識。

Towards Generalized Open Information Extraction

Bowen Yu, Zhenyu Zhang, Jingyang Li, Haiyang Yu, Tingwen Liu, Jian Sun, Yongbin Li, Bin Wang

開放資訊抽取（OpenIE）希望從任意領域的文本中抽取不限定關系類型的三元組類知識，采用原始文本中的片段作為頭實體、關系短語和尾實體，這樣的開放知識能夠在文檔問答等知識問答任務中發揮重要價值。然而，目前OpenIE領域的工作往往采用獨立同分布的評測方式，即訓練集和測試集來源于分布類似的領域，這無疑違背了OpenIE希望從任意領域進行有效抽取的初衷。為此，我們首先人工标注了一個大規模多領域的OpenIE測試集 GLOBE，包含來自保險、教育、醫療等6個領域的兩萬多個句子，采用和目前最大的人工标注OpenIE資料集SAOKE相同的标注規範。

在此基礎上，我們建構了一個更貼近真實的OpenIE評測範式：在SAOKE上訓練，在GLOBE上測試。先期實驗發現，目前的SOTA OpenIE模型在新的評測範式下會出現高達70%的性能損失。進一步分析發現，SOTA模型需要建構包含O(n^2)條連邊的圖來表示包含n個片段的開放知識，任何一條連邊錯誤都會導緻錯誤的抽取結果，是以在領域變化導緻抽取能力下降時不魯棒。是以我們提出了一個圖上最簡的OpenIE表達形式：将開放知識表達成為有向無環圖，複雜度由O(n^2)降低到了O(n)。實驗結果表明，在原始的獨立同分布評測範式下，本文提出的方法取得了3.6pt的性能提升。在新的out-of-domain評測範式下，性能提升進一步增加到了6.0pt，并且僅用10%的訓練資料就可以獲得和之前SOTA模型類似的效果。

複制連結檢視原文，擷取更多福利！

https://developer.aliyun.com/article/1079257?utm_content=g_1000364386

版權聲明：本文内容由阿裡雲實名注冊使用者自發貢獻，版權歸原作者所有，阿裡雲開發者社群不擁有其著作權，亦不承擔相應法律責任。具體規則請檢視《阿裡雲開發者社群使用者服務協定》和《阿裡雲開發者社群知識産權保護指引》。如果您發現本社群中有涉嫌抄襲的内容，填寫侵權投訴表單進行舉報，一經查實，本社群将立刻删除涉嫌侵權内容。

一次中稿10篇EMNLP22，達摩院對話智能團隊在研究什麼

一、任務型對話

二、表格型對話

三、文檔型對話

繼續閱讀

[人工智能]得人工智能者得天下？百度200萬美元獎勵不到20人的團隊

人工智能有多火？阿裡雲半年團隊規模翻倍還不夠用

2016 CCF 大資料與計算智能大賽完美落幕，11 支技術團隊脫穎而出

阿裡巴巴跨實體界招人，世界級音頻專家馮津偉入職人工智能團隊iDST

大資料+人工智能阿裡搜尋團隊國際大賽再拔頭籌

安卓創始人成立新團隊打造智能家居産品

阿裡雲智能事業群 EMR團隊招人啦！

創業開發團隊的9個誤區

馬斯克460億美元收購推特（Twitter）logo藍鳥改為X，整理内部人員結構裁員後，從虧損邊緣拉回盈利階段，跨時