直擊AAAI 2020，一文讀完微軟亞研6篇精選論文

來源 | 微軟研究院AI頭條（ID: MSRAsia）

編者按：AAAI 2020中微軟亞洲研究院有29篇論文入選，本文為大家介紹的6篇精選論文涵蓋多元資料普适分析、文本風格遷移、句子改寫、內建學習、實體連結任務等多個前沿主題，如果你不能去到大會現場，先來看看這些精選論文吧。

低資源文本風格遷移資料集

A Dataset for Low-Resource Stylized Sequence-to-Sequence Generation

論文連結：https://www.msra.cn/wp-content/uploads/2020/01/A-Dataset-for-Low-Resource-Stylized-Sequence-to-Sequence-Generation.pdf

風格遷移是最近自然語言生成領域一個非常火的主題，随着各項技術的提出，目前風格遷移算法已經可以較好地對文本序列進行“情感極性”和“文本規範性”的遷移。然而，在很多的現實應用中，我們需要同時進行 Sequence2Sequence 和風格遷移兩個任務，例如在對話機器人之中，我們要求機器不但可以對使用者所輸入的對話給出相關的回複，還可以保證回複的規範性。

圖1：不同風格對話樣例

如圖1所示，當使用者咨詢關于 Windows 的問題時，應該給出的回複是正規而禮貌的，而不是随意而不禮貌的。為了研究目前算法對此類問題的進展，我們提出了兩個資料集—— Machine Translation Formality Corpus（MTFC）和 Twitter Conversation Formality Corpus（TCFC），分别研究機器翻譯風格遷移和對話風格遷移。

其中，MTFC 的任務定義為，給定一句中文口語，翻譯的結果應該為正規的英文書面語。為了完成這個任務，MTFC 包含從 Opensubtitle 下載下傳并清洗的約1400萬中英互譯口語語料，以及 GYAFC 資料集中所包含的5萬英文非正規文本到正規文本的句對。而 TCFC 的任務定義為，給定一個推特(Twitter)風格的對話上文，給出正規而禮貌的對話回複。TCFC 提供170萬的推特對話語料作為訓練資料。

為了驗證模型在這個任務的表現，MTFC 的驗證集和測試集分别包含2865和1412個中文口語到英文書面語的句對（每一句中文口語提供4句英文書面語作為參照）。與之類似，TCFC 的驗證集和測試集分别包含980和978個樣例（每一個對話上文對應2個風格正規的對話回複）。該論文還驗證了 Pivot Model、Teacher Student Model、Back-translation Model 三種基線模型的效果，其中 Back-translation 模型的表現最佳。

圖2：三種基線模型的效果

通過預訓練生成跨語種自然語言

Cross-Lingual Natural Language Generation via Pre-Training

論文連結: https://arxiv.org/abs/1909.10481

自然語言生成模型的訓練需要大規模的訓練資料，然而大多數的資料集都是以英語等資源豐富的語言提供的，限制了這些模型在其它語言上的應用。本篇論文提出了一種跨語言預訓練方法，使得我們可以将文本生成任務的監督信号在不同語言間遷移，進而實作自然語言生成模型的跨語言的零樣本或少樣本學習。

在自然語言生成模型的跨域語言遷移中，通常模型用英語進行訓練，然後在其它語言上進行測試. 以文本摘要為例：

圖3：文本摘要示例

本篇論文針對該問題的特點提出了預訓練模型 XNLG。XNLG 是一個序列到序列的 Transformer 模型，它的預訓練包括兩個階段：編碼預訓練、解碼預訓練，以及兩個次元：單語預訓練、跨語言預訓練，共計4個預訓練任務，如圖4所示：

圖4：XNLG 的預訓練任務

我們在跨語言零樣本問題生成/文本摘要任務（用英文訓練，在其它語言上測試）上進行了實驗，如圖5所示。結果表明，XNLG 可以超越基于機器翻譯的流水線模型。

圖5：跨語言零樣本問題生成/文本摘要任務實驗結果

此外，我們還實驗了在有不同數目的目智語言訓練資料的情況下，XNLG 的跨語言遷移效果的變化情況，如圖6所示。結果表明，在各種資料量上 XNLG 都能将源語言的知識遷移到目智語言上并且提升目智語言上的效果，尤其是當目智語言訓練資料量較少時。

圖6：跨語言遷移實驗結果

基于事實感覺的句子切分改寫任務與置換不變訓練

Fact-aware Sentence Split and Rephrase with Permutation Invariant Training

論文連結：https://arxiv.org/pdf/2001.11383.pdf

句子切分改寫任務是将輸入的複雜長句轉化為多個語義等價的簡單短句，通常采用 seq2seq 模型在平行語料上進行訓練，這類方法主要面臨以下兩種問題：

1. 對于複雜長句，編碼器很難準确地捕捉到其中所陳述的事實，是以解碼出的簡單句經常會丢失資訊或者生成一些錯誤的事實表述（如圖7(a)所示）；

2. 由于從複雜句中派生出的多個簡單句，可以以任何一種順序方式呈現，這種排列的随機性會困擾 seq2seq 模型應該以怎樣的順序生成多個簡單短句（如圖7(b)所示）。

圖7：seq2seq 模型在句子切分改寫任務中面臨的問題示例

為了解決上述這些問題，本篇論文引入了基于事實感覺的句子編碼 FaSE 以及置換無關訓練的政策 PIT。整個模型的架構如圖8所示，FaSE 借助多任務學習的方式使得編碼器編碼的特征不僅用于句子切分改寫任務，同時還用于判斷從目前複雜句中是否可以推斷出給定的事實。引入事實判定的輔助任務使得模型能夠從複雜長句中更好地捕獲事實資訊，進而提高句子切分的準确率；PIT 政策被廣泛用于解決多談話者場景下語音分離任務中的标簽排序問題。在句子切分改寫任務中，我們引入 PIT 政策來尋找具有最小損失的排列順序作為優化的目标，進而緩解由于排列順序随機性給 seq2seq 模型學習帶來的影響，進而使得整個訓練過程更加穩定。

圖8：模型架構

我們提出的方法在 WebSplit-v1.0 資料集上取得了較為顯著的結果，其中 FaSE 和 PIT 都分别帶來了明顯提升；我們還将其作為 OpenIE 任務的預處理部分，也顯著地提升了 Stanford OpenIE 的結果。

通過模組化隐含的實體類型資訊來改進實體連結任務

Improving Entity Linking by Modeling Latent Entity Type Information

論文連結：https://arxiv.org/abs/2001.01447

實體連結（Entity Linking）任務旨在研究如何将文本中對實體有歧義的“提及” (mention) 連結到目标知識庫所對應的實體上去，其結果可以用來幫助許多與知識相關的任務，如問答、資訊抽取等。在研究方法上，實體連結任務經曆了從傳統的基于特征工程的方法到目前基于神經網絡的端到端方法的過渡。

目前一些先進的基于神經網絡的實體連結模型容易将“提及”連結到類型不一緻的實體上去。如圖9所示，本篇論文的基線方法 DeepED（Ganea and Hofmann 2017）錯誤地将提及 “Milwaukee” 連結到球隊類型的實體 Milwaukee_Brewers，盡管介詞 “In” 明顯地暗示 “Milwaukee” 應該指代地點類型的實體 Milwaukee。

圖9：基線方法 DeepED（Ganea and Hofmann 2017）在标準資料集 AIDA-CoNLL 開發集上的類型錯誤示例

基于這一觀察，本篇論文分析了其主要原因有兩方面：1）提及的上下文所蘊含的實體類型資訊模組化不夠充分；2）實體的向量表示對實體類型不敏感。基于此，我們提出了一種簡單有效的基于預訓練語言模型的實體表示方法和一個基于 BERT 的實體相似度特征，以更好地捕捉實體類型資訊。

本篇論文在标準資料集上通過領域内和領域間測試證明了模型的有效性。同時通過詳細的實驗分析，展示出論文所提出的方法真正糾正了大部分基線模型所産生的類型錯誤。

最後，論文通過在訓練中得到的模型所對應的上下文表示空間中檢索最鄰近上下文，直覺地展示出基于 BERT 的上下文表示更好地捕捉了隐含的實體類型資訊。

圖10：本篇論文和基線方法在上下文表示空間中的最鄰近上下文

Table2Analysis: 多元資料普适分析模式的模組化與推薦

Table2Analysis: Modeling and Recommendation of Common Analysis Patterns for Multi-Dimensional Data

論文連結：https://www.microsoft.com/en-us/research/publication/table2analysis-modeling-and-recommendation-of-common-analysis-patterns-for-multi-dimensional-data/

圖11：多元資料普适分析的一個執行個體

從科學研究探索到商業智能分析，在知識發現和決策自動化的過程中，我們常面對一個關鍵問題：對多元資料集（表格）進行分析時，大家通常如何從中提取出資訊？譬如圖11中的銷售資料（有日期、區域、銷售代表、銷售額四個次元），大多數分析師會進行哪些常見的分析呢？對此，本篇論文提出了 Table2Analysis 架構，從大量 Excel 使用者建立的（表格、分析）例子中學習普适的分析模式，并基于此對新的表格推薦語義上常見的資料分析。

Table2Analysis 是一個 table-to-sequence 的架構。首先我們定義了一種分析語言，将資料分析過程編碼為一系列的操作符，每個操作符可以是預定義的分析操作（如開始分析的一個部分、標明聚合函數等），也可以是選擇資料表格中的一個次元。舉例來說，“sum of sales by region”可以被表示成 [ANA][Sales][SEP][Region][Sum]。在分析語言的基礎上，推薦常見分析則可被抽象為：給定一個表格，生成由這個表格中的次元組成的操作符序列。

圖12：模型架構

要生成分析操作符序列，在 Table2Analysis 架構中我們采取了逐漸一個個生成的方式，通過從大量使用者建立的（表格、分析）對中學到的語言模型（也即圖12中的動作值函數）來作為下一步選擇的啟發函數。但這種方式存在很多挑戰：輸入的操作符可能來自任何表格，有無限種可能性；簡單 seq2seq 的訓練方法在實際推斷時的曝光偏差；因為對操作符序列的嚴格文法要求，無法直接使用傳統自然語言進行中的很多模型和訓練方法……對此，我們對神經網絡的輸入層進行了設計，并采用并行搜尋采樣的方法來減少曝光偏差。

在我們收集的一個大型表格資料集上，Table2Analysis 對資料透視表（PivotTable）推薦的召回率在 top-5 達到了0.78，top-1 也有0.65。這驗證了 Table2Analysis 架構的有效性。

用于神經機器翻譯的轉導內建學習

Transductive Ensemble Learning for Neural Machine Translation

論文連結：https://www.msra.cn/wp-content/uploads/2020/01/Transductive-Ensemble-Learning-for-Neural-Machine-Translation.pdf

內建學習（Ensemble learning）利用多個不同的模型，在測試階段用投票的方式對樣本進行判别。然而，我們觀察到，在神經機器翻譯（NMT）的任務中，當參加測試的模型的準确率很高時，內建學習将不會對最終結果帶來顯著提升。類似的現象在相關文獻也有所展現。是以，如何将多個強 NMT 模型內建起來得到更好的測試效果，是本篇論文研究的課題。我們提出了傳導內建學習模型（Transductive Ensemble Learning，簡記為 TEL），能夠通過訓練的方法，将多個強 NMT 模型內建到一個模型中，得到更好的測試效果。我們在 WMT 英語-德語翻譯和英語-芬蘭語翻譯上驗證了我們算法有效性。特别地，我們在 WMT’16-WMT’18 英德翻譯任務上取得了目前最佳的效果。

在 TEL 模型中，我們将兩個語言空間記成 X 和 Y，将訓練集、驗證集和測試集記成 D_train={(x_i,y_i)}_(i=1)^(N_tr), D_valid={(x ̅_i,y ̅_i)}_(i=1)^(N_val), D_test={x_j^* }_(j=1)^(N_test)。注意我們可以得到測試集的輸入，但沒有對應的标簽。具體過程如下：

(A) 我們首先要在 D_train 上訓練，得到 K 個不同的模型。利用不同的随機種子即可。将得到的模型記做 f_1,f_2,⋯,f_K 。

(B) 将驗證集和測試集中的樣本利用上述 K 個模型進行翻譯：D_v={(x,f_k (x))|x∈D_valid,k∈[K]}, D_t={(x,f_k (x))|x∈D_test,k∈[K]}。

(C)在 D_v∪D_t 上微調： -min∑_((x,y)∈D_v∪D_t) logP(y│x;f_0) 中 f_0 可以從 f_1,f_2,⋯,f_K 中任選一個作為初始化模型。當模型在驗證集上取得最佳效果時，訓練停止。

首先，我們在有标資料和利用 back-translation 做了資料增強的兩組設定下得到了如圖13所示的實驗結果。結果表明，我們的算法 TEL 在不同的設定下都能夠取得一定的提高。

圖13：TEL 在 WMT 英語-德語翻譯和英語-芬蘭語翻譯上的實驗結果

最後，我們使用了更大規模的無标資料，在 WMT 英德互譯上取得了如下結果：

圖14：TEL 算法在 WMT 英德互譯上的實驗結果

通過大量實驗，我們發現：（1）TEL 算法可以提升很強的基準 NMT 模型；（2）TEL 算法對 K 值具有魯棒性；（3）即使隻有部分測試集的輸入，TEL 算法仍然能夠取得一定翻譯效果的提高。