學界 | 騰訊 AI Lab 解讀16篇 EMNLP 2018 入選論文

本文轉載自騰訊AI實驗室（公衆号ID：tencent_ailab）

EMNLP 是自然語言處理領域的頂級會議，它的全稱是Conference on Empirical Methods in Natural Language Processing（自然語言進行中的經驗方法會議），由國際語言學會（ACL）的SIGDAT小組主辦，今年10月31日-11月4日将在比利時布魯塞爾舉行。

今年是騰訊AI Lab第2次參加EMNLP，共有16篇文章入選，涵蓋語言了解、語言生成、機器翻譯等多個研究主題。以下為摘要解讀。

此外，在今年的多個頂級學術會議中，騰訊AI Lab也入選多篇論文，位居國内企業前列，包括機器學習領域頂會NIPS（20篇）和ICML（16篇）、計算機視覺領域頂會CVPR（21篇）和ECCV（19篇），以及語音領域頂會Interspeech（8篇）等。

1. QuaSE: 量化指導下的序列編輯

QuaSE: Sequence Editing under Quantifiable Guidance

論文位址：https://arxiv.org/abs/1804.07007

本文由騰訊AI Lab主導，與中國香港中文大學合作完成。本文提出了量化指導下的序列編輯（QuaSE）的任務：編輯輸入序列以生成滿足用于定量序列某種特定屬性的數值的輸出序列，同時保持輸入序列的主要内容。例如，輸入序列可以是字的序列，例如評論句子和廣告文本。對于評論句子，數值可以是打分; 對于廣告，數值可以是點選率。QuaSE的一個主要挑戰是如何感覺與數值相關的措辭，并僅編輯它們以改變結果。在本文中，所提出的架構包含兩個潛在因子，即結果因子和内容因子，為輸入句子提供友善的編輯以改變數值結果并保留内容。本文的架構通過對其内容相似性和結果差異進行模組化來探索利用僞平行句對，以便更好地解耦潛在因子，進而允許生成更好地滿足期望數值結果并保持内容的輸出。對偶重構結構通過利用僞平行句對的潛在因子的耦合關系，進一步增強了生成滿足預期的輸出的能力。為了評估，研究人員準備了Yelp評論句子的資料集，用打分作為數值結果。本文報告和深入讨論了實驗結果，以闡述架構的特點。

2. 利用深層表示進行神經機器翻譯

Exploiting Deep Representations for Neural Machine Translation

本文由騰訊AI Lab主導，與南京大學合作完成。神經機器翻譯系統通常由多層編碼器和解碼器構成，這允許系統對于複雜函數進行模組化并捕獲複雜的語言結構。然而，通常情況下，翻譯過程僅利用了編碼器和解碼器的頂層，這錯過了利用在其他層中的有用資訊的機會。在這項工作中，研究人員提出用層聚合和多層注意機制的方法同時暴露和傳輸所有這些信号。此外，本文引入輔助的正則化以鼓勵不同的層捕獲不同的資訊。研究人員在廣泛使用的WMT14英語到德語和WMT17中文到英語翻譯資料進行實驗，實驗結果證明了方法的有效性和普遍性。

3.自注意力神經網絡模型的局部性模組化

Modeling Localness for Self-Attention Networks

本文由騰訊AI Lab主導，與中國澳門大學合作完成。自注意力模型可以直接注意所有輸入元素，在很多任務中被證明具有捕獲全局依賴的能力。然而，這種依賴資訊的捕獲是通過權重求和操作完成的，這可能會導緻其忽視相鄰元素間的關系。本文為自注意力網絡建立局部性模型，以增強其學習局部上下文的能力。具體而言，我們将局部模型設計為一種可學習的高斯偏差，這種高斯偏差表示了所強化的局部範圍。随後，所得到的高斯偏差被用于修正原始注意力分布以得到局部強化的權重分布。此外，我們發現在多層自注意網絡中，較低層趨向于關注于尺寸較小的局部範圍，而較高層則更注重全局資訊的捕獲。是以，為了保持原模型捕獲長距離依賴能力的同時強化其對局部資訊的模組化, 本文僅将局部性模組化應用于較低層的自注意力網絡中。在漢英和英德翻譯任務的定量和定性分析證明了所提出方法的有效性和适用性。

4. 用于短文本分類的主題記憶網絡

Topic Memory Networks for Short Text Classification

本文由騰訊AI Lab主導，與中國香港中文大學合作完成。許多分類模型在短文本分類上性能欠佳，其主要原因是短文本所産生的資料稀疏性問題。為了解決這一問題，本文提出了一種新穎的主題記憶機制用于編碼那些對分類有用的主題表示，以提升短文本分類的性能。前人的工作主要專注于用額外的知識擴充文本特征或者利用已經訓練好的主題模型，不同于過去的工作，本文的模型能夠在記憶網絡架構下通過端到端的方式同時學習主題表示和文本分類。四個基準資料集上的實驗結果證明了本文的模型不僅在短文本分類上的性能超過了之前最先進的模型，同時也能夠産生有意義的主題。

5. 一種用于自動構造中文錯字檢查語料的混合方法

A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check

本文由騰訊AI Lab主導，與清華大學和騰訊SNG合作完成。中文錯字的自動檢查是一個富有挑戰又十分有意義的任務，該任務不僅用于許多自然語言處理應用的預處理階段，而且可以極大促進人們的日常讀寫。資料驅動的方法在中文錯字檢查十分有效，然而卻面臨着标注資料缺乏的挑戰。這個工作提出了一種自動構造用于拼寫檢查資料集的方法，分别通過基于OCR和SR的方法構造視覺上和聽覺上相似的字來模拟錯字。利用本文提出的方法，研究人員構造了一個大規模的資料集用于訓練不同的錯字自動檢查模型，在三個标準的測試集上的實驗結果證明了本文自動構造資料集方法的合理性和有效性。

6. 基于對抗條件變分自編碼器的中文詩歌生成

Generating Classical Chinese Poems via Conditional Variational Autoencoder and Adversarial Training

本文為騰訊犀牛鳥合作項目，與北京大學合作完成。計算機自動創作表達流暢、文字優美的詩歌是一個難題。雖然之前的相關研究已經取得了引人注目的成果，自動生成的詩歌依然和詩人創作的有很大差距，尤其是主旨一緻性和用詞的新穎性。在本文中，研究人員提出結合條件變分自編碼器和對抗訓練的政策來生成詩歌。實驗結果表明，不管是自動名額還是人工測評，本文的模型都有顯著的提高。

7. 面向摘要生成的互動文檔表表征學習及潤色

Iterative Document Representation Learning Towards Summarization with Polishing

本文為騰訊犀牛鳥合作項目，與北京大學合作完成。通過觀察人類生成摘要時對文檔閱讀及了解多遍的事實，文本提出了基于互動式文本摘要技術的抽取式摘要生成模型。考慮到目前摘要生成技術局限于對待生成摘要文本隻處理一遍，多數文本表達無法得到全局最優的結果。針對這種情況，本文提出的方法能夠持續選擇，更新相應文本及優化相應的文本表征。在CNN/DailyMail和DUC2002資料及上的實驗結果證明，本文提出的方法在自動及人工評測方面均超越了以往最好的模型。

8. 面向回複生成的變分自回歸解碼器

Variational Autoregressive Decoder for Neural Response Generation

本文由騰訊AI Lab參與，與哈爾濱工業大學合作完成。由于結合了機率圖模型與神經網絡的優點，條件變分自編碼機（Conditional Variational Auto-encoder (CVAE)）在諸多自然語言處理應用例如開放域對話回複上，表現出了優秀的性能。然而，傳統CVAE模型通常從單一的潛在變量中生成對話回複，這一模型很難對回複中的多樣性進行準确模組化。為了解決這一問題，本文提出了一種将序列化的潛在變量引入對話生成過程中的模型。在此模型中，研究人員使用一個後向循環神經網絡（Recurrent Neural Network， RNN）擴充近似後驗機率分布，其中後向循環神經網絡使得本文的模型能更好捕捉文本生成過程中的長距離依賴問題。為了更好訓練本文提出模型，研究人員在訓練過程中加入了預測後續文本詞袋（bag-of-words）的輔助目标。在OpenSubtitle和Reddit對話生成資料集的實驗上表明本文提出的模型可以顯著提升生成回複的相關性與多樣性。

9. 具有差異性限制的多頭注意力機制

Multi-Head Attention with Disagreement Regularization

本文由騰訊AI Lab主導，與中國香港中文大學和中國澳門大學合作完成。多頭注意力機制因其能在不同子空間學習不同表征的能力受到研究者歡迎。在這個工作中，本文引入一種差異性限制來顯式地鼓勵多個注意力頭的多樣性。具體地，本文提出了3種差異性限制，分别鼓勵每個注意力頭在輸入子空間、注意力對齊矩陣、輸出表示上跟其他的注意力頭不一樣。研究人員在廣泛使用的WMT14英語到德語和WMT17中文到英語翻譯資料進行實驗，實驗結果證明了方法的有效性和普遍性。

10.一種基于共享重構機制的缺略代詞還原與神經網絡機器翻譯聯合學習方法

Learning to Jointly Translate and Predict Dropped Pronouns with a Shared Reconstruction Mechanism

論文位址: https://arxiv.org/abs/1810.06195

本文由騰訊AI Lab主導，與都柏林城市大學合作完成。在代詞缺略語言（如，漢語）中，代詞常常會被省略，但是這給機器翻譯結果的完整性帶來了極大挑戰。最近 Wang et al. (2018) (Translating Pro-Drop Languages with Reconstruction Models) 的工作提出了利用重構機制來緩解神經網絡機器翻譯中的缺略代詞問題。本文從兩個方面進一步加強了原有的重構模型。首先，本文提出了共享式重構器來充分利用編碼器和解碼器端的表示。第二，為了避免額外的缺略代詞标注系統的錯誤傳遞，本文利用聯合學習方法提出了缺略代詞預測和翻譯的端到端模型。

11. 一種減少神經網絡對話模型生成通用回複的統計重權重方法

Towards Less Generic Responses in Neural Conversation Models: A Statistical Re-weighting Method

本文由騰訊AI Lab主導，與蘇州大學和武漢大學合作完成。序列到序列（Seq2Seq）的神經網絡生成模型已經在短文的對話生成任務中取得了不錯表現。但是，這些生成模型往往容易生成通用、乏味的回複，非常影響對話的體驗。研究人員觀察到在對話任務中，每個輸入語句都有可能對應着多個合理回複，即表現為1對n（或者以整個語料集的角度看是m對n）的形式。這種情形下，使用标準的Seq2Seq的目标函數，模型參數容易通過損失代價被通用（高頻）的句子樣式主導。受此啟發，本文提出一種基于統計重權重的方法賦予輸入語句對應的多個可接受回複不同的權值，并使用經典的神經網絡生成模型進行訓練。在一份大型的中文對話語料集上的實驗結果表明，本文提出的方法在提高模型生成回複的接受率的同時，明顯地減少了通用回複的數量。

12. 将數學問題翻譯為表達式樹

Translating a MathWord Problem to a Expression Tree

本文由騰訊AI Lab主導，與電子科技大學和中國香港中文大學合作完成。序列到序列模型已經成功的在自動解數學題方向取得了較大成功。然而，這種方法雖然十分的簡單有效，卻仍然存在一個缺點：一個數學問題可以被多個方程正确的解出。這種非确定性的映射關系損害了最大似然估計的性能。本文利用表達式樹的唯一性提出了一種公式歸一化的方法。此外，本文還分析了三種目前最流行的序列到序列模型在自動解數學題任務上的性能。研究人員發現每個模型都有自己的優點和缺點，是以本文進一步提出了一個內建模型來結合他們的優點。在資料集 Math23K上的實表明使用公式歸一化的的內建模型明顯優于以往最先進的方法。

13. 循環神經網絡語言模型下n-gram的邊際機率估計

Estimating Marginal Probabilities of n-grams for Recurrent Neural Language Models

本文為騰訊AI Lab犀牛鳥Gift Fund項目，與美國西北大學合作完成。循環神經網絡語言模型（RNNLMs）是目前統計語言模組化的主流方法。然而，RNNLMs隻能對完整的文本序列進行機率計算。在一些實際應用當中，往往需要計算上下文無關的（context-independent）短語的機率。本文中，研究人員探索了如何計算RNNLMs的邊際機率：在前文（preceding context）缺失的情況下，模型如何計算一個短文本的機率。本文提出了一種改變RNNLM訓練的方法，使得模型能夠更加精确地計算邊際機率。實驗結果表明，本文的技術優于基線系統，如傳統的RNNLM以及重要度采樣法。本文還給出了如何利用邊際機率改善RNNLM的方法，即在訓練中使邊際機率接近于一個大資料集中n-gram的機率。

14. 基于混合注意力機制的線上論辯贊成/反對關系識别

Hybrid Neural Attention for Agreement/Disagreement Inference in Online Debates

本文由騰訊AI Lab參與，與哈爾濱工業大學合作完成。推斷辯論尤其是線上辯論文本間的贊成/反對關系是論辯挖掘的基本任務之一。贊成/反對的表達通常依賴于文本中的議論性表達以及辯論參與者之間的互動，而以往的工作通常缺乏聯合模組化這兩個因素的能力。為了解決這一問題，本文提出了一種基于神經網絡的混合注意力機制，其結合了自我注意力機制以及交叉注意力機制，分别通過上下文語境和使用者間的互動資訊來定位文本中的重要部分。在三個線上辯論資料集上的實驗結果表明，本文提出的模型優于現有的最優模型。

15. XL-NBT: 一種跨語言神經網絡置信跟蹤架構

XL-NBT: A Cross-Lingual Neural Belief Tracking Framework

論文位址：https://arxiv.org/pdf/1808.06244.pdf

本文為騰訊AI Lab犀牛鳥Gift Fund項目，與美國俄亥俄州立大學和加州大學聖塔芭芭拉分校合作完成。實作跨語種對話系統在實際應用（如自動客服）中具有重要的實際意義。現有方法實作多語種支援通常需要對每一個語言單獨标注。為了避免大量的标注成本，作為實作多語種通用對話系統這一終極目标的第一步，本文研究一個完全不需要新語種标注的跨語種的神經網絡置信跟蹤架構。具體來講，本文假設源語言（例如英語）存在一個已經訓練好的置信跟蹤器，而目智語言（如德語或者意大利語）不存在相應的用于訓練跟蹤器的标注資料。本文采用源語言的跟蹤器作為教師網絡，而目智語言的跟蹤器作為學生網絡，同時對置信跟蹤器進行結構解耦并借助外部的一些平行語料來幫助實作遷移學習。本文具體讨論了兩種不同類型的平行語料，得到兩種不同類型的遷移學習政策。實驗中研究人員用英語作為源語言，用德語和意大利語分别作為目智語言，實驗結果驗證了本文提出方法的有效性。

16. 自然語言視訊時域定位

Temporally Grounding Natural Sentence in Video

本文由騰訊AI Lab主導，與新加坡國立大學合作完成。本文介紹一種有效且高效的方法，可以在長的未修剪的視訊序列中定位自然語句表達的相應的視訊内容。具體而言，本文提出了一種新穎的Temporal GroundNet（TGN），用于捕獲視訊和句子之間不斷演變的細粒度視訊幀與單詞之間的互動資訊。 TGN基于所挖掘的視訊幀與單詞之間的互動資訊地對每幀的一組候選者進行評分，并最終定位對應于該句子的視訊片段。與以滑動視窗方式分别處理重疊段的傳統方法不同，TGN考慮了曆史資訊并在單次處理視訊後生成最終的定位結果。研究人員在三個公共資料集上廣泛評估本文提出的TGN。實驗證明TGN顯著的提高了現有技術的性能。本文通過相應對比試驗和速度測試進一步顯示TGN的有效性和高效率。