來源:授權自AI科技大學營(ID:rgznai100)
本文約4600字,建議閱讀10分鐘。
本文帶你了解騰訊在今年的 ACL 會議上還有哪些研究論文被錄取。
[ 導讀 ] 7 月 31 日晚,自然語言處理領域最大頂會 ACL 2019 公布了今年的八個論文獎項,其中最佳長論文的獲獎者被來自中國科學院大學、中國科學院計算技術研究所、騰訊 WeChat AI、華為諾亞方舟實驗室、伍斯特理工學院等機構的聯合論文所斬獲。除了這篇最佳長論文,騰訊在今年的 ACL 會議上還有哪些研究論文被錄取?今天,我們就用這篇文章為大家做介紹。
1、《Bridging the Gap between Training and Inference for Neural Machine Translation》
橋接神經網絡機器翻譯訓練和推導
該論文是今年 ACL 的最佳長論文,該論文由騰訊微信AI與中科院計算所、華為諾亞方舟實驗室聯合完成。本文的工作解釋了暴露偏差和過度校正現象,并将所提出的方法與試圖決該類問題的其他方法進行了對比。這項工作中提出的方法對學術研究以及實際應用都有非常重要的意義。

論文位址:
https://www.aclweb.org/anthology/P19-1426
目前主流的神經網絡機器翻譯(NMT)以自回歸的方式逐詞産生譯文。在訓練時,模型以參考譯文中的詞語作為翻譯曆史進行預測;而在推導時,模型必須從頭開始生成整個序列,即以模型的輸出為曆史,依賴的上文分布與訓練時不同,這會導緻推導時翻譯序列上的誤差累積,該問題被稱為Exposure Bias(暴露偏差)。
此外,詞級别的訓練方法要求所預測的序列與參考譯文序列之間嚴格比對,這會導緻模型對那些與參考譯文不同但是合理的譯文做過度校正。
為了解決上述問題,在模型訓練期間,作者從參考譯文序列與模型自身預測出的序列中采樣出曆史詞語,作為模型的輸入。除了詞級别采樣,本文的另一個貢獻在于作者提出了句子級的采樣方法。
在NIST中英和WMT14英德翻譯任務的實驗結果表明,我們的方法在多個資料集上比強基線系統(深層的RNMT和Transformer)得到了顯著性地提升。
2、《Incremental Transformer with Deliberation Decoder for Document Grounded Conversations》
基于文檔級知識的對話: 帶有推敲解碼機制的增量式 Transformer
本文由騰訊微信AI與華中科技大學等聯合完成。本文主要研究基于文檔知識的對話,在給定文檔的内容時生成上下文連貫、正确利用知識的回複。
論文位址:
https://www.aclweb.org/anthology/P19-1002
文檔知識在我們日常對話中起着至關重要的作用,而現有的對話模型并沒有有效地利用這類知識。在本文中,作者提出了一種新的基于Transformer的基于文檔知識的多輪對話模型。
作者設計了一個增量式Transformer來編碼多輪對話以及相關文檔中的知識。此外,在人類認知過程的啟發下,作者還設計了一個具有兩次解碼過程的推敲解碼器,來提高上下文的一緻性和知識應用的正确性。
第一次解碼過程注重上下文回複的一緻性,第二次解碼過程注重知識應用的正确性。在真實的基于文檔的多輪對話資料集的實驗研究證明,模型生成的回複在上下文一緻性和知識相關性方面都顯著優于其他基線模型。
3、《GCDT: A Global Context Enhanced Deep Transition Architecture for Sequence Labeling》GCDT:
全局上下文增強的深度轉換架構序列标注模型
該論文由騰訊微信AI與北京交通大學聯合完成。在本文中,作者提出了一個利用全局上下文增強的深度轉換架構 GCDT(Global Context Enhanced Deep Transition)用于序列标注任務。
論文位址:
https://www.aclweb.org/anthology/P19-1233
序列标注是一類基礎的NLP任務,目前最佳的模型通常基于循環神經網絡(RNNs)。然而RNN模型在相鄰詞之間的隐狀态連接配接較淺,并且對于全局資訊模組化不夠充分,進而限制RNN模型的潛在性能。作者試圖解決這個問題,在論文中提出了一個利用全局上下文增強的深度轉換架構——GCDT(text Enhanced Deep Transition)用于序列标注任務。
首先,通過設計特有的門控單元,加深句中的每個詞位置的狀态轉換路徑,并進一步利用句子級的全局資訊來增強每個詞的局部表示。
實驗中,在兩項标準任務上驗證模型的有效性,分别是指令實體識别(NER)和文法塊識别(Chunking)實驗結果表明,在隻利用訓練資料和預訓練詞向量的情況下,作者提出的GCDT模型在兩項任務上分别達到 91.96(NER)和 95.43(Chunking)的F1值,超過同等設定下的最佳模型。
此外,通過利用BERT作為額外的語義知識,在兩項資料集上得到了新的state-of-the-art結果: 93.50(NER)和 97.30(Chunking)。
4、《Retrieving Sequential Information for Non-Autoregressive Neural Machine Translation》
序列資訊指導的非自回歸神經機器翻譯
該論文由騰訊微信AI與中科院計算所聯合完成。在論文中,針對神經機器翻譯模型。非自回歸模型容易産生過翻譯和漏翻譯錯誤的訓練缺陷,作者提出了兩種方法來為非自回歸模型引入序列資訊。
論文位址:
https://www.aclweb.org/anthology/P19-1288
主流的神經機器翻譯模型采用自回歸的解碼機制,即逐詞生成翻譯結果,翻譯的延遲較高。非自回歸機器翻譯對每個詞的翻譯機率獨立模組化,是以能并行解碼出整個譯文,大幅提升翻譯速度。然而,非自回歸模型在訓練時缺乏目标端序列資訊的指導,容易産生過翻譯和漏翻譯的錯誤。基于此,作者提出了兩種方法來為非自回歸模型引入序列資訊。
在第一種方法中,基于非自回歸模型的特性,設計了基于強化學習的高效、穩定的序列級訓練方法(Reinforce-NAT)。
在第二種方法中,設計了一種新的解碼器結構,将序列資訊融入到解碼器的頂層中(FS-Decoder)。
實驗結果顯示,Reinforce-NAT方法能顯著提升模型的翻譯品質,并不損失解碼速度,FS-Decoder能達到接近自回歸模型的翻譯效果,并仍保持非常可觀的翻譯解碼速度提升。
5、《Rhetorically Controlled Encoder-Decoder for Modern Chinese Poetry Generation》
基于修辭控制編碼解碼的現代漢語詩歌生成
本文由騰訊微信AI與美國羅格斯大學等合作完成。在這篇論文中,作者提出一種基于修辭控制的編碼-解碼模型,嘗試将比喻、拟人等常用修辭融入用于現代漢語詩歌自動創作中。
論文位址:
https://www.aclweb.org/anthology/P19-1192
近年來詩歌生成在文本自動生成領域得到了較大的關注。現代漢語詩歌中修辭是一種增強詩藝術效果的常用方法,在這篇論文中,作者嘗試将比喻、拟人等常用修辭融入詩歌自動創作中。
具體而言,本文提出一種基于修辭控制的編碼-解碼模型用于現代漢語詩歌生成。該論文也是第一個将修辭引入文本生成任務中,以解決現有生成結果多樣性不足的問題。
自動以及人工評測實驗結果表明,該模型在現代漢語詩歌資料集生成修辭等效果顯著,有效地增強了文本自動創作的多樣性和藝術性。該模型在其他風格控制文本生成的場景下也有廣泛的應用。
6、《Improving Multi-turn Dialogue Modelling with Utterance ReWriter》
通過表達改寫提升多輪對話系統效果
本文由騰訊微信AI與馬克思普朗克研究所(Max Planck Institute Informatics)等聯合完成。指代消解和資訊省略是多輪對話系統面臨的主要挑戰之一。本文建構了一個高品質的中文對話改寫資料集用于指代消解和資訊補全,同時提出了一種表達(utterance)改寫模型。
論文位址:
https://www.aclweb.org/anthology/P19-1003
多輪對話系統旨在通過與使用者進行多次問答的方式,更好的擷取使用者需求,并作出相應反應。指代消解和資訊省略是多輪對話系統面臨的主要挑戰之一。
以下圖為例,對于 Context 1 中的例子,使用者的第二個問題“他和C羅誰是最好的球員?”中使用“他”來指代“梅西”;而對于Context 2 中的例子,使用者的第二問題則并沒有提及“最喜歡泰坦尼克”這一被發問對象。兩種情況下,系統均需要對上下文進行分析,才能恢複回答相應問題所需要的資訊。
針對這兩個挑戰,本文建構了一個高品質的中文對話改寫資料集用于指代消解和資訊補全。同時提出了一種表達(utterance)改寫模型,該模型通過将使用者問題進行指代消解和資訊補全後再生成回複的方式,實作用更成熟的單輪對話技術解決多輪對話問題的效果。
以上圖為例,Context 1 例子中,“他”被改寫為“梅西”,而 Context 2 中,則補充了“最喜歡泰坦尼克”這一資訊。
經過改寫後,兩個問題均無需檢視上下文資訊即可回答。實驗結果顯示,該方法對于任務導向型對話系統和閑聊型對話系統均有效果提升,為解決多輪對話問題提供了一種全新的思路。
7、《Towards Fine-grained Text Sentiment Transfer》
細粒度情感轉換
本文由騰訊微信AI與北京大學聯合完成。本文提出了一種細粒度情感轉換模型Seq2SentiSeq,實作細粒度情感控制;另一方面,本文提出了一種環路強化學習(CycleRL)訓練方法,解決标注資料稀缺的問題。
論文位址:
https://www.aclweb.org/anthology/P19-1194
細粒度情感轉換是指給定文本和實數值情感強度,在保持文本語義的前提下,對文本進行改寫,使之表達相應情感的任務。示例見下圖,其中情感強度0表示最負面,1表示最正面。
以往的情感轉換工作隻關注粗粒度的情感(如正向和負向情感),無法應用于情感強度連續變化的場景;同時這些工作都面臨标注資料稀缺的問題。
針對以上兩個挑戰,本文提出了一種細粒度情感轉換模型Seq2SentiSeq,該模型通過高斯核層(Gaussian kernel layer)将實數值情感強度資訊融入模型,實作細粒度情感控制;另外,本文還提出了一種環路強化學習(CycleRL)訓練方法,利用情感分類器和文本重構構造回報函數(reward),解決标注資料稀缺的問題。
實驗結果顯示,本文方法在多個自動評估名額和人工評估名額下,均顯著超過已有基線系統。人工檢查轉換結果也證明模型初步具備了細粒度情感轉換的能力。
8、《Key Fact as Pivot: A Two-Stage Model for Low Resource Table-to-Text Generation》以關鍵事實為樞軸:
一種兩階段的低資源的表格到文本生成模型
本文由騰訊微信AI與北京大學聯合完成。這篇論文中,作者希望通過隻使用少量“表格-文本”形式的樣本即可實作表格到文本生成模型的訓練。
論文位址:
https://www.aclweb.org/anthology/P19-1197
将結構化的表格轉換成非結構化的文本在自動内容生成方面具有重要應用(如天氣預報生成、NBA新聞生成、人物生平生成等)。已有工作通常使用序列到序列模型(seq2seq model)來對這一問題模組化,但序列到序列模型需要使用海量“表格-文本”形式的樣本進行訓練,而這種樣本在實際場景中構造代價巨大,制約了這些模型的實際應用。
本文希望通過隻使用少量“表格-文本”形式的樣本即可實作表格到文本生成模型的訓練。本文中将表格到文本生成轉換成兩個階段,在第一階段,模型通過序列标注(sequence labeling)模型從表格中抽取關鍵事實,在第二階段,以關鍵事實(一些短語序列)作為輸入,使用序列到序列模型将其轉換成目标文本。
在第一階段,實驗顯示,隻需要1000條“表格-文本”形式的樣本,即可訓練得到效果可用的序列标注模型;在第二階段模型訓練過程中,将自然語言句子中的實詞作為僞關鍵事實,自動生成大量僞訓練樣本用于訓練序列到序列模型,同時通過增詞和删詞的方式構造對抗樣本,提升模型的魯棒性,進而實作不依賴于“表格-文本”形式的樣本即可訓練該階段模型的效果。
實驗結果顯示,在隻使用1000條“表格-文本” 形式的樣本的條件下,本文模型顯著超過已往的有監督方法,同時模型的實際效果與使用大規模“表格-文本”形式的樣本訓練的有監督模型可比。
9、《DocRED: A Large-Scale Document-Level Relation Extraction Dataset》DocRED:
大規模篇章級關系抽取資料集
本文由騰訊微信AI與清華大學聯合完成。本文提出了目前最大的篇章級精标注關系抽取資料集DocRED。目前DocRED已可公開擷取,同時,還有相關競賽,對這個領域感興趣的小夥伴們可以關注,參與一波~
論文位址:
https://www.aclweb.org/anthology/P19-1074
資料集DocRED擷取位址:
https://github.com/thunlp/DocRED
參加競賽:
https://competitions.codalab.org/competitions/20147
關系抽取是給定一段文本,自動找出文本中提及的實體間關系的任務。多數已有的關系抽取資料集隻關注同一個句子中提及的實體間的關系。少數資料集關注到了跨句子的實體間的關系,但存在資料規模小、資料采用遠距離監督(distant supervision)方法建構噪音大或資料集特定于某個領域等問題,不利于跨句子的關系抽取相關研究工作的開展。
本文提出了目前最大的篇章級精标注關系抽取資料集DocRED。該資料集包含對5,053篇Wikipedia文章的标注,标注内容包括96種關系、132,375個實體和56,354個關系事實。
在該資料集中,超過40.7%的關系事實必須聯合多個句子的資訊才能被正确抽取,對關系抽取模型提出了更高的要求。此外,該資料集還額外提供了大規模的采用遠距離監督技術标注的資料,以支援半監督方法的研究。
資料示例:每篇文章都被标注了實體(entity mention,藍色或下劃線)、句内/間關系(intra-/inter-sentence relation,橙色),以及支援證據(supporting evidence)。該例子展示了該篇文章中19個關系事實中的2個。需特别說明的是,同一個實體的不同别稱會被歸并(如Kungliga Hovkapellet和Royal Court Orchestra)。
編輯:于騰凱
校對:林亦霖