天天看點

超越現有名額57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價架構

機器之心專欄

作者:鄧茗楷

長期以來,評價機器生成的文本比較困難。近日,CMU邢波(Eric Xing)教授和UCSD胡志挺(Zhiting Hu)教授的團隊提出用一種運算符,統一各類生成任務的評價方式,為未來各種新任務、新要求提供了更加統一的指導。實驗表明,基于統一架構設計的評價名額,在多個任務上超過了現有名額與人工評分的相似度,現在通過PyPI和GitHub可以直接調用。

自然語言生成(NLG)包括機器翻譯、摘要生成、機器對話等自然語言處理 (NLP)任務。這些任務雖然都要求生成通順的文本,但是最終的表達目标往往有很大的差別。比如說,翻譯任務需要完整、精确地表達原文的含義;摘要生成需要簡潔、準确地展現原文最重要的資訊;對話系統則需要與使用者進行生動、有用的對答。

過去幾年間,研究人員在這些任務的模組化方面,取得了很大的進步。然而,評價語言生成的結果,卻依舊比較困難。人工評價最準确,但是非常昂貴耗時。自動評價則反過來,規模化比較容易,但在如何評價方面比較模糊。

傳統上的評價方法是比較模型生成的文本與人寫的參考文本,但近年的研究表明,随着模型的進步,這樣的方法已經越來越難以區分文本的好壞。事實上,在AAAI 2021會議上的DSTC9對話系統比賽中,人工評分已經不再考慮參考文本,而是依靠評分員綜合對話曆史、知識情景和模型回答,作出評判。

同時,實際應用中的部署,也要求對生成模型作出多元度的評價,而這些是傳統的單一名額做不到的。比如,2021年百度主辦的「千言:面向事實一緻性的生成評測比賽」中,除了傳統的資訊選擇名額外,還考察了事實性名額,并為之設計了獨立的評價流程。之前提到的DSTC9比賽的各個分賽也分别考察了3-8個不同的次元名額。

為了解決如上所述的新需求,相關工作提出了各種各樣的評價方法和新名額,但是這些方法往往是針對具體的任務和目标而設計。對于日新月異的各類任務,要評價什麼?如何評價?目前還缺乏系統的指導。

在這個方向上,CMU(卡耐基梅隆大學)、Petuum Inc.、MBZUAI(穆罕默德·本·紮耶德人工智能大學)和UCSD(加州大學聖疊戈分校)的研究團隊提出了一個自然語言生成評價的理論架構,為未來各種新任務和新要求,設計評估流程時,都提供了更加統一的指導。

首先,研究人員根據資訊從輸入到輸出的變化方式,把語言生成任務分為三大類,每類任務對輸出提出不同的評價需求。通過給新任務歸類,就可以對「評價什麼」有所啟發。

其次,他們用一種稱為「資訊對齊」的運算符統一了所有任務類别的評價方式,從資訊對齊的角度出發設計評價名額,可以解決大量的「如何評價」問題。

論文中基于資訊對齊,統一設計了一系列評價名額,在評價多種任務(摘要生成、風格轉換和知識對話)中與人類評分的相似度最高超過現有名額57.30%。

論文中設計的評價名額已經上傳到Python庫,用pip install就可以直接安裝。研究人員在GitHub上也公開了代碼,并提供了數種訓練好的資訊對齊模型,歡迎各位同學在研究中調用。

超越現有名額57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價架構

論文連結:https://arxiv.org/pdf/2109.06379.pdf

代碼和API連結:https://github.com/tanyuqian/ctc-gen-eval

Python 安裝:pip install ctc_score

評價什麼:語言生成任務的分類

根據任務輸入(X)和輸出(Y)文本中,資訊量的關系,研究者認為可以把語言生成任務分為三大類:壓縮、轉換和建立,分别對應輸入大于、等于和小于輸出。每一類任務的目标都有差別,也對輸出文本提出了各自的要求。我們可以通過對新任務對分類,對「評價什麼」有所啟發。

壓縮類任務(Compression)

超越現有名額57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價架構

目标:把輸入資訊中重要的部分,呈現在輸出中

舉例:摘要生成(Summarization)、圖像描述(Image Captioning)、結構文本生成(Data-to-Text)和問題生成(Question Generation)

評價重點:1)輸出資訊要完全來自輸入;2)輸出資訊應該是輸入中的重要資訊

轉換類任務(Transduction)

超越現有名額57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價架構

目标:把輸入資訊中的某一方面轉換,其他保持不變

舉例:機器翻譯(Translation)、文本複述(Paraphrasing)、文本風格遷移(Style Transfer)和文本簡化(Language Simplification)

評價重點:輸出要盡量完整地保留輸入的資訊

建立類任務(Creation)

超越現有名額57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價架構

目标:基于輸入和外部資訊,輸出新的資訊

舉例:機器對話(Dialog)、建議生成(Advice Generation)、故事生成(Story Generation)和詩歌生成(Poetry Generation)

評價重點:1)輸出要充分回應輸入;2)輸出要正确地使用外部資訊

這裡可以看到,評估的重點取決于任務中輸入輸出的資訊量變化,是以,如果能夠測量輸入輸出資訊重合度,就可以評估所有類别的生成任務。

如何評價:資訊對齊

為了測量如上所述的重合度,研究者引入了「資訊對齊」這個運算符,這樣就統一了所有生成任務的評價方式。

資訊對齊是說,對于文字A和任何資料B,可以對于A的每個詞都算出一個置信度,這個詞的資訊有沒有在B中反映出來。具體的數學形式為如下所示的向量:

在實際中,這個資料B不一定要是文字,也可以是任何模态的資料,隻要有一個模型(Alignment Model)能算出這個對齊的置信度。A、B、模型和對齊向量的關系如下圖所示:

超越現有名額57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價架構

下面,研究者展示了如何統一地用資訊對齊這個算符,來定義各種語言生成任務的評價名額。

用資訊對齊統一設計評價名額

壓縮類任務

對于壓縮類任務,研究者以摘要生成作為一個例子:

超越現有名額57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價架構

轉換類任務

對于轉換類任務,研究者以文本風格遷移為例:

超越現有名額57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價架構

建立類任務

對于建立類任務,研究者以知識對話為例:

超越現有名額57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價架構

現在已經用資訊對齊運算符定義了這麼多評估名額,下一步來看這個運算符是怎樣實作的。

資訊對齊的三種實作方法

研究者把資訊對齊當作一個預測問題模組化,提出了三種基于預訓練模型(Pretrained Language Models)的實作方法,普遍采用自監督學習。模型準确度可以通過與人工标注比較來評價。

詞向量召回(Embedding Matching)

超越現有名額57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價架構

判别模型(Discriminative Model)

超越現有名額57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價架構

回歸模型(Aggregated Regression)

超越現有名額57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價架構

實驗結果

實驗結果表明,研究者的統一設計的評價名額,與人工評分的相似度,超過之前的針對任務特别設計的名額,最高超過現有名額57.30%。另外,研究者發現,對齊模型預測準确度越好,他們的名額就越接近人的評價。

超過現有名額最多57.30%

超越現有名額57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價架構
超越現有名額57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價架構
超越現有名額57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價架構
超越現有名額57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價架構

對齊模型準确度與人工評分相似度有直接關系

研究者的對齊模型普遍使用自監督學習,但使用人工标注訓練可以有效提升準确度和以此實作的評價名額。與人工評分的相似度如下圖所示:

超越現有名額57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價架構

這說明了:隻要能夠改善對齊預測模型,就能改善一大批評價名額。我們可以把對齊預測作為一個單獨的任務,這個任務的進步直接提升評價語言生成的準确度。

這項工作開啟了可組合(Composable)的文本評價流程。像軟體工程一樣,研究者表示可以把這個系統分為若幹子產品,這些子產品可以獨立地改進、規模化、和診斷,未來期待有更多的探索。

封面來源:https://soa.cmu.edu/

繼續閱讀