超越現有名額57.3％，邢波教授、胡志挺教授團隊提出統一NLG評價架構

機器之心專欄

作者：鄧茗楷

長期以來，評價機器生成的文本比較困難。近日，CMU邢波（Eric Xing）教授和UCSD胡志挺（Zhiting Hu）教授的團隊提出用一種運算符，統一各類生成任務的評價方式，為未來各種新任務、新要求提供了更加統一的指導。實驗表明，基于統一架構設計的評價名額，在多個任務上超過了現有名額與人工評分的相似度，現在通過PyPI和GitHub可以直接調用。

自然語言生成（NLG）包括機器翻譯、摘要生成、機器對話等自然語言處理（NLP）任務。這些任務雖然都要求生成通順的文本，但是最終的表達目标往往有很大的差別。比如說，翻譯任務需要完整、精确地表達原文的含義；摘要生成需要簡潔、準确地展現原文最重要的資訊；對話系統則需要與使用者進行生動、有用的對答。

過去幾年間，研究人員在這些任務的模組化方面，取得了很大的進步。然而，評價語言生成的結果，卻依舊比較困難。人工評價最準确，但是非常昂貴耗時。自動評價則反過來，規模化比較容易，但在如何評價方面比較模糊。

傳統上的評價方法是比較模型生成的文本與人寫的參考文本，但近年的研究表明，随着模型的進步，這樣的方法已經越來越難以區分文本的好壞。事實上，在AAAI 2021會議上的DSTC9對話系統比賽中，人工評分已經不再考慮參考文本，而是依靠評分員綜合對話曆史、知識情景和模型回答，作出評判。

同時，實際應用中的部署，也要求對生成模型作出多元度的評價，而這些是傳統的單一名額做不到的。比如，2021年百度主辦的「千言：面向事實一緻性的生成評測比賽」中，除了傳統的資訊選擇名額外，還考察了事實性名額，并為之設計了獨立的評價流程。之前提到的DSTC9比賽的各個分賽也分别考察了3-8個不同的次元名額。

為了解決如上所述的新需求，相關工作提出了各種各樣的評價方法和新名額，但是這些方法往往是針對具體的任務和目标而設計。對于日新月異的各類任務，要評價什麼？如何評價？目前還缺乏系統的指導。

在這個方向上，CMU（卡耐基梅隆大學）、Petuum Inc.、MBZUAI（穆罕默德·本·紮耶德人工智能大學）和UCSD（加州大學聖疊戈分校）的研究團隊提出了一個自然語言生成評價的理論架構，為未來各種新任務和新要求，設計評估流程時，都提供了更加統一的指導。

首先，研究人員根據資訊從輸入到輸出的變化方式，把語言生成任務分為三大類，每類任務對輸出提出不同的評價需求。通過給新任務歸類，就可以對「評價什麼」有所啟發。

其次，他們用一種稱為「資訊對齊」的運算符統一了所有任務類别的評價方式，從資訊對齊的角度出發設計評價名額，可以解決大量的「如何評價」問題。

論文中基于資訊對齊，統一設計了一系列評價名額，在評價多種任務（摘要生成、風格轉換和知識對話）中與人類評分的相似度最高超過現有名額57.30%。

論文中設計的評價名額已經上傳到Python庫，用pip install就可以直接安裝。研究人員在GitHub上也公開了代碼，并提供了數種訓練好的資訊對齊模型，歡迎各位同學在研究中調用。

論文連結：https://arxiv.org/pdf/2109.06379.pdf

代碼和API連結：https://github.com/tanyuqian/ctc-gen-eval

Python 安裝：pip install ctc_score

評價什麼：語言生成任務的分類

根據任務輸入（X）和輸出（Y）文本中，資訊量的關系，研究者認為可以把語言生成任務分為三大類：壓縮、轉換和建立，分别對應輸入大于、等于和小于輸出。每一類任務的目标都有差別，也對輸出文本提出了各自的要求。我們可以通過對新任務對分類，對「評價什麼」有所啟發。

壓縮類任務（Compression）

目标：把輸入資訊中重要的部分，呈現在輸出中

舉例：摘要生成（Summarization）、圖像描述（Image Captioning）、結構文本生成（Data-to-Text）和問題生成（Question Generation）

評價重點：1）輸出資訊要完全來自輸入；2）輸出資訊應該是輸入中的重要資訊

轉換類任務（Transduction）

目标：把輸入資訊中的某一方面轉換，其他保持不變

舉例：機器翻譯（Translation）、文本複述（Paraphrasing）、文本風格遷移（Style Transfer）和文本簡化（Language Simplification）

評價重點：輸出要盡量完整地保留輸入的資訊

建立類任務（Creation）

目标：基于輸入和外部資訊，輸出新的資訊

舉例：機器對話（Dialog）、建議生成（Advice Generation）、故事生成（Story Generation）和詩歌生成（Poetry Generation）

評價重點：1）輸出要充分回應輸入；2）輸出要正确地使用外部資訊

這裡可以看到，評估的重點取決于任務中輸入輸出的資訊量變化，是以，如果能夠測量輸入輸出資訊重合度，就可以評估所有類别的生成任務。

如何評價：資訊對齊

為了測量如上所述的重合度，研究者引入了「資訊對齊」這個運算符，這樣就統一了所有生成任務的評價方式。

資訊對齊是說，對于文字A和任何資料B，可以對于A的每個詞都算出一個置信度，這個詞的資訊有沒有在B中反映出來。具體的數學形式為如下所示的向量：

在實際中，這個資料B不一定要是文字，也可以是任何模态的資料，隻要有一個模型（Alignment Model）能算出這個對齊的置信度。A、B、模型和對齊向量的關系如下圖所示：

下面，研究者展示了如何統一地用資訊對齊這個算符，來定義各種語言生成任務的評價名額。

用資訊對齊統一設計評價名額

壓縮類任務

對于壓縮類任務，研究者以摘要生成作為一個例子：

轉換類任務

對于轉換類任務，研究者以文本風格遷移為例：

建立類任務

對于建立類任務，研究者以知識對話為例：

現在已經用資訊對齊運算符定義了這麼多評估名額，下一步來看這個運算符是怎樣實作的。

資訊對齊的三種實作方法

研究者把資訊對齊當作一個預測問題模組化，提出了三種基于預訓練模型（Pretrained Language Models）的實作方法，普遍采用自監督學習。模型準确度可以通過與人工标注比較來評價。

詞向量召回（Embedding Matching）

判别模型（Discriminative Model）

回歸模型（Aggregated Regression）

實驗結果

實驗結果表明，研究者的統一設計的評價名額，與人工評分的相似度，超過之前的針對任務特别設計的名額，最高超過現有名額57.30%。另外，研究者發現，對齊模型預測準确度越好，他們的名額就越接近人的評價。

超過現有名額最多57.30%

對齊模型準确度與人工評分相似度有直接關系

研究者的對齊模型普遍使用自監督學習，但使用人工标注訓練可以有效提升準确度和以此實作的評價名額。與人工評分的相似度如下圖所示：

這說明了：隻要能夠改善對齊預測模型，就能改善一大批評價名額。我們可以把對齊預測作為一個單獨的任務，這個任務的進步直接提升評價語言生成的準确度。

這項工作開啟了可組合（Composable）的文本評價流程。像軟體工程一樣，研究者表示可以把這個系統分為若幹子產品，這些子產品可以獨立地改進、規模化、和診斷，未來期待有更多的探索。

封面來源：https://soa.cmu.edu/

超越現有名額57.3％，邢波教授、胡志挺教授團隊提出統一NLG評價架構

繼續閱讀

漂亮的實力派！普通台燈已超越本來的作用，原因是功能貼心

榮耀将對标蘋果，勇于超越

蘋果超越聯想，成全球電腦市場老大？原來是iPad賣得太好了

比亞迪4月銷量超10萬台，38年來國産車首次超越合資品牌！

中、美新車銷量：老美不受疫情影響？特斯拉全面超越BBA！

領界、啟辰大V來啦，它能超越皓影嗎？

曆史時刻到來！比亞迪4月銷量超越一汽大衆奪全量冠軍

麋鹿測試超越跑車！2.0T爆發261匹馬力星途淩雲S可真行！

智能世界2030：超越想象力，創造未來方能預測未來

銷量已大幅超越燃油版，UNI-K iDD為何供不應求？

豐田巡洋艦在華3個月賣3輛，如果不國産，可能未來都沒機會了

紅旗H9＋将于今日上市軸距加長200毫米/超越奔馳S級

豪華超越奔馳S級紅旗H9＋卓越定制版上市啟動

特斯拉Model Y拿下歐洲銷量第一電車銷量首次超越油車

餘承東的大招，用上大模型的問界M9，能超越理想L9嗎？

中國第一大伺服器制造商,建成亞洲最大液冷資料中心,股價攔腰斬斷