天天看點

Evaluating Robustness to Input Perturbations for Neural Machine Translation

作者提出了兩種評估機器翻譯魯棒性的方法:Robustness和Consistency

  • Robustness

    魯棒性一般通過機器翻譯品質來計算,假設我們有一個NMT模型M,将輸入x翻譯成y‘,然後把被幹擾的輸入 x δ x_\delta xδ​翻譯成 y δ y_\delta yδ​。翻譯品質(TQ)通過參考譯文y來計算:TQ(y,y’) 和TQ( y δ y_\delta yδ​,y)。TQ可以是任何品質計算标準,比如BLEU或者TER。

    以前的工作将噪聲輸入的TQ當作魯棒性的名額。但是原始資料在捕捉模型對擾動的敏感程度也同樣重要。比如:

Evaluating Robustness to Input Perturbations for Neural Machine Translation

挑選M1去單獨翻譯噪聲資料似乎是不錯的,因為38>37。但是和M2比,M1的翻譯品質下降更多(40->38),表明它比更容易受噪聲影響。

是以,作者用TQ(y,y’) 和TQ( y δ y_\delta yδ​,y)之間的比值去計算模型的魯棒性:

Evaluating Robustness to Input Perturbations for Neural Machine Translation

将名額歸一化到[0,1]:

Evaluating Robustness to Input Perturbations for Neural Machine Translation
  • Consistency

    考慮到參考譯文不是在任何情況下都有的,在沒有ref的情況下,作者提出了用一緻性(Consistency)評估魯棒性。進一步來說,如果y’和 y δ y_\delta yδ​是相似的,那麼模型就具有一緻性。但是,一緻性對于魯棒性而言是一個充分但不必要的條件:一個好的翻譯可以有很多種表達,導緻模型有很高的魯棒性但是很低的一緻性。

    作者定義一緻性:

    Evaluating Robustness to Input Perturbations for Neural Machine Translation
    Sim可以是任何對稱的計算相似性的方法,作者用TQ(y,y’) 和TQ( y δ y_\delta yδ​,y)的調和平均值來計算。
  • 實驗設定
    • 資料集

      作者訓練了8個方向的NMT模型來計算魯棒性和一緻性,基本是用WMT等資料集訓練的,還有兩個自然生成的噪音資料集MTNT和4SQ。

      Evaluating Robustness to Input Perturbations for Neural Machine Translation
    • 擾動

      作者将兩種不同的擾動應用到WMT和KTJ測試集上。

      第一種是錯誤拼寫:每一個詞有0.1的可能拼寫錯誤(單字母删除,插入和替換)。

      第二種大小寫變化:每個句子有0.5的可能性被改變(将所有單詞大寫或小寫)

    • 模型比較

      比較不同的子詞分割政策:BPE (Sennrich et al., 2016), BPE-Dropout(Provilkov et al., 2019), and SentencePiece (Kudo,2018)。

  • 實驗結果

    在原始的WMT和KTJ資料集的BLEU值上看不出這三種bpe方法的優劣。但是作者提出的兩個評價方法展示出了三種bpe方法對模型魯棒性的影響BPE-Dropout > SentencePiece>BPE

    Evaluating Robustness to Input Perturbations for Neural Machine Translation
    • 魯棒性vs一緻性

      結論就是魯棒性和一緻性有很高的相關性,當沒有參考譯文的時候,可以用一緻性來替代魯棒性

Evaluating Robustness to Input Perturbations for Neural Machine Translation
  • 魯棒性vs噪音等級

    結論是在不同噪音等等級下,三個模型的表現排序是不變的

Evaluating Robustness to Input Perturbations for Neural Machine Translation

繼續閱讀