作者提出了兩種評估機器翻譯魯棒性的方法:Robustness和Consistency
-
Robustness
魯棒性一般通過機器翻譯品質來計算,假設我們有一個NMT模型M,将輸入x翻譯成y‘,然後把被幹擾的輸入 x δ x_\delta xδ翻譯成 y δ y_\delta yδ。翻譯品質(TQ)通過參考譯文y來計算:TQ(y,y’) 和TQ( y δ y_\delta yδ,y)。TQ可以是任何品質計算标準,比如BLEU或者TER。
以前的工作将噪聲輸入的TQ當作魯棒性的名額。但是原始資料在捕捉模型對擾動的敏感程度也同樣重要。比如:

挑選M1去單獨翻譯噪聲資料似乎是不錯的,因為38>37。但是和M2比,M1的翻譯品質下降更多(40->38),表明它比更容易受噪聲影響。
是以,作者用TQ(y,y’) 和TQ( y δ y_\delta yδ,y)之間的比值去計算模型的魯棒性:
将名額歸一化到[0,1]:
-
Consistency
考慮到參考譯文不是在任何情況下都有的,在沒有ref的情況下,作者提出了用一緻性(Consistency)評估魯棒性。進一步來說,如果y’和 y δ y_\delta yδ是相似的,那麼模型就具有一緻性。但是,一緻性對于魯棒性而言是一個充分但不必要的條件:一個好的翻譯可以有很多種表達,導緻模型有很高的魯棒性但是很低的一緻性。
作者定義一緻性:
Sim可以是任何對稱的計算相似性的方法,作者用TQ(y,y’) 和TQ( y δ y_\delta yδ,y)的調和平均值來計算。Evaluating Robustness to Input Perturbations for Neural Machine Translation - 實驗設定
-
資料集
作者訓練了8個方向的NMT模型來計算魯棒性和一緻性,基本是用WMT等資料集訓練的,還有兩個自然生成的噪音資料集MTNT和4SQ。
Evaluating Robustness to Input Perturbations for Neural Machine Translation -
擾動
作者将兩種不同的擾動應用到WMT和KTJ測試集上。
第一種是錯誤拼寫:每一個詞有0.1的可能拼寫錯誤(單字母删除,插入和替換)。
第二種大小寫變化:每個句子有0.5的可能性被改變(将所有單詞大寫或小寫)
-
模型比較
比較不同的子詞分割政策:BPE (Sennrich et al., 2016), BPE-Dropout(Provilkov et al., 2019), and SentencePiece (Kudo,2018)。
-
-
實驗結果
在原始的WMT和KTJ資料集的BLEU值上看不出這三種bpe方法的優劣。但是作者提出的兩個評價方法展示出了三種bpe方法對模型魯棒性的影響BPE-Dropout > SentencePiece>BPE
Evaluating Robustness to Input Perturbations for Neural Machine Translation -
魯棒性vs一緻性
結論就是魯棒性和一緻性有很高的相關性,當沒有參考譯文的時候,可以用一緻性來替代魯棒性
-
-
魯棒性vs噪音等級
結論是在不同噪音等等級下,三個模型的表現排序是不變的