作者提出了两种评估机器翻译鲁棒性的方法:Robustness和Consistency
-
Robustness
鲁棒性一般通过机器翻译质量来计算,假设我们有一个NMT模型M,将输入x翻译成y‘,然后把被干扰的输入 x δ x_\delta xδ翻译成 y δ y_\delta yδ。翻译质量(TQ)通过参考译文y来计算:TQ(y,y’) 和TQ( y δ y_\delta yδ,y)。TQ可以是任何质量计算标准,比如BLEU或者TER。
以前的工作将噪声输入的TQ当作鲁棒性的指标。但是原始数据在捕捉模型对扰动的敏感程度也同样重要。比如:
![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsIyZuBnLygjM5ATNyIjM0AzNwEjMwIzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
挑选M1去单独翻译噪声数据似乎是不错的,因为38>37。但是和M2比,M1的翻译质量下降更多(40->38),表明它比更容易受噪声影响。
所以,作者用TQ(y,y’) 和TQ( y δ y_\delta yδ,y)之间的比值去计算模型的鲁棒性:
将指标归一化到[0,1]:
-
Consistency
考虑到参考译文不是在任何情况下都有的,在没有ref的情况下,作者提出了用一致性(Consistency)评估鲁棒性。进一步来说,如果y’和 y δ y_\delta yδ是相似的,那么模型就具有一致性。但是,一致性对于鲁棒性而言是一个充分但不必要的条件:一个好的翻译可以有很多种表达,导致模型有很高的鲁棒性但是很低的一致性。
作者定义一致性:
Sim可以是任何对称的计算相似性的方法,作者用TQ(y,y’) 和TQ( y δ y_\delta yδ,y)的调和平均值来计算。Evaluating Robustness to Input Perturbations for Neural Machine Translation - 实验设置
-
数据集
作者训练了8个方向的NMT模型来计算鲁棒性和一致性,基本是用WMT等数据集训练的,还有两个自然生成的噪音数据集MTNT和4SQ。
Evaluating Robustness to Input Perturbations for Neural Machine Translation -
扰动
作者将两种不同的扰动应用到WMT和KTJ测试集上。
第一种是错误拼写:每一个词有0.1的可能拼写错误(单字母删除,插入和替换)。
第二种大小写变化:每个句子有0.5的可能性被改变(将所有单词大写或小写)
-
模型比较
比较不同的子词分割策略:BPE (Sennrich et al., 2016), BPE-Dropout(Provilkov et al., 2019), and SentencePiece (Kudo,2018)。
-
-
实验结果
在原始的WMT和KTJ数据集的BLEU值上看不出这三种bpe方法的优劣。但是作者提出的两个评价方法展示出了三种bpe方法对模型鲁棒性的影响BPE-Dropout > SentencePiece>BPE
Evaluating Robustness to Input Perturbations for Neural Machine Translation -
鲁棒性vs一致性
结论就是鲁棒性和一致性有很高的相关性,当没有参考译文的时候,可以用一致性来替代鲁棒性
-
-
鲁棒性vs噪音等级
结论是在不同噪音等等级下,三个模型的表现排序是不变的