天天看点

Evaluating Robustness to Input Perturbations for Neural Machine Translation

作者提出了两种评估机器翻译鲁棒性的方法:Robustness和Consistency

  • Robustness

    鲁棒性一般通过机器翻译质量来计算,假设我们有一个NMT模型M,将输入x翻译成y‘,然后把被干扰的输入 x δ x_\delta xδ​翻译成 y δ y_\delta yδ​。翻译质量(TQ)通过参考译文y来计算:TQ(y,y’) 和TQ( y δ y_\delta yδ​,y)。TQ可以是任何质量计算标准,比如BLEU或者TER。

    以前的工作将噪声输入的TQ当作鲁棒性的指标。但是原始数据在捕捉模型对扰动的敏感程度也同样重要。比如:

Evaluating Robustness to Input Perturbations for Neural Machine Translation

挑选M1去单独翻译噪声数据似乎是不错的,因为38>37。但是和M2比,M1的翻译质量下降更多(40->38),表明它比更容易受噪声影响。

所以,作者用TQ(y,y’) 和TQ( y δ y_\delta yδ​,y)之间的比值去计算模型的鲁棒性:

Evaluating Robustness to Input Perturbations for Neural Machine Translation

将指标归一化到[0,1]:

Evaluating Robustness to Input Perturbations for Neural Machine Translation
  • Consistency

    考虑到参考译文不是在任何情况下都有的,在没有ref的情况下,作者提出了用一致性(Consistency)评估鲁棒性。进一步来说,如果y’和 y δ y_\delta yδ​是相似的,那么模型就具有一致性。但是,一致性对于鲁棒性而言是一个充分但不必要的条件:一个好的翻译可以有很多种表达,导致模型有很高的鲁棒性但是很低的一致性。

    作者定义一致性:

    Evaluating Robustness to Input Perturbations for Neural Machine Translation
    Sim可以是任何对称的计算相似性的方法,作者用TQ(y,y’) 和TQ( y δ y_\delta yδ​,y)的调和平均值来计算。
  • 实验设置
    • 数据集

      作者训练了8个方向的NMT模型来计算鲁棒性和一致性,基本是用WMT等数据集训练的,还有两个自然生成的噪音数据集MTNT和4SQ。

      Evaluating Robustness to Input Perturbations for Neural Machine Translation
    • 扰动

      作者将两种不同的扰动应用到WMT和KTJ测试集上。

      第一种是错误拼写:每一个词有0.1的可能拼写错误(单字母删除,插入和替换)。

      第二种大小写变化:每个句子有0.5的可能性被改变(将所有单词大写或小写)

    • 模型比较

      比较不同的子词分割策略:BPE (Sennrich et al., 2016), BPE-Dropout(Provilkov et al., 2019), and SentencePiece (Kudo,2018)。

  • 实验结果

    在原始的WMT和KTJ数据集的BLEU值上看不出这三种bpe方法的优劣。但是作者提出的两个评价方法展示出了三种bpe方法对模型鲁棒性的影响BPE-Dropout > SentencePiece>BPE

    Evaluating Robustness to Input Perturbations for Neural Machine Translation
    • 鲁棒性vs一致性

      结论就是鲁棒性和一致性有很高的相关性,当没有参考译文的时候,可以用一致性来替代鲁棒性

Evaluating Robustness to Input Perturbations for Neural Machine Translation
  • 鲁棒性vs噪音等级

    结论是在不同噪音等等级下,三个模型的表现排序是不变的

Evaluating Robustness to Input Perturbations for Neural Machine Translation

继续阅读