Evaluating Robustness to Input Perturbations for Neural Machine Translation

2023-07-31 01:56:54

作者提出了两种评估机器翻译鲁棒性的方法：Robustness和Consistency

Robustness

鲁棒性一般通过机器翻译质量来计算，假设我们有一个NMT模型M，将输入x翻译成y‘，然后把被干扰的输入 x δ x_\delta xδ翻译成 y δ y_\delta yδ。翻译质量（TQ）通过参考译文y来计算：TQ(y,y’) 和TQ( y δ y_\delta yδ,y)。TQ可以是任何质量计算标准，比如BLEU或者TER。

以前的工作将噪声输入的TQ当作鲁棒性的指标。但是原始数据在捕捉模型对扰动的敏感程度也同样重要。比如：

挑选M1去单独翻译噪声数据似乎是不错的，因为38>37。但是和M2比，M1的翻译质量下降更多（40->38），表明它比更容易受噪声影响。

所以，作者用TQ(y,y’) 和TQ( y δ y_\delta yδ,y)之间的比值去计算模型的鲁棒性：

Evaluating Robustness to Input Perturbations for Neural Machine Translation

将指标归一化到[0,1]：

Evaluating Robustness to Input Perturbations for Neural Machine Translation

Consistency

考虑到参考译文不是在任何情况下都有的，在没有ref的情况下，作者提出了用一致性（Consistency）评估鲁棒性。进一步来说，如果y’和 y δ y_\delta yδ是相似的，那么模型就具有一致性。但是，一致性对于鲁棒性而言是一个充分但不必要的条件：一个好的翻译可以有很多种表达，导致模型有很高的鲁棒性但是很低的一致性。

作者定义一致性：

Evaluating Robustness to Input Perturbations for Neural Machine Translation
Sim可以是任何对称的计算相似性的方法，作者用TQ(y,y’) 和TQ( y δ y_\delta yδ,y)的调和平均值来计算。
实验设置
- 数据集
  
  作者训练了8个方向的NMT模型来计算鲁棒性和一致性，基本是用WMT等数据集训练的，还有两个自然生成的噪音数据集MTNT和4SQ。
  
  Evaluating Robustness to Input Perturbations for Neural Machine Translation
- 扰动
  
  作者将两种不同的扰动应用到WMT和KTJ测试集上。
  
  第一种是错误拼写：每一个词有0.1的可能拼写错误（单字母删除，插入和替换）。
  
  第二种大小写变化：每个句子有0.5的可能性被改变（将所有单词大写或小写）
- 模型比较
  
  比较不同的子词分割策略：BPE (Sennrich et al., 2016), BPE-Dropout(Provilkov et al., 2019), and SentencePiece (Kudo,2018)。
实验结果

在原始的WMT和KTJ数据集的BLEU值上看不出这三种bpe方法的优劣。但是作者提出的两个评价方法展示出了三种bpe方法对模型鲁棒性的影响BPE-Dropout > SentencePiece>BPE

Evaluating Robustness to Input Perturbations for Neural Machine Translation
- 鲁棒性vs一致性
  
  结论就是鲁棒性和一致性有很高的相关性，当没有参考译文的时候，可以用一致性来替代鲁棒性

Evaluating Robustness to Input Perturbations for Neural Machine Translation

鲁棒性vs噪音等级

结论是在不同噪音等等级下，三个模型的表现排序是不变的

Evaluating Robustness to Input Perturbations for Neural Machine Translation

Evaluating Robustness to Input Perturbations for Neural Machine Translation

继续阅读

传统的seq2seq模型与seq2seq with attention的模型原理细节解析

torch.nn.Embedding的使用torch.nn.Embedding

nn.Embedding()参数的理解nn.Embedding()

pytorch中nn.RNN()总结

科研神器推荐之那些年你用过的工具

高考志愿填报：人工智能专业怎么样？人工智能行业发展前景如何？

【Python学习笔记】- Day6

Windows版本的Google word2vec和Stanford GloVe工具

seq2sqe与attenton实现聊天机器人

奋战聊天机器人（四）自然语言处理中的文本分类nltk中的贝叶斯分类器

从词向量衡量标准到全局向量的词嵌入模型GloVe再到一词多义的解决方式衡量标准Evaluation引子全局向量的词嵌入应用对一词多义的思考Reference

GloVe与word2vec的区别，及GloVe的缺陷

统计学习大作业-BERT模型1 文本处理-BERT模型2 参考资料：

anaconda中科大镜像

NLP从入门到放弃_IBM Model1IBM Model1

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合