Evaluating Robustness to Input Perturbations for Neural Machine Translation

2023-07-31 01:56:54

作者提出了兩種評估機器翻譯魯棒性的方法：Robustness和Consistency

Robustness

魯棒性一般通過機器翻譯品質來計算，假設我們有一個NMT模型M，将輸入x翻譯成y‘，然後把被幹擾的輸入 x δ x_\delta xδ翻譯成 y δ y_\delta yδ。翻譯品質（TQ）通過參考譯文y來計算：TQ(y,y’) 和TQ( y δ y_\delta yδ,y)。TQ可以是任何品質計算标準，比如BLEU或者TER。

以前的工作将噪聲輸入的TQ當作魯棒性的名額。但是原始資料在捕捉模型對擾動的敏感程度也同樣重要。比如：

挑選M1去單獨翻譯噪聲資料似乎是不錯的，因為38>37。但是和M2比，M1的翻譯品質下降更多（40->38），表明它比更容易受噪聲影響。

是以，作者用TQ(y,y’) 和TQ( y δ y_\delta yδ,y)之間的比值去計算模型的魯棒性：

Evaluating Robustness to Input Perturbations for Neural Machine Translation

将名額歸一化到[0,1]：

Evaluating Robustness to Input Perturbations for Neural Machine Translation

Consistency

考慮到參考譯文不是在任何情況下都有的，在沒有ref的情況下，作者提出了用一緻性（Consistency）評估魯棒性。進一步來說，如果y’和 y δ y_\delta yδ是相似的，那麼模型就具有一緻性。但是，一緻性對于魯棒性而言是一個充分但不必要的條件：一個好的翻譯可以有很多種表達，導緻模型有很高的魯棒性但是很低的一緻性。

作者定義一緻性：

Evaluating Robustness to Input Perturbations for Neural Machine Translation
Sim可以是任何對稱的計算相似性的方法，作者用TQ(y,y’) 和TQ( y δ y_\delta yδ,y)的調和平均值來計算。
實驗設定
- 資料集
  
  作者訓練了8個方向的NMT模型來計算魯棒性和一緻性，基本是用WMT等資料集訓練的，還有兩個自然生成的噪音資料集MTNT和4SQ。
  
  Evaluating Robustness to Input Perturbations for Neural Machine Translation
- 擾動
  
  作者将兩種不同的擾動應用到WMT和KTJ測試集上。
  
  第一種是錯誤拼寫：每一個詞有0.1的可能拼寫錯誤（單字母删除，插入和替換）。
  
  第二種大小寫變化：每個句子有0.5的可能性被改變（将所有單詞大寫或小寫）
- 模型比較
  
  比較不同的子詞分割政策：BPE (Sennrich et al., 2016), BPE-Dropout(Provilkov et al., 2019), and SentencePiece (Kudo,2018)。
實驗結果

在原始的WMT和KTJ資料集的BLEU值上看不出這三種bpe方法的優劣。但是作者提出的兩個評價方法展示出了三種bpe方法對模型魯棒性的影響BPE-Dropout > SentencePiece>BPE

Evaluating Robustness to Input Perturbations for Neural Machine Translation
- 魯棒性vs一緻性
  
  結論就是魯棒性和一緻性有很高的相關性，當沒有參考譯文的時候，可以用一緻性來替代魯棒性

Evaluating Robustness to Input Perturbations for Neural Machine Translation

魯棒性vs噪音等級

結論是在不同噪音等等級下，三個模型的表現排序是不變的

Evaluating Robustness to Input Perturbations for Neural Machine Translation

Evaluating Robustness to Input Perturbations for Neural Machine Translation

繼續閱讀

傳統的seq2seq模型與seq2seq with attention的模型原理細節解析

torch.nn.Embedding的使用torch.nn.Embedding

nn.Embedding()參數的了解nn.Embedding()

pytorch中nn.RNN()總結

科研神器推薦之那些年你用過的工具

聯考志願填報：人工智能專業怎麼樣？人工智能行業發展前景如何？

【Python學習筆記】- Day6

Windows版本的Google word2vec和Stanford GloVe工具

seq2sqe與attenton實作聊天機器人

奮戰聊天機器人（四）自然語言進行中的文本分類nltk中的貝葉斯分類器

從詞向量衡量标準到全局向量的詞嵌入模型GloVe再到一詞多義的解決方式衡量标準Evaluation引子全局向量的詞嵌入應用對一詞多義的思考Reference

GloVe與word2vec的差別，及GloVe的缺陷

統計學習大作業-BERT模型1 文本處理-BERT模型2 參考資料：

anaconda中科大鏡像

NLP從入門到放棄_IBM Model1IBM Model1

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合