BLEU的意义

在计算语言学的研究实验中，研究者希望能实时对机器翻译的质量进行评估（可能每天甚至没几个小时进行一次），而人工翻译评估是无法满足这一需求的，因此机器翻译研究受到了这一瓶颈的限制，难以有所突破。

BLEU作为一种自动翻译评估方法，目的是解决这一问题。

BLEU的全拼（Bilingual Evaluation Understudy）

BLUE原理

核心思想：机器翻译和人工翻译的越接近越好
实现方法：定义数字量化“接近度”的方法
必须条件：质量优秀的人工翻译语料库

举例一：n-gram匹配

【论文笔记】BLEU: a Method for Automatic Evaluation of Machine TranslationBLEU的意义BLEU的全拼（Bilingual Evaluation Understudy）BLUE原理

在候选1中与参考译文重合部分：

It is aguide to action
which
ensures that the military
always
commands
of the party

在候选2中与参考译文重合部分

It is
to
forever
party

据此匹配结果，判断候选1优于候选2

举例二：n-gram精确度

最简单的精度定义方法：1-gram匹配数 / 候选句子长度

但是对于过于简单的度量方法，机器翻译方法总能“过拟合”出一套完全不合理但是精度很高的翻译（总有漏洞，比如下面这个例子的精度是100%）

【论文笔记】BLEU: a Method for Automatic Evaluation of Machine TranslationBLEU的意义BLEU的全拼（Bilingual Evaluation Understudy）BLUE原理

因此需要对规则进行补充（类似于加正则化）

修正版1-gram精度

核心思想：当参考译文中的一个词被匹配后就被消耗掉

计算当前词在各参考译文中的出现次数
当前词的匹配成功次数=min(在各译文中出现次数最大值,在候选句中出现次数)
将每个词的匹配成功次数相加 / 候选句长度

【论文笔记】BLEU: a Method for Automatic Evaluation of Machine TranslationBLEU的意义BLEU的全拼（Bilingual Evaluation Understudy）BLUE原理

修正版n-gram精度

1-gram关注的是用词，而基本上忽略了词序，显然是不能全面评估质量

因此可以很轻松的将1-gram推广至n-gram方向。

混合n-gram精度

最先想到的混合方式就是线性加权混合，通过实验发现随着n-gram变大，精度的下降并不是线性的而是指数的，因此在加权时必须考虑这一点。

【论文笔记】BLEU: a Method for Automatic Evaluation of Machine TranslationBLEU的意义BLEU的全拼（Bilingual Evaluation Understudy）BLUE原理

文章中并没有给出具体结合公式，只说是均匀权重的对数加权

【论文笔记】BLEU: a Method for Automatic Evaluation of Machine TranslationBLEU的意义BLEU的全拼（Bilingual Evaluation Understudy）BLUE原理

冗余惩罚

句子不宜太长或太短，在一定程度上n-gram精度可以解决这个问题

句子如果太长，那么就会有冗余词（未曾出现在参考译文），精度下降
但是句子如果太短，那么精度是无法对其造成影响的
一般来说，精度（precession）会配合召回（recall）来解决句子过短，但是bleu中包含多种风格的参考译文，这使得recall效果不佳（因为我们希望译文的风格是单一的，而不是混合的）

【论文笔记】BLEU: a Method for Automatic Evaluation of Machine TranslationBLEU的意义BLEU的全拼（Bilingual Evaluation Understudy）BLUE原理

简洁惩罚系数（brevity penalty factor）

【论文笔记】BLEU: a Method for Automatic Evaluation of Machine TranslationBLEU的意义BLEU的全拼（Bilingual Evaluation Understudy）BLUE原理

其中：r是参考译文中的最佳句长加和，c是所有候选译文的句长加和。
最佳句长的定义：如果候选句长为9，参考句长分别为7，10，12，那么最佳句长为10，即与候选句长最接近的参考句长。
当候选句长高时，BP=1，即不做惩罚（不缩小得分）
当候选句长低时，BP<1，做出简洁惩罚（缩小得分）

值得注意的是，简洁惩罚是不考虑源语言长度的

还有一点是，简洁惩罚是建立在全体语料上进行考量的

BLEU的计算方式

【论文笔记】BLEU: a Method for Automatic Evaluation of Machine TranslationBLEU的意义BLEU的全拼（Bilingual Evaluation Understudy）BLUE原理

N一般取4
w n w_n wn一般取1/N
BLEU ≤ 1（在与参考译文完全相同时取等号）
可以预见的是，参考译文的风格和种类越多，BLEU越高（总有一款适合你）

关于BLEU可靠性的一些实验

其实这里就不用再实验了，BLEU用了快20年都没被替代，不需要再证明了。

值得注意的是，文中为了证明BLEU方法的优秀，提到了即使只有一个参考译文也能比较有效的进行评估，前提是这些参考翻译风格不同，以保证翻译风格的多样化。

现在做机器翻译的测试集似乎都是只有一条参考译文的，但是在翻译风格上不知道有没有进行控制。

【论文笔记】BLEU: a Method for Automatic Evaluation of Machine TranslationBLEU的意义BLEU的全拼（Bilingual Evaluation Understudy）BLUE原理

BLEU的意义

BLEU的全拼（Bilingual Evaluation Understudy）

BLUE原理

举例一：n-gram匹配

举例二：n-gram精确度

最简单的精度定义方法：1-gram匹配数 / 候选句子长度

修正版1-gram精度

修正版n-gram精度

混合n-gram精度

冗余惩罚

简洁惩罚系数（brevity penalty factor）

BLEU的计算方式

关于BLEU可靠性的一些实验

继续阅读

传统的seq2seq模型与seq2seq with attention的模型原理细节解析

torch.nn.Embedding的使用torch.nn.Embedding

nn.Embedding()参数的理解nn.Embedding()

pytorch中nn.RNN()总结

科研神器推荐之那些年你用过的工具

高考志愿填报：人工智能专业怎么样？人工智能行业发展前景如何？

【Python学习笔记】- Day6

Windows版本的Google word2vec和Stanford GloVe工具

seq2sqe与attenton实现聊天机器人

奋战聊天机器人（四）自然语言处理中的文本分类nltk中的贝叶斯分类器

从词向量衡量标准到全局向量的词嵌入模型GloVe再到一词多义的解决方式衡量标准Evaluation引子全局向量的词嵌入应用对一词多义的思考Reference

GloVe与word2vec的区别，及GloVe的缺陷

统计学习大作业-BERT模型1 文本处理-BERT模型2 参考资料：

anaconda中科大镜像

NLP从入门到放弃_IBM Model1IBM Model1

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合