BLEU的意义
在计算语言学的研究实验中,研究者希望能实时对机器翻译的质量进行评估(可能每天甚至没几个小时进行一次),而人工翻译评估是无法满足这一需求的,因此机器翻译研究受到了这一瓶颈的限制,难以有所突破。
BLEU作为一种自动翻译评估方法,目的是解决这一问题。
BLEU的全拼(Bilingual Evaluation Understudy)
BLUE原理
- 核心思想:机器翻译和人工翻译的越接近越好
- 实现方法:定义数字量化“接近度”的方法
- 必须条件:质量优秀的人工翻译语料库
举例一:n-gram匹配
![](https://img.laitimes.com/img/_0nNw4CM6IyYiwiM6ICdiwiIwczX0xiRGZkRGZ0Xy9GbvNGL2EzXlpXazxSPZpWT6dGVNNTWU10MFRUYxRmMMBjVtJWd0ckW65UbM5WOHJWa5kHT20ESjBjUIF2X0hXZ0xCMx81dvRWYoNHLrdEZwZ1Rh5WNXp1bwNjW1ZUba9VZwlHdssmch1mclRXY39CXldWYtlWPzNXZj9mcw1ycz9WL49zZuBnLhR2YhlTO0ITNlBjZ5cjYidzN3QDO0YWZhFTMxcDN4gzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
在候选1中与参考译文重合部分:
- It is aguide to action
- which
- ensures that the military
- always
- commands
- of the party
在候选2中与参考译文重合部分
- It is
- to
- forever
- party
据此匹配结果,判断候选1优于候选2
举例二:n-gram精确度
最简单的精度定义方法:1-gram匹配数 / 候选句子长度
但是对于过于简单的度量方法,机器翻译方法总能“过拟合”出一套完全不合理但是精度很高的翻译(总有漏洞,比如下面这个例子的精度是100%)
因此需要对规则进行补充(类似于加正则化)
修正版1-gram精度
核心思想:当参考译文中的一个词被匹配后就被消耗掉
- 计算当前词在各参考译文中的出现次数
- 当前词的匹配成功次数=min(在各译文中出现次数最大值,在候选句中出现次数)
- 将每个词的匹配成功次数相加 / 候选句长度
【论文笔记】BLEU: a Method for Automatic Evaluation of Machine TranslationBLEU的意义BLEU的全拼(Bilingual Evaluation Understudy)BLUE原理
修正版n-gram精度
1-gram关注的是用词,而基本上忽略了词序,显然是不能全面评估质量
因此可以很轻松的将1-gram推广至n-gram方向。
混合n-gram精度
最先想到的混合方式就是线性加权混合,通过实验发现随着n-gram变大,精度的下降并不是线性的而是指数的,因此在加权时必须考虑这一点。
文章中并没有给出具体结合公式,只说是均匀权重的对数加权
冗余惩罚
句子不宜太长或太短,在一定程度上n-gram精度可以解决这个问题
- 句子如果太长,那么就会有冗余词(未曾出现在参考译文),精度下降
- 但是句子如果太短,那么精度是无法对其造成影响的
- 一般来说,精度(precession)会配合召回(recall)来解决句子过短,但是bleu中包含多种风格的参考译文,这使得recall效果不佳(因为我们希望译文的风格是单一的,而不是混合的)
【论文笔记】BLEU: a Method for Automatic Evaluation of Machine TranslationBLEU的意义BLEU的全拼(Bilingual Evaluation Understudy)BLUE原理
简洁惩罚系数(brevity penalty factor)
- 其中:r是参考译文中的最佳句长加和,c是所有候选译文的句长加和。
- 最佳句长的定义:如果候选句长为9,参考句长分别为7,10,12,那么最佳句长为10,即与候选句长最接近的参考句长。
- 当候选句长高时,BP=1,即不做惩罚(不缩小得分)
- 当候选句长低时,BP<1,做出简洁惩罚(缩小得分)
值得注意的是,简洁惩罚是不考虑源语言长度的
还有一点是,简洁惩罚是建立在全体语料上进行考量的
BLEU的计算方式
- N一般取4
- w n w_n wn一般取1/N
- BLEU ≤ 1(在与参考译文完全相同时取等号)
- 可以预见的是,参考译文的风格和种类越多,BLEU越高(总有一款适合你)
关于BLEU可靠性的一些实验
其实这里就不用再实验了,BLEU用了快20年都没被替代,不需要再证明了。
值得注意的是,文中为了证明BLEU方法的优秀,提到了即使只有一个参考译文也能比较有效的进行评估,前提是这些参考翻译风格不同,以保证翻译风格的多样化。
现在做机器翻译的测试集似乎都是只有一条参考译文的,但是在翻译风格上不知道有没有进行控制。