天天看点

神经网络机器翻译:进展与挑战

作者:永大英语

感谢您关注“永大英语”!

神经网络机器翻译:进展与挑战

神经网络机器翻译:进展与挑战

戴光荣 刘思圻

摘要:随着全球化进程的加速和国际交流的日益密切,传统人工翻译方式已无法满足迅猛增长的翻译需求。机器翻译以方便快捷的优势逐渐深入人们的生活,迎来了新的发展阶段。作为机器翻译的最新范式,神经网络机器翻译极大地提升了翻译的质量,有专家声称机器翻译已经能够达到“接近人工译文”或“等同于人工译文”的效果,从而引发了学界关于机器翻译是否要取代人工翻译的探讨。神经网络机器翻译究竟在哪些方面取得了进步?还面临着哪些亟待解决的问题与挑战?又该从哪些方面提升其翻译质量?围绕这些问题,本文简要回顾神经网络机器翻译的质量提升成果,分析其面临的问题与挑战,多层面探讨其质量提升路径,以期为神经网络翻译系统的研发提供参考借鉴。

关键词:神经网络机器翻译;机译质量;质量提升;机译挑战

1. 引言

机器翻译(Machine Translation, MT)是指通过计算机将一种自然语言转换为另一种自然语言的过程,涉及计算机科学、数学和语言学各领域的知识(冯志伟 2004:1)。从最初基于规则的方法,发展到基于统计的方法,再演进到神经网络方法,机器翻译的技术越来越成熟,极大地提高了翻译速度和翻译效率,翻译质量也得到极大提升,有专家甚至声称神经网络机器翻译的质量已能够达到“接近人工译文”(near human parity)或“等同于人工译文”(human parity)的效果(Hassan et al. 2018)。针对近年来质量提升而引发“机器翻译能否取代人工翻译”的社会探讨,有学者也表明了各自的态度(祝朝伟 2018; Pym & Torres-Simón 2021)。

机器翻译经过几十年的发展,已经逐渐得到人们的认可和信任。国家出台《新一代人工智能发展规划》,将人工智能上升至国家战略;世界正经历“百年未有之大变局”,国与国之间频繁持续的交流互动驱使语言服务需求激增;《2022中国翻译及语言服务行业发展报告》显示,语言服务企业普遍认同“机器翻译+译后编辑”的工作模式,机器翻译在行业的应用越来越广泛,机器翻译的重要性和必要性日益彰显。

机器翻译包括人机共译、人机交互、神经网络机器翻译(王传英、孔新柯 2021: 75)。神经网络机器翻译(Neural Machine Translation)利用人工智能模仿大脑神经元进行语言翻译,是以端到端的方式进行翻译建模的新一代机器翻译方法。相较其他的机器翻译方法,神经网络机器翻译有着泛化能力强、建构简单、需要的领域专业知识少等优势(Sutskever et al. 2014; Bentivogli et al. 2016; Toral & Sánchez-Cartagena 2017; 李沐等 2018)。然而,神经网络机器翻译也并非完美,还存在着如长句处理不佳、跨领域适应性差、翻译质量不稳定等问题(秦颖 2018;郭望皓等 2021),翻译质量与人工译文相比仍存在较大差距,要让机器翻译与人工翻译比肩还有很长的路要走。鉴于此,本文分析神经网络机器翻译相比先前的翻译方法所取得的进展,分析其面临的挑战,探讨大数据时代神经网络机器翻译质量提升路径,以期为机器翻译研究提供参考借鉴。

神经网络机器翻译:进展与挑战

2. 神经网络机器翻译与其他机器翻译的比较优势

人工神经网络(Artificial Neural Networks, ANNs)这个名字源于生物学名词“神经元(neuron)”。人的大脑有数亿个神经元,这些神经元和树突、轴突等组合起来,就形成了生物神经网络(Biological Neural Networks,BNNs)。神经元依靠树突接受刺激信号,然后根据信号的强度,通过轴突将信号传递给其他神经元,从而使人做出反应。人工神经网络则是模仿这样的运作模式,从一端的神经元接受信息刺激,将刺激传递到下一层神经元,每层神经元之间的连接附带着不同的权重,经过层层传递与加权处理,最后由另一端神经元做出反应(Koehn 2020: 30-31)。神经网络发展历史可追溯到70多年前,但直到2016年谷歌推出GNMT(Google Neural Machine Translation)开始,神经网络机器翻译才逐渐被大众所熟知。近十年来,随着翻译语料的逐步积累、万维网对电子文本的大量收集以及计算机处理能力的增强,机器翻译才得以更好地与神经网络模型结合起来(O’Brien 2020:378)。

从历史发展的角度来看,机器翻译大致分为两类:一类是理性主义方法,即基于规则的机器翻译(RBMT);一类是经验主义方法,又称基于语料库的机器翻译(CBMT),分为基于实例的机器翻译(EBMT)、统计机器翻译(SMT)和神经网络机器翻译(NMT)三大类别(李沐等 2018)。

基于规则的机器翻译是指通过专家汇编的语言规则,采用“IF…THEN”的形式,将原文本与翻译规则进行对照,如果原文本符合某条规则,则会输出该规则下对应的目标语。这种方法存在汇编时间人力成本高,赶不上语言演变的速度,规则之间存在矛盾,扩大覆盖面难度大等问题(李业刚等 2015;冯志伟、丁晓梅 2021)。

基于实例的机器翻译利用翻译实例库与翻译词典,将原文本先与相似翻译实例匹配,再找出不同,查找翻译词典进行填充。这种方法对语料规模的要求高,加上系统的限制,难以充分利用实例,最终影响其适应性,在统计机器翻译出现后便淡出了机器翻译的舞台(侯强、侯瑞丽 2019:31)。

统计机器翻译由翻译模型和语言模型组成。翻译模型通过双语平行语料学习翻译知识,语言模型通过单语语料学习目标语的语言模式,两种模型通过对语料的学习,能够计算出不同语言组合出现的概率,并选出概率最高的组合作为翻译结果。统计机器翻译无需人工编写规则,改变了获取翻译知识的方法,突破了之前的瓶颈,因此在神经网络机器翻译出现前,它曾一度“称霸”机器翻译的舞台。这种方法单纯依赖于统计量,能够运用的语言知识有限,容易造成词与词或短语与短语之间意义虽然匹配,但是连贯起来却晦涩难懂的问题,严重影响了译文的可读性(李业刚等 2015:4)。

神经网络机器翻译则是由输入层、隐藏层及输出层组成,原文本经输入层编码为向量,这些向量通过隐藏层的加工,形成计算机能够理解的特征代表,经过多次加工,计算机提取出向量在不同维度的特征,最后再经输出层将处理好的向量转化为目标语言(Koehn 2020; 冯志伟 2010;秦颖 2018;肖桐、朱靖波 2021)。和上述机器翻译模型不同,神经网络机器翻译的模型引入长短时记忆网络、注意力机制等方法,使得产出的译文更加准确流畅,提升了译文的可读性(侯强、侯瑞丽 2019)。 由于在神经网络中语言均以实数向量的形式出现,我们很难从语言学的角度解释神经网络的内部究竟发生了什么(刘洋 2017:1147)。随着人工智能的发展,神经网络机器翻译呈现出可被解释的趋势,这一点我们将在第五节做进一步的解释。

神经网络机器翻译:进展与挑战

3. 神经网络机器翻译质量评价方法及质量提升成果

神经网络机器翻译是机器翻译发展史上的一次飞跃,自诞生起就迅速成为机器翻译研究的主要对象,学界与业界对其展开探讨与评价,相比其他机器翻译方法来说,神经网络机器翻译在质量提升方面有其突出特征。

机器翻译质量测评的方法主要有三种:一是以BLEU(Bilingual evaluation understudy)为代表的自动化评价方法(Sutskever et al. 2014; Jean et al. 2015);二是对机翻译文进行错误归类、打分、排序等人工评价方法(Burchardt et al. 2017; Isabelle et al. 2017);三是自动评价与人工评价相结合的半自动评价方法(Bentivogli et al. 2016; Wu et al. 2016; Castilho et al. 2017b)。不同的测评方法得出的结果有所差异,但总体来说,神经网络机器翻译取得了突破性的进步,无论是在准确度还是流利度上,都是目前各类机器翻译方法中表现最好的(Toral & SánchezCartagena 2017; Popovic’ 2017),其流利度的提升要比准确度的提升更为显著(Moorkens 2018; Van Brussel et al. 2018)。

从词语层面看,神经网络机器翻译更好地处理了词形变化、词序调整、词汇选择等问题(Bentivogli et al. 2016; Toral & Sánchez-Cartagena 2017;李梅 2021),其中对词序调整的提升最为显著,机翻结果更靠近参考译文(Toral & Sánchez-Cartagena 2017),其中动词词序的调整改善最大(Popovic’ 2017; Castilho et al. 2017b)。神经网络翻译在词形变化上也取得了很大的进步,能更好地处理主谓一致问题(Isabelle et al. 2017),翻译词汇形态丰富的语言时能产出更加流利的译文(Klubicˇka et al. 2017)。

从句子层面看,神经网络机器翻译能处理好句法功能及句型之间的转换,语言更加自然流畅(Isabelle et al. 2017;肖维青、高佳晖 2020;李梅 2021)。主要原因在于神经网络机器翻译采用“整入整出”的策略,克服过去统计机器翻译以词语(短语)为翻译单位、词语(短语)之间关系割裂的缺陷,从而使得句子的可读性更高(秦颖 2018)。

从语篇层面看,神经网络机器翻译在连贯性、衔接性等方面都取得了较大进展(Zhang et al. 2020),如使用额外的上下文编码器(Wang et al. 2017; Voita et al. 2018; Ma et al. 2020)、感知上下文的解码器(Maruf & Haffari 2018; Zhang et al. 2018 )、拓展翻译单位(Tiedemann & Scherrer 2017; Scherrer et al. 2019)等。

此外,神经网络机器翻译对于非语言信息的处理也有了突破性的发展,可根据语境适当增减或转换标点符号(Avramidis et al. 2019; 肖维青、高佳晖 2020),还有学者设计出能够减少标点符号错误的ASR模型并运用于神经网络机器翻译(Ding et al. 2021)。由于标点符号的增减涉及到语义分析等更加复杂的问题,目前还离不开译后编辑的辅助。

神经网络机器翻译:进展与挑战

4. 神经网络机器翻译质量提升面临的挑战

尽管神经网络机器翻译的质量突飞猛进,在准确度和流利度上均有显著提升,但仍然会产出一些让人摸不着头脑的译文。神经网络机器翻译面临的挑战来自多方面、多领域,篇幅所限,不便全面展开,主要就罕见词/集外词翻译、长句翻译和漏译这三个突出的问题展开探讨。

4.1 罕见词/集外词翻译

在词汇层面,神经网络机器翻译比较突出的是罕见词的翻译问题。由于神经网络机器翻译训练的复杂度会随着词汇表的数量剧增,其词汇表的容量一般较小,通常在3万至8万之间(侯强、侯瑞丽 2021:56)。现实翻译活动涉及的词汇灵活多变,人名、地名、机构名等命名实体频现,加上互联网时代语言更新速度快,神经网络机器翻译在运行时不可避免会碰到一些罕见词(rare word),又称集外词(out-of-vocabulary word),影响其翻译的质量。

例(1)是来自四大在线机器翻译系统(2022-0308测试)对带有罕见词的句子的翻译。

(1)原文:Metaverse NFTs are unique digital items where the ownership and other information is coded into the token.

DeepL翻译:Metaverse NFTs是独特的数字项目,其所有权和其他信息被编码到代币中。

百度翻译:Metaverse NFT是唯一的数字项目,所有权和其他信息被编码到令牌中。

有道翻译:元域nft是独特的数字项目,其中所有权和其他信息被编码到令牌中。

谷歌翻译:元界 NFT 是独特的数字物品,所有权和其他信息被编码到令牌中。

例(1)中,“metaverse”源于“meta(元,本质)”+ “verse(宇宙)”,也就是所谓的“元宇宙”。“元宇宙”指的是“利用科技手段进行链接与创造的,与现实世界映射与交互的虚拟世界,具备新型社会体系的数字生活空间”①,在2021年受到广泛关注与讨论,成为年度热词之一。“NFT(non-fungible token)”即非同质化代币,是元宇宙下诞生的数字货币。四大在线机器翻译系统均没有正确翻译出这两个罕见词的意思,其中,两大翻译系统直接复制了源语言,另两大翻译系统只对部分罕见词进行了翻译,且没有翻译准确。可见目前罕见词问题在神经网络机器翻译系统中仍然比较突出。

为解决这个问题,学界尝试过各种方法,如Luong et al. (2015)采用定位法,在翻译模型训练阶段对数据中的罕见词的位置进行标注,在翻译结束后,通过查词典或查找对应的翻译来输出带有定位信息的罕见词;Gulcehre et al. (2016)基于命名实体等罕见词在现实翻译中是直接从源语言复制过来的现象,将集外词对应的源语言词语替换过来作为目标语;Sennrich et al. (2016)通过拆解原有单词,将词表压缩成有限规模的子词单元;Luong & Manning(2016)融合字和词两个级别的神经网络翻译模型,同时解决了源语言和目标语中的集外词问题。

4.2 长句翻译

长句一直以来都是神经网络机器翻译质量提升的难点之一。多项研究显示(Bentivogli et al. 2016; Toral & Sánchez-Cartagena 2017;Koehn & Knowles 2017;Toral & Way 2018),随着句子增长到一定的字数,神经网络机器翻译的质量会快速下降;相比之下,统计机器翻译的表现更为稳定。在一定阈值内,神经网络机器翻译对长句的翻译表现优于统计机器翻译,质量有着显著提升。如Toral Sánchez-Cartagena(2017)发现,句长超过40字时,基于短语的机器翻译准确率才会超过神经网络翻译,而在Koehn & Knowles(2017)的研究中,这个数字为60。Popovic' (2017)并没有发现基于短语的机器翻译在处理长句时存在显著优势;Van Brussel et al. (2018)的研究认为,神经网络机器翻译在40字及以上的长句的翻译表现仍是最好的。

由于这些研究选择的语言对、翻译方向、翻译文本类型等要素均不同,得出的结论也有所差异。为直观展示神经网络机器翻译中的长句问题,我们抽取一句来自新闻语料的长句并在四大在线机器翻译系统(2022-03-15测试)进行测试,见例(2):

(2)原文:And there were many, many “Smiths” among them, including a historically famous fellow named John Smith, the leader of Jamestown Colony, the first English settlement in North America.

DeepL翻译:其中有很多很多“史密斯”,包括历史上著名的约翰-史密斯,他是詹姆斯敦殖民地的领导人,也是英国在北美的第一个定居点。

百度翻译:他们当中有很多很多“史密斯”,包括历史上著名的约翰·史密斯,詹姆斯敦殖民地的领袖,这是北美第一个英国殖民地。

有道翻译:其中有很多很多“史密斯”,包括历史上著名的约翰·史密斯,他是英国在北美的第一个殖民地——詹姆斯敦殖民地的领袖。

谷歌翻译:其中有很多很多“史密斯”,其中包括一位历史上著名的约翰史密斯,他是北美第一个英国殖民地詹姆斯敦殖民地的领导人。

原文中,the leader of Jamestown Colony所修饰的是John Smith,而the first English settlement in North America修饰的是Jamestown Colony。四大机器翻译系统中,DeepL翻译指代错误,将“the leader of Jamestown Colony”和“the first English settlement in North America”都识别成了John Smith的修饰语;百度机器翻译指代模糊,“这”究竟是指前面的“殖民地”还是“领袖”,会让读者困惑。不过,我们也看到,有道与谷歌两系统提供了正确的翻译,有道机器翻译甚至利用破折号灵活处理了原文中的插入语,这一点与上文第三部分中提到的“神经网络机器翻译可以根据情况适当增减或转换标点符号”相呼应。

目前,处理长句翻译问题的方法主要有两种: 一是将长句切分成分句片段,再将片段翻译结果进行组合;二是通过添加外部记忆等方式增加神经机器翻译表达能力(李亚超等2018)。尽管这些方法取得了一定的成效,但是从现实的机器翻译实践以及上述案例来看,机器翻译在处理长句上还有很大的提升空间。

4.3 漏译的明显性

漏译的明显性(the visibility of the omission error)是指“只阅读译文的时候对漏译错误出现的预期,即从单语角度去读译文时漏译的明显程度” (Van Brussel et al. 2018: 3802)。尽管神经网络机器翻译产出的译文流畅度高,但随之而来“宁顺而不信”的问题也让人摸不着头脑,如果不对照原文进行分析,机翻译文的错误很难识别出来(Castilho et al. 2017a; Castilho et al. 2017b;Moorkens 2018;Ustaszewski 2019)。过去基于规则和基于短语的机器翻译译文,漏译错误往往出现在不流利处。只要读到不通顺的译文,就可猜想这里可能是机器漏译了原文中的一些内容。而神经网络机器翻译,漏译错误的特点发生了变化,单读译文,读者不一定能发现有遗漏之处。

例(3)直观地展示了这个问题(2022-03-23测试):

(3)原文:Folds of scarlet drapery shut in my view to the right hand; to the left were the clear panes of glass, protecting, but not separating me from the drear November day.

DeepL翻译:猩红的窗帘褶皱挡住了我的视线;左边是透明的玻璃窗,保护着我,但并没有将我与十一月的沉闷天气分开。

我们将原文与机翻译文进行对照,很容易就可以看出这里漏译了“to the right hand”,也就是“在右边”。如果只读译文,不看原文,“猩红的窗帘褶皱挡住了我的视线”似乎并没有什么问题,读起来也很通顺,这就是所谓的“漏译的明显性”。在神经网络机器翻译中,漏译的问题,对译后编辑和单语翻译质量评估带来了很大的挑战。尽管由于神经网络模型的不可解释性,我们暂时很难弄清楚漏译的错误究竟是如何产生的,但也有研究者设计出一些解决机器翻译漏译的方法,如Wu et al. (2016)通过集束搜索(Beam Search),扩大了模型的覆盖率,促使机器输出最有可能涵盖所有输入内容的译文;Yang et al. (2019)采用对比学习方法,将真实正确的译文集合作为正样例,再通过算法自动将真实译文中的部分词删掉,形成有漏译错误的译文集合作为负样例,在训练阶段将它们进行对比学习,使得模型为正样例分配更高的比率,为负样例分配更低的比率,以有效减少神经网络机器翻译的漏译错误。

神经网络机器翻译:进展与挑战

5. 神经网络机器翻译质量提升的路径

近年来,国际上每年都会举办如WMT(Workshop on Machine Translation)、IWSLT(International Workshop on Spoken Language Translation)等世界机器翻译大赛,以展现机器翻译发展的最新成果,探讨提升机器翻译质量的方法。在日渐开放与包容的研究环境下,越来越多开源软件供人们进一步探索机器翻译的质量提升。神经网络机器翻译所面临的问题,亟需学界展开研究,全方位探讨质量提升路径。

5.1 综合机器翻译不同模式与方法的优势

尽管神经网络机器翻译是目前最先进的机器翻译方法,但与传统的机器翻译方法相比仍存在着不足之处,如受语料规模、质量制约严重,不受语法规则指导,对硬件要求高等问题(侯强、侯瑞丽 2019)。Koehn & Knowles(2017)提出神经网络机器翻译在处理高资源语言对时优于统计机器翻译,但是在处理低资源语言对时表现较差;Popovic '(2017)对神经网络机器翻译和基于短语的机器翻译中出现的翻译问题进行了对比,发现两者突出的翻译问题各有不同,优势互补。这些研究表明,若将不同机器翻译模式的优势组合起来,翻译结果会更加优化。

近年来,有学者着手探索结合不同机器翻译模式及方法的优势,训练神经网络模型并取得一定的成效。Niehues et al. (2016)提出将基于短语的机器翻译产出的预翻译文本及源语言都作为神经网络机器翻译的输入素材;Marie & Fujita(2018)结合统计机器翻译和神经网络机器翻译各自的特点设计出一套重排序系统,能根据两个机器翻译模型n-best列表产出最佳的译文;Zhang et al. (2020)通过基于短语的强制解码方式,对神经网络机器翻译n-best列表进行重排序。尽管这些方法都取得了一定的成效,但也存在一些问题,如经过统计机器翻译的预翻译文本质量无法保证,翻译模型是否能提高低资源语言对的翻译质量尚未得到验证等。将不同系统的优势结合起来仍然是一个好的发展思路,需要学界继续探索效果更优的结合路径。

5.2 人机交互

人机交互是指“通过人的能力和机器能力的交互完成项目协作,知识库共建和机器学习”(肖凤华、殷白恩 2019: 39)。尽管神经网络机器翻译看似涉及的都是“高深莫测”的计算机内部的运算,人连脑子都不需要动,只需轻点鼠标就能得到想要的译本,实际上这样的操作离不开人类与其进行交互。

首先从项目协作上看,人机交互的表现形式为“基于大数据、人工智能和移动互联网,将机器智慧与人工结合,平衡机译高效率与人译高质量”(肖凤华、殷白恩 2019:38)。这种模式下,机器翻译能够节省人类的时间与成本,人类又能提升机器翻译的产出质量,做到优势互补。近年来,翻译学界与业界都对这种新兴的人机交互模式进行了探索,如崔启亮、雷学发(2016)从人助机译、机助人译和翻译系统的自我学习三个方面提出了基于人机交互的翻译策略;季春元等(2019)基于人机交互的理念,通过构建专家语义数据库等方法研发出一款网络化智能翻译系统,成功提高了机器翻译的可靠性和智能性; Huang et al. (2021)研发出的交互式机器翻译软件能根据用户输入的内容实时更新译文,通过学习用户翻译习惯和翻译历史智能推荐译文。

其次从知识库共建层面来看,人机交互表现在译者为神经网络机器翻译提供高质量的语料,为质量评估提供有价值的参考译文,针对机器翻译译文提出建设性评价意见等。Way(2013)指出,现在是机器翻译的时代,只有机器翻译的开发者与人工译者密切合作,机器翻译才能取得长足发展。目前,神经网络机器翻译面临着数据稀疏,尤其是低资源语料匮乏的问题,这需要译者为机器翻译数据训练提供更多的高质量垂直领域平行语料,以保证机器能对语言现象和翻译模式进行全面深度学习。

最后从机器学习层面来看,人机交互主要表现在将先验知识融入建模过程、利用先验知识增加机器翻译的可解释性。融合先验知识的方法包括融合单语语料、双语词典、语言学知识等(李亚超等 2018: 2738)。一方面,Zhang et al. (2017)基于后验正则化设计出将先验知识融入神经网络机器翻译的框架;Niehues Cho(2017)通过多任务学习将标注语言特征的数据融入机器翻译模型中,这些融合先验知识的方法提升了神经网络机器翻译的质量,优化了翻译模型。另一方面,可解释性一直是神经网络机器翻译发展的一个痛点,它涉及到对未知科学知识的挖掘、提升机器翻译系统的可靠性、避免算法歧视等问题(Zhang et al. 2021:727-728)。Shi et al. (2016)对字符串进行训练,从而提取神经网络机器翻译中部分句法信息;Bau et al. (2018)利用无监督学习方法发现神经元中包含的语言信息。在未来,我们有望打开神经网络机器翻译这一“黑匣子”,通过先验知识,尤其是语言学知识来解释神经网络的翻译过程,进而改进翻译模型,提升翻译质量。

神经网络机器翻译:进展与挑战

6. 展望

作为机器翻译的最新进展,神经网络机器翻译成果斐然,但还存在很大的发展空间。随着人工智能渗透到我们生活的方方面面,人类对机器翻译的需求日益增加,机器翻译的使用场景也会越来越广泛。在这样的背景下,提升神经网络机器翻译的质量显得尤为重要,这需要各个领域的专家交流合作,共同朝着这一人工智能的终极目标迈进。正如Koehn(2020:13)所说,机器翻译研究要破解的“魔咒”不是要达到完美的翻译,而是降低错误率。我们追求的目标不是让机器翻译取代人工翻译,而是利用它在最大程度上便利人类的翻译活动,让机器翻译成为一种生产力,助力国家经济发展与社会进步。

(参考文献 略)

(本文首次发表在《外语教学》2023年第1期)

神经网络机器翻译:进展与挑战

继续阅读