--------點選螢幕右側或者螢幕底部“+訂閱”,關注我,随時分享機器智能最新行業動态及技術幹貨------------
語言的分歧是使人類大家庭破裂、分化成敵對陣營的唯一原因,或至少是主要原因。 —— 語言學家柴門霍夫
文字,是人類為了表達資訊而建立的一套符号系統。文字的使用,使人類知識更新的速度産生了翻天覆地的變化,人類通過文字來表達資訊、交換資訊,一代一代不斷積累、更新自己對世界的認知,進而進一步改造世界。其他動物可能比人類身體更強壯、塊頭更高大、嗅覺更敏銳、聽覺更靈敏,視覺更清晰,甚至部分動物也會制造和使用工具。但它們無一例外,都沒有創造和使用文字的能力,是以,在進化的漫漫千萬年中它們都無法積聚充分的認識世界的知識和改造世界的能力。
文字就像魔法一樣,使得柔弱的人類擁有了不斷疊代、增強的智慧。但是,使用不同的文字,宛如“雞同鴨講”,也造成了人類之間資訊甚至文明的隔閡,極大得阻礙了人類社會的和諧發展。
世界上一共有多少種人類語言?
專家們的估計是 4000-8000 種。德國出版的《語言學及語言交際工具問題手冊》提供了比較具體的數字:5561 種,其中約 2000 種有書面文字。
在世界各國,文字的建立、演變、合并、消亡一直都在進行中。比如秦王朝統一六國後,進行的轟轟烈烈的“書同文、車同軌”運動。秦統一六國前,諸侯國各自為政,文字的形體極其紊亂。給政令的推行和文化交流造成了嚴重障礙。是以在統一六國後,以秦國文字為基礎,參照六國文字,創造出一種形體勻圓齊整、筆畫簡略的新文字,稱為“秦篆”,又稱“小篆”,作為官方規範文字,同時廢除其他異體字。下圖的七“馬”歸一,就是齊楚燕韓趙魏秦的文字統一的縮影。

這位是波蘭籍猶太人,語言學家柴門霍夫。在童年時代,為了人類和平,建立國際語的偉大理想就在他頭腦裡産生了。他曾說:“在比亞利斯托克,居民由四種不同的成分構成:俄羅斯人、波蘭人,日爾曼人和猶太人。每種人都講着各自的語言,互相關系不友好。在這樣的城裡,具有敏感天性的人更易感受到語言的隔閡帶來的極大不幸,語言的分歧是使人類大家庭破裂、分化成敵對陣營的唯一原因,或至少是主要原因。是大家把我培養成了一個理想主義者,是大家教我認識到所有的人都是親兄弟。然而,在大街上,在庭院裡,到處都讓我感到,真正含義的人是不存在的,隻有俄羅斯人、波蘭人、日爾曼人,猶太人等等”。
最終,他耗盡畢生心血創造了世界語 (Esperanto, 希望之語),希望這門簡單易學的人造語言成為普世語言,用以促進交流并幫助世界各地的人民了解他國的文化,但很可惜,目前全球僅有兩百萬人在使用世界語。
進入 20 世紀 60 年代後,伴随着通信、計算等新一代科學技術的飛速發展,全球化貿易、科學、技術和文化交流日益增強,人類開始一步一步邁向資訊社會、智能社會,不同國家或地區、不同族群和不同文化之間的聯系越來越緊密。人類開始意識到,在全球化的今天,語言不通成為了人們交流的主要障礙之一,也成為了一個亟待解決的問題。既然逆天而創的世界語難以成功,是以我們需要尋求其他橋梁來跨越這個障礙。
人們首先想到的,就是最直接的辦法——人工翻譯。實際上,人類曆史上很早就出現了翻譯,公元前 2000 多年,吉爾伽美什的蘇美爾史詩就被部分翻譯成當時的西南亞語言;公元前 196 年的羅賽塔石碑 (Rosetta Stone),上面同時使用了古埃及文、古希臘文以及當地通俗文字,來記載古埃及國王托勒密五世登基的诏書。公元 629 年(貞觀 3 年)開始,我國著名的大唐高僧玄奘和尚遠赴印度取經 75 部,總計 1335 卷,并從梵文譯為古漢語。
但是,依賴人的傳統翻譯很難快速翻譯洶湧澎湃的資料。幸運的是,機器翻譯的發展讓我們看到了曙光。但機器翻譯的發展絕非一帆風順,甚至可以說是跌宕起伏、一波三折。
機器翻譯的思想由來已久,約 500 年前,著名數學家笛卡爾提出了一種在統一的數字代碼基礎上編寫字典的理念,不同語言中的相同思想共享一個符号,并與萊布尼茲等人試圖來實作。在該思想的影響下,維爾金斯在 1668 中提出的中介語。中介語的設計試圖将世界上所有的概念加以分類和編碼,有規律地列出并描述所有的概念和實體,并根據它們各自的特點和性質,給予不同的記号和名稱。
随後的時間,又有不少先驅為這一目标探索奮鬥,包括法國、前蘇聯科學家們,但都無疾而終。
一、基于規則的機器翻譯
機器翻譯第一個被認可的實際研究項目出現于冷戰背景下。1949 年,資訊理論研究者 WarrenWeave 正式提出了機器翻譯的概念。1954 年,IBM 與美國喬治敦大學合作公布了世界上第一台翻譯機 IBM-701。它能夠将俄語翻譯為英文,雖然身軀巨大,事實上它裡面隻内建了 6 條文法轉換規則,以及 250 個單字。但即使如此,這仍是技術的重大突破,那時人類開始覺得應該很快就能将語言的高牆打破。實驗以每秒列印兩行半的驚人速度,成功将約 60 句俄文自動翻譯成英文,被視為機器翻譯可行的開端。
随後,美蘇兩個超級大國出于對軍事、政治和經濟目的,均投入巨資來進行機器翻譯研究——為此來擷取更多敵方的情報。同時,歐洲國家由于地緣政治和經濟的需要也對機器翻譯研究給予了相當大的重視。中國早在 1956 年就把機器翻譯研究列入了全國科學工作發展規劃。1957 年,中國科學院語言研究所與計算技術研究所合作開展了俄漢機器翻譯試驗,翻譯了 9 種不同類型的句子。
當時,人們對機器翻譯的高度期待和樂觀主義情緒高漲,但是低估了問題的難度!尤其是自然語言翻譯本身的複雜性及當時計算機軟硬體系統的局限性。不久,人們失望的看到,各家機器翻譯的效果都與期望相差甚遠。泡沫很快要被刺破了。
1964 年,美國科學院成立了語言自動處理咨詢委員會。兩年後,在委員會提出的報告中認為機器翻譯代價昂貴,準确率低,速度慢于人工翻譯,未來也不會達到人工翻譯品質。結論就是給機器翻譯的研究直接判了死刑,認為完全不值得繼續投入。在接下來的十來年中,機器翻譯研究從迅速跌入谷底,研究幾乎完全停滞。
進入 20 世紀 70 年代,随着科學技術的發展和各國科技情報交流的日趨頻繁,國與國之間的語言障礙顯得更為嚴重,傳統的人工作業方式已經遠遠不能滿足需求,人們迫切地需要計算機來從事翻譯工作。
這時候,現代語言之父喬姆斯基 (Chomsky) 的“轉換生成文法”産生了深遠影響力,學者們意識到,要想實作好的翻譯效果,必須在了解語言的基礎上進行翻譯,從了解句法結構上下功夫。有了新思想信念的加持,再加上計算機軟硬體系統飛速地發展,基于文法規則的機器翻譯研究開始如火如荼地展開,相關技術、産品不斷湧現。
但很快,基于規則的機器翻譯就遇到了瓶頸。純靠人工編纂、維護的規則很難全面、準确覆寫人類繁雜、淩亂、不斷演化的語言現實,而且可拓展性很差。譯文的準确率雖有進步,但依然達不到可用的預期。
自 20 世紀 80 年代開始,研究人員逐漸開始資料驅動的機器翻譯方法。1980 年,Martin Kay 提出了翻譯記憶方法,其基本思想在翻譯新句子時從已經翻譯好的老句子中找出相似部分來輔助新句翻譯。1984 年,長尾真 (MakotoNagao) 提出基于執行個體的機器翻譯方法,它從執行個體庫中提取翻譯知識,通過增、删、改、替換等操作完成翻譯。這些方法,在實踐中都得以廣泛應用。
二、統計機器翻譯
20 世紀 80 年代末起,基于資料和算法的統計學習方法在理論和應用層面都取得了飛速進展。極端的一個例子是,首個将統計模型引入語音識别和語言處理的現代語音識别和自然語言處理研究的先驅 Frederick Jelinek 曾有過如此令人驚訝的言論:
每當我開除一個語言學家,語音識别系統就更準确了。
于是,在基于規則的機器翻譯受挫後,學者們開始全面轉型統計機器翻譯。标志性事件是,1990 年在芬蘭赫爾辛基召開的第 13 屆國際計算語言學大會,會上提出了處理大規模真實文本的戰略任務,開啟了語言計算的一個新的曆史階段——基于大規模語料庫的統計自然語言處理。
基于詞的統計機器翻譯模型處理的單元較小,後來逐漸發展起來的基于短語的方法成為統計機器翻譯的主流工作。研究人員開始基于大規模的語料對照資料,構模組化型,訓練優化目标,自動化測評效果。這首次使得機器翻譯趨于流程化,進而上了可以快速疊代的快車道。
具體地,Och 在 2003 提出的基于最大熵的對數—線性模型和參數最小錯誤訓練方法促使統計機器翻譯方法能夠将多種不同的特征函數融合進機器翻譯模型中,并且自動學習它們各自的特征權重,使得翻譯性能顯著超越了其他傳統機器翻譯方法。此外,自動評測名額 BLEU 的提出不僅避免了人工評價成本昂貴的弊端,而且可以直接成為模型優化的目标,極大地提高了統計機器翻譯系統模型訓練、疊代、更新的效率。
統計機器翻譯方法的特點是幾乎完全依賴對大規模雙語語料庫的自動學習、自動構造機器翻譯系統。這種方法具有廣泛的一般性,與具體語種無關,與文法細節無關,與語言的内容無關,自此也不再需要人工規則集。
21 世紀初期開始,借助于網際網路的發展,統計機器翻譯系統逐漸從 2B、2G 走向全世界個體的 2C。以谷歌、微軟為代表的科研機構和企業均相繼成立機器翻譯團隊并相繼釋出了能夠支援世界上幾十種、幾百種常用語言的網際網路機器翻譯系統,迅速普及了機器翻譯的應用場景,極大地提高了人們使用機器翻譯的便利性。
三、這神經網絡機器翻譯
随着深度學習的迅猛發展,以及在語音、圖像識别領域取得巨大突破,越來越多的自然語言處理問題也開始采用深度學習技術。研究人員逐漸放棄了統計機器翻譯架構中各子模型獨立計算的模式,提出了端到端 (end-to-end,句子到句子) 的神經機器翻譯模型架構。該架構由編碼器和解碼器兩部分組成,其中編碼器負責将源語言句子編碼成一個實數值向量,然後解碼器基于該向量解碼出目标譯文。
機器翻譯本質上是序列到序列 (sequenceto sequence) 問題的一個特例,即源語言句子 (源語言的詞序列) 到目智語言句子 (目智語言的詞序列)。Sutskever 等在 2014 提出了基于循環神經網絡 (recurrent neuralnetwork, RNN) 的編碼器 - 解碼器 (encoder-decoder) 架構,并用于序列到序列學習。他們使用一個循環神經網絡将源語句中的詞序列編碼為一個高維向量,然後通過一個解碼器循環神經網絡将此向量解碼為目智語句的詞序列。他們将此模型應用于翻譯任務,并在英法翻譯任務上達到了媲美傳統的統計機器翻譯的效果,由此掀起了神經網絡機器翻譯的熱潮。
2016 年 9 月 30 日,Google 釋出了新版神經機器翻譯 (GNMT) 系統,通過對維基百科和新聞網站選取的語句的測試,相比基于短語的統計翻譯能減少 55% 到 85% 的翻譯錯誤,在中英文翻譯人工測評的準确率高達 80% 左右。面對機器的強悍,翻譯從業人員們首次感受到了寒意,有翻譯員甚至這樣形容:
作為一名翻譯員,看到這個新聞的時候,我了解了 18 世紀紡織勞工看到蒸汽機時的憂慮與恐懼。
但機器翻譯進化的腳步并沒有停下來,随着注意力機制被引入,機器翻譯的效果又有了飛速的提升。2017 年以來,機器翻譯人員抛棄了傳統的 RNN、CNN 結構,采用完全基于注意力機制的 Transformer 模型,在效果、訓練速度、性能等多個次元上都碾壓之前所有模型。
上圖是采用了 Transformer 模型的百分點機器翻譯系統的翻譯示範案例,從上面的中文和翻譯得到的英文來看,效果優秀,基本不用修改。
但是,神經網絡機器翻譯依舊存在不少待解決的重要問題,包括:
- 海量資料依賴:
效果優異的翻譯模型的訓練普遍需要于上千萬條平行語料,而現實中除了少量世界級大語種之間,很難有如此海量的語料。如何讓模型學習少量的資料或者單邊語料就能達到較好的效果是目前最亟待解決的問題。
- 易受噪音影響:
目前模型非常容易受噪音的影響,我們在實際訓練中發現,引入 20% 左右的低品質語料(比如意譯味較濃的字幕翻譯),就能使翻譯效果迅速下降。如果訓練模型能更穩健,那麼可用的語料數量将大大提高。
- 專業領域翻譯:
在細分的專業領域内(比如醫療),專業語料本身的量會非常稀少,同時存在大量的專業詞彙沒有出現在訓練語料中。如果能利用大量的普通語料和少量的專業語料來建立準确的專業領域機器翻譯系統,那麼機器翻譯的應用場景将不僅僅局限于日常新聞領域,真正突破不同語言國家之間的文化、科技藩籬。
- 翻譯風格問題:
由于訓練語料來源廣而雜,同一類型的翻譯在訓練語料中的翻譯方法可能由于翻譯員的個人偏好而五花八門。是以,在用這些語料訓練出來的模型,博采各家之所長,但也部分地博采各家之所短。是以,在用來翻譯新的句子的時候,其結果會有很多不可預見性。如何對翻譯模型中的知識進行提純,得到風格統一的翻譯模型是非常有挑戰性的重要目标。
本篇主要講述了機器翻譯的曆史發展,在下篇中,我們将分享機器翻譯系統的理論算法和技術實踐,敬請期待。
原文連結:
https://www.infoq.cn/article/mUuVMkVHDBcmzvst6R82參考文獻:
- 李沐、劉樹傑、張冬冬、周明,機器翻譯,高等教育出版社·人工智能叢書,2018。
- 趙申劍,字元級神經網絡機器翻譯,上海交通大學碩士畢業論文,2018 年。
- Philipp Koehn, Franz J. Och, and Daniel Marcu. 2003. Statistical Phrase-Based Translation. In Proceedings of NAACL 2003.
- Franz Josef Och. 2003. Minimum Error Rate Training in Statistical Machine Translation. In Proceedings of ACL 2003.
- David Chiang. 2007. Hierarchical Phrase-Based Translation. Computational Linguistics.
- Ilya Sutskever, Oriol Vinyals, and Quoc V. Le. 2014. Sequence to Sequence Learning with Neural Networks. In Proceedings of NIPS 2014.
- Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2015. Neural Machine Translation by Jointly Learning to Align and Translate. In Proceedings of ICLR 2015.
- Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is All You Need. In Proceedings of NIPS 2017.