天天看點

利用最新AI技術,谷歌提高機器翻譯品質

雲栖号資訊:【 點選檢視更多行業資訊

在這裡您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!

神譯局是36氪旗下編譯團隊,關注科技、商業、職場、生活等領域,重點介紹國外的新技術、新觀點、新風向。

編者按:Google Translate是全球最流行的翻譯服務之一,目前支援108種語言的互譯,每天翻譯的單詞量達到1500億。過去一年間,通過利用針對總體品質,延遲以及整體推理速度的一系列技術組合,其BLEU翻譯品質平均又提高了5分多。Venturebeat的KYLE WIGGERS報道了相關的技術進展,原文标題是:How Google is using emerging AI techniques to improve language translation quality

利用最新AI技術,谷歌提高機器翻譯品質

劃重點

Google Translate支援108種語言互譯,每日翻譯的單詞量達到1500億

經過運用一系列技術之後,2019年5月至2020年5月期間,Translate的翻譯表現平均提高了5分或更多

Transformer編碼器+RNN解碼器+爬蟲更新為翻譯品質提升做出了貢獻

課程學習對噪聲資料進行了更好的處理

Google Translate Community将是Google Translate重要的助手

Google近日表示,自己在提高沒有大量書面文字的語言的翻譯品質方面已經取得了進展。在一篇即将發表的部落格文章裡面,該公司詳細介紹了自己新的創新技術。這些創新技術增強了目前Google Translate所支援的108種語言(尤其是缺乏資料的語言,如約魯巴語和馬拉雅拉姆語)的使用者體驗。據稱,Google的這項服務平均每天翻譯的單詞量達到1500億。

自Google Translate首次公開亮相以來的這13年間,神經機器翻譯,基于重寫的範式以及裝置處理等技術已經讓該平台翻譯的準确性出現了可量化的飛躍。但是直到最近,哪怕是Translate最新的算法也落後于人類的表現。Google之外的努力說明了該問題的量級——旨在讓非洲大陸上數千種語言能夠自動翻譯的Masakhane 項目,目前仍未擺脫資料收集和轉錄的階段。自2017年6月釋出以來,Mozilla為建構轉錄語音的開源資料集所做的努力Common Voice,至今也僅稽核了40種語音。

Google表示,其翻譯突破并不是由單一技術推動的,相反,那是針對低資源語言,高資源語言,總體品質,延遲以及整體推理速度的一系列技術的組合。2019年5月至2020年5月期間,經過人工評估和BLEU(一種基于系統翻譯與人工參考翻譯之間相似性的名額)進行衡量之後,發現Translate的表現為在所有語言當中平均提高了5分或更多,在50種最低資源水準的語言的翻譯平均提高了7分或更多。此外,Google表示,翻譯在面對機器翻譯幻覺時已經變得更加健壯。(注:機器翻譯幻覺是一種特殊的現象,當AI模型被賦予怪異輸入時會産生這種現象,比方說“Shenzhen Shenzhen Shaw International Airport (SSH)”的泰盧固國文字為“ష ష ష ష ష ష ష ష ష ష ష ష ష ష ష”,意思是“Sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh”)。

混合模型與資料爬蟲

這些技術裡面首當其沖的是一種翻譯模型架構,這是一種混合型的架構,包含了一個Transformer編碼器以及一個遞歸神經網絡(RNN)解碼器,用針對時序模組化的TensorFlow架構Lingvo實作。

在機器翻譯裡面,編碼器的工作通常是将單詞和短語編碼為内部表示,然後解碼器将其用來生成所需語言的文本。2017年,Google相關研究人員首次提出,在這方面基于Transformer的模型要比RNN更為有效,但Google表示,其工作表明,所獲得的大部分品質提升僅來自于Transformer的一個元件:編碼器。原因可能是因為雖然RNN和Transformer都被設計為處理有序資料序列,但是Transformers并不需要按順序來處理序列。換句話說,如果所讨論的資料是自然語言的話,則Transformer無需在處理結尾之前先得處理句子的開頭。

盡管如此,在推理時,RNN解碼器仍比Transformer當中的解碼器“快得多”。在意識到這一點之後,Google Translate團隊在開始優化RNN解碼器,然後再與Transformer的編碼器進行結合,進而建立出比四年前基于RNN的神經機器翻譯模型延遲更低,品質更高,更穩定的混合模型,并替換了後者。

利用最新AI技術,谷歌提高機器翻譯品質

自2006年成立以來,Google翻譯模型的BLEU得分情況

除了新穎的混合模型體系結構之外,Google還更新了自己已經使用了幾十年,用來從數百萬對文章、書本、文檔以及web搜尋結果的示例翻譯中編譯訓練資料集的爬蟲。這位新的資料爬蟲(針對14種大型語言對采用嵌入式而不是字典式,意味着它利用的是實數向量來表示單詞短語)更加注重精确度(相關資料在檢索到的資料中所占的比例)而不是回憶(相關資料總量在實際檢索到的資料中的占比)。Google表示,在生産環境下,這讓爬蟲析取的句子數平均增加了29%。

噪聲資料與遷移學習

另一項翻譯性能提升來自于一種模組化方法,這種方法對訓練資料中的噪聲進行了更好的處理。因為觀察到噪聲資料(含有大量無法正确了解或解釋的資訊的資料)會損害資料豐富的語言的翻譯,是以Google的翻譯團隊部署了一個系統,利用經過噪聲資料訓練的模型來對例子進行打分,然後對“清洗”後的資料進行調整。基本上,這些模型一開始利用所有的資料進行訓練,然後逐漸用規模小一點幹淨一點的子集進行訓練,這種方法在AI研究社群裡面被稱為課程學習(curriculum learning)。

針對資源匮乏的語言,Google在Translate裡面實作了反向翻譯方案,給翻譯添加了并行訓練資料,讓被翻譯語言的每個句子都跟翻譯進行配對。(機器翻譯傳統上依賴于源語言目智語言配對句子語料集源的統計資料。)在這種方案中,訓練資料會自動跟合成的并行資料進行比對,進而保證目标文本是自然語言,但源語言則通過神經翻譯模型生成。其結果是Translate利用了更豐富的單一語言文本資料來訓練模型,Google表示這對于提高流利性特别有用。

利用最新AI技術,谷歌提高機器翻譯品質

帶Translate功能的Google Maps

Translate現在還利用了M4模組化,用一個大型模型M4實作多種語言與英語之間的互譯。(去年的一篇論文裡面首次提出了M4,證明在利用100多種語言的250億對句子對進行訓練之後,M4可提高30多種低資源語言的翻譯品質。)M4模組化令Translate裡面的遷移學習成為可能,通過對包括法語,德語和西班牙語(有數十億個并行示例)等高資源語言的訓練收集而來的洞察,可以應用到諸如約魯巴語,信德語和夏威夷語(僅有數萬個示例)等低資源語言的翻譯當中。

展望未來

根據Google的說法,自2010年以來,Google Translate每年至少都提高了1個BLEU點,但是自動機器翻譯絕對還算不上已解決的問題。Google承認,即使是其增強的模型也容易出錯,包括會将一種語言的不同方言混淆,産生過多的直譯,在特定題材和非正式或口頭語言的翻譯上表現不佳等。

該科技巨頭正常是多管齊下解決這一問題,包括通過它的Google Translate Community,這個遊戲化的計劃招募了一批志願者,讓他們翻譯單詞短語或者檢查翻譯是否正确來幫助改進低資源語言翻譯的性能。今年1月,該計劃在各種新興機器學習技術的合作下,又為Translate增加了5種為7500萬人使用的語言的翻譯:其中包括盧旺達語(Kinyarwanda),奧裡亞語(Odia),鞑靼語(Tatar),土庫曼語(Turkmen)以及維吾爾語。

追求真正通用翻譯這一目标的并不隻有Google。2018年8月,Facebook就披露了一種結合了逐詞翻譯,語言模型和反向翻譯的AI模型,這種模型在表現要優于語言配對系統。最近,麻省理工學院計算機科學與人工智能實驗室的研究人員提出了一種無監督模型(即可以從未經明确标記或分類的測試資料當中學習的模型),這種模型可以在沒有直接翻譯資料的情況下對兩種語言的文本進行互譯。

在一份聲明中,Google婉轉地對 “學術界和業界”的機器翻譯研究表示了“感謝”,稱其中一些對自己的工作起到了促進作用。該公司表示:“我們通過綜合和擴充了各種最新進展來實作[Google Translate 最近的改進]。通過此次更新,我們為能提供相對一緻的自動翻譯而感到自豪,這種一緻性甚至展現在我們所支援的108種語言當中資源最少的的語言翻譯上。”

譯者:boxi。

【雲栖号線上課堂】每天都有産品技術專家分享!

課程位址:

https://yqh.aliyun.com/live

立即加入社群,與專家面對面,及時了解課程最新動态!

【雲栖号線上課堂 社群】

https://c.tb.cn/F3.Z8gvnK

原文釋出時間:2020-06-15

本文作者:神譯局

本文來自:“

36kr

”,了解相關資訊可以關注“

繼續閱讀