HMS Core機器學習服務文本翻譯能力提供多種語言和多種應用場景的翻譯服務,比如,在出國旅遊的場景中,使用者可以借助應用的語音翻譯播報功能在打車、酒店入住等場景中無障礙溝通,也可以通過拍照翻譯功能讀懂餐廳菜單、路牌資訊等。
中文直譯模型讓文本翻譯能力更新
目前主流的翻譯模式大都以語料資源較為豐富的英文作為中間語言進行“橋接”翻譯,但是經英文轉移後翻譯精度有所損失,且計算資源加倍執行效果降低。為了響應“一帶一路”倡議,助力多元開放的全球化程序,國内出海應用語種翻譯需求明确且要求系統本地化部署,對部分語言方向如中日、中俄等翻譯品質要求較高,同時希望這些語言方向的翻譯效果持續提升。
基于此,HMS Core機器學習服務對文本翻譯能力進行更新,中日、德、法、俄四國語言的中文直譯模型已在新版本中上線。相較于英文橋接翻譯,中文直譯模型可實作每秒并發300字元,端到端翻譯速度小于150ms,翻譯時延降低100%,翻譯速度更快;針對中文特色詞、俚語的翻譯結果更道地,翻譯品質更優。更新後的文本翻譯能力可以滿足中企出海或外企入華等對翻譯要求更高場景的需求。
中文直譯模型方案還參加了WMT2021國際機器翻譯大賽子任務(Shared Task: Triangular MT: Using English to improve Russian-to-Chinese machine translation),并以顯著的優勢在該任務中獲得了第一名。
中文直譯和橋接翻譯效果對比

法譯中
【原文】Smart Launcher est un lanceur pour d’applications Android qui substitue l'interface classique de votre téléphone avec une autre qui est un peu plus simple et qui vous permettra d'accéder à toutes vos applications plus rapidement et plus confortablement.
【英文橋接】智能啟動器是一款Android應用程式的啟動器,它可以用一個簡單一點的界面取代手機的經典界面,讓你更快、更舒适地通路所有應用程式。
【中文直譯】Smart Launcher是一款Android應用程式啟動器,它用另一個更簡單的界面取代了手機的經典界面,這将讓您更快、更舒适地通路所有應用程式。
俄譯中
【原文】О, да ладно, когда кто-то грубит тебе в коридоре является, без сомнений, самой меньшей из тех проблем, с которыми ты сталкиваешься в старших классах.
【英文橋接】哦,拜托,在走廊裡有人對你無禮,毫無疑問,是你高中時面臨的最不重要的問題。
【中文直譯】哦,拜托,當有人在走廊裡對你無禮無疑是你在高中時遇到的最小的問題。
德譯中
【原文】Dieser von klassischen Laufschuhen inspirierte Herren-Sneaker zeichnet sich durch einen Materialmix aus Wildleder und verschiedenen Gewebearten aus und präsentiert sich in der Cruise 2020 Kollektion mit einer neuen Mid-Top-Silhouette, die genau bis zum Knöchel reicht.
【英文橋接】這款男式運動鞋的靈感來自經典跑鞋,采用麂皮和不同面料的混合,并采用全新的中幫輪廓,在2020年郵輪系列中一直延伸到腳踝。
【中文直譯】這款男士運動鞋的靈感來自經典跑鞋,采用麂皮和不同面料的混合材質,在2020年郵輪系列中呈現出全新的中幫輪廓,完全延伸到腳踝。
中文直譯模型的技術優勢
中文直譯模型借助了華為在機器翻譯方面的最新研究成果,通過利用俄英、英中語料進行知識蒸餾,在少量或沒有俄中語料的情況下,結合顯式課程學習訓練政策可以得到品質不錯的俄中翻譯模型,解決了英文橋接翻譯系統的低資源以及冷啟動的問題。
中文直譯系統
技術點一:多語言增強政策(Multi-lingual Encoder Decoder Enhancement)
以俄中翻譯任務為例,通過多語言模型,引入英中語料并結合知識蒸餾,加強譯文側decoder層的解碼能力;引入俄英語料加強原文側encoder層編碼能力。進而極大程度上解決冷啟動問題。
技術點二:課程學習政策(Explicit Curriculum Learning for Denoising)
在訓練過程,結合顯式的課程學習技巧,根據噪音量劃分三階段增量式訓練方案。在第一階段,使用全量的帶噪語料進行訓練,使得模型快速收斂;第二階段使用雙語對齊工具去噪後進行增量訓練;第三階段使用增強後的降噪雙語資料進行增量訓練,完成模型最終收斂。
技術點三:基于組合解碼政策的資料增強方案(FTST For Data Augmentation)
FTST全稱Forward Translation and Sampling Backward Translation,該技術在Backward Model中使用sampling的方式進行資料增強;在Forward Model中使用beam search的方式進行資料均衡。在對比實驗中,取得了最好效果。
除了現有的四種語言以外,機器學習服務文本翻譯能力計劃今年會陸續上線日、法、德、俄、韓、葡、西、土、泰、阿拉伯、馬來、意大利、波蘭、荷蘭、越南語共計15國的中文直譯模型,基本覆寫中國、亞非拉、歐洲、南美洲等全球主要國家和地區。