天天看點

【技術戰疫】新冠醫療領域專業翻譯平台,助力專業人士抗疫

新冠狀病毒疫情爆發,對人類的生命健康構成威脅,在中國尤其嚴重。 世界衛生組織呼籲國際社會現階段應該把新冠病毒視為“頭号公敵”。抗擊疫情不僅僅是我們中國的事情。在世界範圍内,關于病毒的研究,疫苗的進展,疫情的變化,相關研究論文每天都在不斷出現。截止當地時間2月4日,至少已有77篇新型冠狀病毒相關的英文研究文章發表。打破語言壁壘,第一時間同步國内外疫情研究最新進展,達摩院翻譯團隊緊急上線了 公益平台--"新冠醫療領域專業翻譯平台" 。 免費提供中-英,英-中醫療領域的專業文檔翻譯,助力專業醫療人士抗疫。

【技術戰疫】新冠醫療領域專業翻譯平台,助力專業人士抗疫
【技術戰疫】新冠醫療領域專業翻譯平台,助力專業人士抗疫
【技術戰疫】新冠醫療領域專業翻譯平台,助力專業人士抗疫

專業醫療翻譯引擎

此次上線的公益引擎,是基于目前最好的中英雙向翻譯模型進行疊代優化。我們采用先進的自動語料過濾技術收集大量高品質的醫療領域資料,并結合部分通用領域資料對模型進行參數精調,使得新翻譯引擎能很好地适配醫學專業領域場景,同時最大程度保留對其他領域的翻譯性能。另外,我們采用了達摩院最新的幹預技術來融合最新的疫情相關知識庫雙語術語,確定專業詞彙的翻譯準确度。在醫療領域的公開測試集上,新翻譯引擎的總體翻譯效果相比原來翻譯模型提升了7%。

機器翻譯核心算法

阿裡翻譯目前主要采用基于深度神經網絡的翻譯模型,采用seq-to-seq的翻譯模型架構以句子級别作為輸入,以subword 為最小翻譯單元,逐句生成譯文。我們采用了最先進的Deep Transformer網絡架構,利用深層神經網絡和self-attention機制提升模型能力,并在網絡結構設計上高度并行化,顯著了加速模型的訓練收斂速度。 其次,充分利用語言學知識,融入更多的語言學先驗知識有助于提升翻譯系統品質。我們将句法、詞性、詞綴等資訊融入翻譯模型中,使生成的翻譯更加符合文法、詞法規範。

雙語語料打分技術

通過對收集的雙語語料進行品質自動評估,我們能夠從大量帶噪音的雙語資料中收集到高品質領域資料,更好地實作模型的領域适應。以下是整個模型的架構:

【技術戰疫】新冠醫療領域專業翻譯平台,助力專業人士抗疫
  • 圖中右邊部分:是模型的主要部分,一個預訓練的雙語專家模型(Bilingual Expert Model),這個模型與transformer NMT模型非常類似,但由于這個任務不是一個生成任務,是以我們将目标端改成了雙向的transformer 模型。 這個模型可以有效的抽取出原文和譯文的雙向語言特征,這部分訓練完成後會輸出一個強大的雙語語言模型。
  • 圖中左邊部分:這是一個基于Bi-LSTM的品質評估模型,其中融合了從雙語專家模型中擷取的特征以及一些單詞分布比對特征,這些特征都能有效的預測語料品質。

機器翻譯幹預技術

自研神經網絡翻譯幹預技術,有效利用外部先驗知識提升翻譯專業性并快速修正翻譯錯誤,能夠及時修複線上badcase,并滿足定制化的翻譯需求。具體來說,我們實作了線上翻譯幹預子產品,能夠實作較為順滑的整句幹預和片段幹預。該技術廣泛應用于電商、語音、溝通等翻譯場景。對于醫療場景,阿裡翻譯通過這個技術能自然地融合最新的醫療雙語知識庫,確定專業詞彙的翻譯準确度。同時這項技術也支援使用者自我定制術語的需求。

【技術戰疫】新冠醫療領域專業翻譯平台,助力專業人士抗疫

疫情專業詞典支援

由于領域的特殊性,醫學文獻和報告中存在大量專業性較強的專用術語,給科研工作者和臨床醫生在閱讀外文文獻時造成了很大的了解障礙。而且,由于醫學涉及專業領域廣,細分學科多,即使對本專業英語熟悉的醫生,在涉及跨科室、跨領域、跨學科的醫學詞彙時也會感到力不從心。針對這一痛點,公益平台收錄了覆寫臨床、生物、醫藥等十餘個細分領域,規模超過50萬的醫學專業術語詞典,并實時收錄目前疫情相關的新增熱門詞彙及翻譯,友善使用者自主搜尋。同時支援使用者自主添加新的術語翻譯,實時共享疫情最新檢索熱詞。

【技術戰疫】新冠醫療領域專業翻譯平台,助力專業人士抗疫

疫情專業文獻共享 

新冠疫情爆發以來,一線科研人員和臨床醫生都很關注國内外對新冠病毒的解讀和疫情發展、防控、治療等方面的進展。目前公益平台收錄來自新英格蘭NEMJ、柳葉刀Lancet、Nature、Science、Journal of medical virology(JMV)、Journal of clinical medicine(JCM)等權威期刊,覆寫流行病學、病毒學、臨床醫學等領域近20篇論文,并給出中英文對照翻譯文稿,免費提供使用者閱讀和下載下傳,友善科研人員及時了解國内外疫情動态。同時,平台支援使用者自主上傳論文和自動生成譯文,建立文獻共享機制,友善更多文獻的收錄和查詢。

【技術戰疫】新冠醫療領域專業翻譯平台,助力專業人士抗疫

功能優化

由于大部分文獻都是以PDF的格式進行分享和傳播的,是以阿裡翻譯專門針對PDF格式的文檔翻譯進行了優化。主要進行了如下優化:

【技術戰疫】新冠醫療領域專業翻譯平台,助力專業人士抗疫
  1. PDF文字解析:PDF文字解析,一般有采用OCR方式,或者直接解析PDF的方式。阿裡翻譯經過多個方案的對比調研之後,發現将PDF格式轉換為Word的docx格式,可以更好的支援翻譯之後文檔的排版還原,是以采用了将PDF檔案轉換為docx檔案,進而解析docx檔案的方式,進行文檔翻譯。
  2. 保留排版樣式:保留源PDF檔案的内容排版,這樣源檔案和翻譯之後的檔案,對比檢視,可以提升文獻的閱讀體驗。阿裡翻譯在提取docx檔案的文本内容的時候,同時保留文本所在位置等資訊,進而在擷取文本譯文之後,結合源文本的位置資訊,可以生成排版和源檔案一樣的翻譯之後的檔案。
  3. 文檔支援Web和H5預覽:同樣,優化使用者檢視文檔的閱讀體驗,我們使用了阿裡雲智能媒體管理(Intelligent Media Management,簡稱 IMM)支援文檔的預覽功能。

 新冠醫療領域專業翻譯平台入口:

電腦網頁版:

https://medtrans.damo.alibaba.com/medtrans.htm

 手機釘釘版:

【技術戰疫】新冠醫療領域專業翻譯平台,助力專業人士抗疫

歡迎大家通路,使用和拍磚。任何意見和問題,歡迎到我們下面的交流群通路: 

【技術戰疫】新冠醫療領域專業翻譯平台,助力專業人士抗疫

繼續閱讀