天天看點

百度智能雲曦靈-AI手語平台來了,千字文本轉手語僅需幾秒鐘

智東西(公衆号:zhidxcom)

作者 | 程茜

編輯 | 心緣

智東西3月3日報道,今天,百度智能雲推出曦靈-AI手語平台,該平台進一步降低手語制作、生成門檻,為2800萬聽障人士搭建無障礙資訊通道。

百度集團副總裁吳甜說:“面向公衆的演藝型數字人洛天依、銀行等公告場所的服務型數字人,越來越多出現在我們的生活中。”

現在數字人形象、動作、服務的背後是一系列的AI技術,百度智能雲熙靈-AI手語平台通過跨模态創新、技術加持,降低手語翻譯的部署成本、提高部署效率。

現場,“百度智能雲曦靈”數字人平台打造的首個AI手語主播擔任主持人,該手語主播此前已經在冬奧會上線,為聽障人士提供24小時手語翻譯服務。

百度智能雲曦靈-AI手語平台來了,千字文本轉手語僅需幾秒鐘

▲“百度智能雲曦靈”數字人平台打造的首個AI手語主播

去年百度智能雲數字人平台“百度智能雲曦靈”已經上線,在數字人生成、營運上帶來低成本的技術支撐。

如今,百度智能雲曦靈-AI手語平台釋出,面向更加垂直、少數的聽障群體,用技術為公益賦能。

一、手語數字人平台小時級部署,插電即用

百度智能雲曦靈-AI手語平台由AI手語平台和AI手語平台一體機組成,可以實作線上小時級部署。AI手語平台一體機包括V3全離線一體機和P3端雲結合一體機,線下插電即用。

百度智能雲曦靈-AI手語平台來了,千字文本轉手語僅需幾秒鐘

▲AI手語平台一體機

百度智能雲AI人機互動實驗室負責人李世岩說,百度智能雲曦靈-AI手語平台包含五大特性,分别是聽得清、翻得準、打得好、部署快、産出快。

為了将視訊、語音準确翻譯為文本,百度智能雲打造了SMLTA語音識别算法模型,它能準确識别語音資料,手語翻譯識别準确率達到98%。

研究人員利用手語翻譯引擎,打造自然手語NLP手語翻譯模型,基于“國家手語文法規則”,并和國家手語專家組合作,生成近千萬“自然手語語料”句子作為訓練資料。

百度智能雲曦靈-AI手語平台通過數字人驅動引擎,将人像渲染、動作引擎、口型驅動、表情驅動關聯運作,還為手語表現專門設計動作融合算法,帶來更接近真人手語表達的連貫表現。

百度智能雲曦靈-AI手語平台來了,千字文本轉手語僅需幾秒鐘

▲動作融合算法

在保證手語識别準确的基礎上,百度智能雲熙靈-AI手語平台能夠達到小時級部署、分鐘級生産實時手語合成視訊。

李世岩說,大陸的手語翻譯人數與聽障人群的比例為1:2080,大多數聽障人群與社會存在資訊鴻溝。

《無障礙環境建設“十四五”實施方案》與《廣播電視和網絡視聽“十四五”科技發展規劃》都提出了對資訊無障礙、AI無障礙播報的關注。

手語不同于說話,它是一種視覺語言,漢語中我們可能直接說出“貓抓老鼠”,但視覺語音相對反應更慢,需要先看到貓、老鼠,再看到抓的動作,才能準确将資訊傳達出來。

是以,百度手語數字人整合全鍊路的AI能力,語音、視訊資料需要通過語音識别引擎轉變為漢國文本,然後通過翻譯引擎轉化為手語碼,在數字人動作融合算法加持下,生成聽得清、翻得準、打得好的手語視訊。

目前手語問題的三大挑戰是部署難、資料少、要求高。

首先,火車站、機場、醫院等都是聽障人士的需求場景,但實際生活的場景環境多元,網絡環境、聲學環境更加複雜。

其次,手語是一種真正的小語種,其資料量少,使得手語數字人翻譯品質的提升受限。

第三,手語的語義表達和健聽人的語言不同,是以在打造手語翻譯系統時不僅要追求高效率,還要保證手語翻譯的準确性。

是以,手語翻譯平台的部署速度、成本要求都更高。

二、線上、線下場景優化,實時、精準手語翻譯

百度智能雲曦靈-AI手語平台具有四大功能,分别是視訊手語合成、直接手語合成、文本轉手語、語音轉手語,針對線上、線下場景進行優化。

線上上場景,為了滿足圖文、視訊、直播三類形式,百度智能雲熙靈-AI手語平台針對不同資料進行了适配和優化,包括用于新聞、電影、電視劇等場景的視訊手語合成,支援新聞、文檔、小說等多種圖文場景,以及賽事直播、實事直播等場景。

值得一提的是,百度智能雲曦靈-AI手語平台中千字文本轉手語合成僅需要幾秒鐘。

百度智能雲曦靈-AI手語平台來了,千字文本轉手語僅需幾秒鐘

▲文本轉手語

目前,線上版本已經在央視新聞用戶端上應用,目前已經生成200多條手語視訊,總觀看次數超1億次。

除去線上場景,線下場景對無障礙視窗需求也很迫切。

根據2015年《中國聾人群體手語翻譯需求與翻譯服務現狀研究》,火車站手語翻譯視窗購票服務僅有2.75%的聽障人士順利購買到火車票,在醫院就醫中有3.56%的聽障使用者會因為溝通不友善拒絕前往醫院就醫。

是以,部署快、成本低的無障礙設施部署尤為重要,百度智能雲熙靈-AI手語平台能夠快速實作無障礙視窗的建設。

三、建構手語翻譯模型,主攻三大難點

最後,天津理工大學聾人工學院副院長袁甜甜、百度語音技術部總監高亮、百度人工智能技術委員會主席何中軍針對産品技術領先性進行了深度解讀。

百度智能雲曦靈-AI手語平台來了,千字文本轉手語僅需幾秒鐘

▲天津理工大學聾人工學院副院長袁甜甜、百度語音技術部總監高亮、百度人工智能技術委員會主席何中軍圓桌論壇

袁甜甜說,他們和聾人學生的溝通交流過程中發現,聽障學生和健聽人缺乏有效的溝通交流手段,溝通過程中會有恐懼心理,通過人工智能技術輔助溝通是一種很好的方法。

從百度智能雲曦靈-AI手語平台的特性出發,聽得清和百度AI的語音技術分不開。高亮稱,解決直播場景下的實時問題是關鍵,AI手語平台中數字人的識别是連續的,要做到又快又準,會對模型要求更高。百度智能雲采用最新的語音大模型技術,為了在實時識别的同時做到更高的準确性。

何中軍談道,手語翻譯其實比傳統文本翻譯更難,語音處理、文本翻譯、視覺技術,具體到文本轉到手語碼有三大難點,第一個是順序不同,表達上不一緻,需要調整語序;第二個是詞彙不一樣,通用手語詞典中僅有8000個詞,遠遠少于實際應用中的詞彙;第三個是說話的語序更快,手語識别中需要精煉語言,保證明時性。

百度智能雲平台基于機器翻譯技術的積累,建構手語翻譯模型,從真實的訓練資料中,自動學習識别對手語翻譯視訊的長度控制、語音識别,形成連貫的手語翻譯句子。

在實際應用中,手語翻譯更常見的是手勢漢語,也就是依照正常人的說話語序将詞語、句子通過手勢表達出來,但自然手語才是更符合聽障人士閱讀習慣的用法,需要調整語序,省略不必要的詞彙,表達更加準确、凝練。

何中軍說,現有的機器學習技術都是基于大資料,但自然手語資料庫特别少,可以用于訓練的手語資料幾乎沒有,是以研究人員成立了一個手語專項項目,和天津理工大學的聽障學生合作,标注大量真實資料,再加上先進的算法,才達到了現在的效果。

在聽障人士的表達中,表情、肢體動作和手勢同等重要,袁甜甜補充道,百度智能雲曦靈-AI手語平台通過融合的、多信道的表達方式,才更符合聽障人士的表達習慣。

結語:搭建AI技術和無障礙溝通的橋梁

用AI驅動手語翻譯視訊生成,可以進一步降低手語翻譯的技術門檻,并且百度智能雲緻力于将授予數字人覆寫至廣電、金融、出行、醫療、政企、文旅等多個場景,從多元度為聽障人群帶來便利。

百度智能雲曦靈-AI手語平台針對不同場景,建構語音互動模式、專業術語識别等,在更加專業垂直的領域,促進AI手語平台的适配度,讓手語數字人為更多聽障人士架起溝通橋梁。

繼續閱讀