![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLiADMwEzLcBjN4MjNwkDM1QTMvwFMvwFdi9FcwF2c3VmbvwVbvNmLn1Wa0dmLzdXZul2Lc9CX6MHc0RHaiojIsJye.jpg)
新智元報道
編輯:好困 桃子
【新智元導讀】北京冬奧會上,鵝廠AI手語數字人正式上崗。她們用手語解說為2780多萬特殊群體獻上了中國人的專屬浪漫。
北京冬奧會上,賽道是冰冷的,這2780多萬人的心卻是暖的。
何出此言?
8日上午,谷愛淩奪冠,一時間全網刷屏。
3D手語數字人小聰在騰訊體育用流暢的手語解說了中國女子雪上項目奪得首金後激動人心的瞬間。
在短道速滑混合團體2000米接力的比賽上奪得金牌後,「冰壇新秀」範可新采訪時已經泣不成聲。
在這熱淚盈眶的1分半鐘,同樣是小聰讓聽障人士也能和其他人一樣分享獲勝的喜悅。
冬奧會期間,同樣24小時在崗播報的手語主播除了小聰,還有3D手語數字人聆語。
「中國隊,率先沖過終點!」
在2月5日的短道速滑混合團體接力決賽,聆語通過手語播報向聽障人士表達了中國隊獲得冠軍的激動心情。
這兩位AI手語主播都是騰訊3D手語數字人,她們用活靈活現,準确無誤的手語,為無聲世界的人們帶去冬奧冰雪賽事的精彩内容。
她們做的這一切,不為别的,隻為這些人。
他們是誰?
據統計在全世界有超過4.66億的人有聽力障礙,大陸達到聽力殘疾标準的人士超過2780萬,占殘障人士群體的30%以上。
由于無法像健聽人一樣聆聽世界,聽障人士通過手部動作、面部表情,甚至是口型變化的結合,打造了一套有别于其他任何一種語言的,完全依靠視覺傳達資訊的語言系統:手語。
然而,即便有了能夠互相交流的方法,他們和健全人之間依然隔着一堵無形的牆。
從電視新聞到長篇科普,再到現在風靡全球的短視訊,媒體及視訊平台一直都是大衆了解世界、融入社會的基礎路徑。
然而,現有的媒體平台不僅缺乏規模化的手語老師,而且較小的手語播放視窗也限制了表情、肢體動作等非手控資訊的清晰呈現。此外,電視節目在提供手語解說時多以正常語序編排,很少照顧到手語的特殊表達結構。
是以,絕大多數聽障人士隻能了解手語新聞中不到60%的内容。
你可能會問,能不能通過字幕的方式解決呢?
答案是,能但是很難。
其中一個非常重要的因素在于,手語的表達和文字之間存在着很大差别。
對于那些受教育程度較高的年輕人來說,閱讀字幕可能沒有什麼問題。然而以手語作為「母語」的聽障人士想要單獨依靠字幕進行了解還是相當困難,不過配合上手語之後對視訊内容的了解就會輕松很多。
另外,手語中有些表情動作可以傳遞程度、好惡等有感情色彩的含義,單純通過字幕來表達可能會有所欠缺。
是以,想要讓聽障人士正确地get到新聞播報中的内容就必須解決以下三個難題:
1. 手語與漢語完全不同的表達語序
比如,國語的「貓追老鼠」,手語的表達就是「貓、老鼠、追」。而「北京 常常 堵車」的手語表達是「北京、堵車、常常」。
2. 手語中不僅僅隻有手部動作,還有表情、口型等等
比如,「我做得好不好」和「我做得對不對」的手勢是一樣的,兩者的區分就需要依據口型去判斷。此外,如果想要表達「疑問」的語氣,就需要配合皺眉的表情,而「感歎」的語氣則對應一個挑眉的動作
3. 手語中沒有虛詞和量詞,轉換的時候需要适當删減
比如,「我買兩隻鉛筆、一本書」表達出來就是「我買鉛筆、二、書、一」。「大雪紛飛」的手語中,既不會有「大」,也沒有「紛飛」,而是在「雪」的基礎上加大身體的擺動來展現程度副詞。
AI也被拉去做冬奧「特訓」
那麼,如何才能聽障人士更好地收看并了解冬奧賽事呢?
作為全球首個3D手語數字人,小聰肩負起了此項重任。
在正式上崗之前,小聰經過嚴格的訓練的訓練,完全依照《國家通用手語詞典》,并可以順利地完成漢語到手語的語序轉化和翻譯過程。
此外,在中國聾人協會、手語老師以及聽障人士組成的顧問團隊的幫助下,小聰不僅能更好地了解需要播報的内容,而且還完成了手語動作和面部表情同步,完善了手語的表現力。
前期的準備工作完成之後,就是針對冬奧的「特訓」了。
對于體育賽事來說,當進入到白熱化階段的時候,解說員的語速可能會變得非常快。此外,在賽後采訪中,音頻中可能帶有環境噪聲和混響。而對于冬奧這個特殊的場景,則缺少相關的資料。這些都會對小聰的翻譯造成極大的影響。
針對這類的問題,團隊定向抓取了大量體育賽事解說資料,并且還研發了資料增強方案和多語種融合訓練算法,分别從資料和模型訓練兩個層面對最終效果進行了優化。
在經過針對體育賽事中手語詞彙的專項訓練之後,小聰拿到了冬奧會體育賽事手語解說的通行證。
經評測,小聰手語表達的可懂度可以達到90%以上,手語與口播播報速度的延遲時間也從降低了 20%。
小聰能夠取得如此出衆的效果,是依托于國内首個完備的Text to Pose ,Video to Pose手語翻譯系統。
作為一個成熟的 PaaS 系統,其可以快速實作從文本、視訊等到手語視訊的轉換和輸出。
此外,有了PaaS系統的加持,以視訊流的形式為直播節目加入手語解說也就不是什麼難事了。
作為背後的研發團隊,騰訊PCG AI互動部有着深厚的AI能力積累,在語音、數字人、計算機視覺、自然語言處理等多個賽道均有突破。
鵝廠下一步
一場冬奧冰雪賽事,小聰和聆語為2780多萬人帶去了便利和溫暖,也恰恰踐行了騰訊一直以來堅持「科技向善」的理念。
在接下來的冰雪賽事裡,小聰和聆語還将提供手語翻譯,讓更多的人一起見證中國隊奪金時刻!
曆經數年積累,從實驗室走向台前的AI手語數字人,讓科技變得有溫度。
未來,騰訊3D手語數字人應用場景也将無限擴大。不僅在傳統新聞報道,實時現場直播等新聞釋出類場景下繼續提供流暢的手語解說。
還将開展線下景區景點,機場醫院等文化、生活服務場所的探索,解決聽障人群在日常生活中遇到的問題。
同時,越來越多的手語人形象也将不斷湧現,為聽障人群提供多元化個性化的服務,填平資訊傳遞的鴻溝,逐漸落實全社會資訊無障礙的建設目标。