天天看點

她們的冬奧會解說,暖了千萬人的心

智東西(公衆号:zhidxcom)

作者 | 程茜

編輯 | 漠影

“武大靖最後一次沖刺!最後一個彎道,武大靖率先沖出彎道,沖過了終點!”2月5日,冬奧會第1個比賽日,中國短道速滑混合團體接力項目奪得首金!

細心的觀衆可能注意到,央視訊畫面中右下角有一個手語主播,更神奇的是,這個手語主播并不是真人,而是手語數字人——央視訊AI手語翻譯官聆語,為熟悉手語的聽障人士帶來了精彩“解說”。

她們的冬奧會解說,暖了千萬人的心

▲央視訊AI手語翻譯官聆語解說短道速滑混合團體接力項目武大靖沖刺時刻

我們可以看到,聆語的手勢裡包含了我們常見的數字“9”和“3”的手部動作,但與我們了解的意思不同,“3”表示的是“W”,“9”表示“J”,就是“武大靖”首字母的拼音,令人稱奇。

冬奧會開幕以來,冬奧會四金得主王濛再度沖上熱搜,這次的出圈方式是其“唠嗑”式的解說。随着“我的眼睛就是尺”等金句頻出,各路網友紛紛表示已被圈粉。足以見得,賽事解說在體育項目中的重要性。然而,大多數解說員都是通過聲音播報,導緻一些聽力障礙人群無法感受解說的魅力,而手語主播的出現就有效彌補了這一難題。

騰訊AI手語翻譯官聆語上線央視訊、騰訊3D手語數字人小聰上線騰訊體育,為聽障人士帶來手語解說,感受冬奧賽場上的精彩瞬間。小聰、聆語,由騰訊PCG AI互動部聯合CSIG智能平台産品部共同打造,與以往的3D AI合成主播不同,手語數字人通過手勢動作和表情,為聽障人士提供“無聲的溝通”。從技術上看,騰訊手語數字人基于騰訊多模态端到端生成模型,進行聯合模組化及預測生成高準确率的動作、表情、唇動等序列,實作自然專業、易懂度高的手語效果。

近日,為了揭開手語數字人背後的黑科技,智東西采訪了騰訊PCG AI互動部手語數字人項目組負責人孟凡博,就手語翻譯的難點、騰訊手語數字人的技術邏輯,技術團隊在開發中遇到的難題等做了詳細介紹。

一、手語主播的三大技術優勢,形象逼真、動作自然準确

讓我們仔細觀察一下下面動圖裡的小聰,是不是感覺近似真人?并且在解說過程中,小聰的頭和肩膀還會随着手勢動作輕微擺動,手語動作流暢自然,再加上表情、口動等,細節也很到位。這些效果的實作,都離不開AI、大資料等技術驅動,這也正是騰訊手語數字人的技術難點所在。

她們的冬奧會解說,暖了千萬人的心

▲騰訊手語數字人小聰播報“中國奪得首金”

大家都能看到,手語數字人和其他數字人最大的差別在于不發聲,僅僅依靠動作、表情等要素。不論是聆語還是小聰,其形象和手語動作都十分傳神,那麼在這背後有哪些黑科技?

1、超寫實的逼真數字人效果

對于健聽人而言,我們隻需要聲音、音調就能表達豐富的意思,而手語以表形表意為主,需要較大幅度的肢體動作、更加逼真的人物形象等,能和觀衆産生交流,更具真實感與親切感,才能進一步使得手語翻譯的完成度更高,在有效模拟真人手語播報的基礎上,進一步提升使用者體驗。

為此,騰訊手語數字人使用了行業領先的3D重光照掃描還原、面部肌肉驅動、表情肢體手勢捕捉技術,打造了高度還原真人發膚、形象逼真、動作自然生動的數字人模型。

2、高可懂度的手語表達能力

大部分人可能不了解,學習手語其實和我們學習一門外語一樣困難。手語是屬于聽障人士的獨立語言,與漢語、英語等并列,有自己的文法結構、語序編排等規則,擁有獨特的語言體系。和漢語類似,手語也分方言和國語,為了讓手語普及度進一步提高,大陸于2019年還專門出版了《國家通用手語詞典》,進一步對手語體系進行了規範。

騰訊手語數字人的手語翻譯系統,正是基于《國家通用手語詞典》,形成了成熟的漢語到手語的語序轉化和翻譯過程。基于輸入的健聽人語言能夠低延遲生成高準确率的手語語言表征,通過多模态生成技術,實時預測生成對應的超寫實3D數字人驅動參數,進而快速生成數字人手語播報視訊。

她們的冬奧會解說,暖了千萬人的心

▲國家通用手語詞典應用程式手語講解示例(圖檔截自國家通用手語詞典APP)

在聽障人士可懂度測評中,騰訊手語數字人的播報内容整體可懂度已經達到90%以上。

3、高接受度的手語展現效果

不了解手語的人,就像我一樣,可能以為手語僅僅需要手部動作,其實不然,表情、口動、體态等也都是手語表達的關鍵。下面這個例子就十分形象了,“明白嗎?”這個問句需要身體朝向、表情、眼神、口型的關聯,才能有效傳遞出疑問的語氣。

這一簡單的問句就需要這麼多要素,如果換成其他資訊更加豐富的句子,手語數字人将如何精準傳遞資訊呢?

她們的冬奧會解說,暖了千萬人的心

▲國家通用手語詞典應用程式手語講解疑問代詞示例(圖檔截自國家通用手語詞典APP)

作為一種視覺語言,手語往往需要手控資訊和非手控資訊關聯表達。除了上面提到的疑問語氣,日常表達中還有感歎、肯定等諸多情緒,為了使手語表達更加道地,精準的手部動作以及準确的非手控資訊都需要具備。

為了實作更加準确、自然的手語表達效果,騰訊PCG AI互動部建立了漢語-手語翻譯系統,可以通過機器翻譯生成手語表征資訊,基于多模态端到端生成模型進行聯合模組化及預測,生成高準确率的動作、表情、唇動等序列。

二、打造手語語言體系,驅動手語數字人準确表達

在大部分人看來,手語動作比較簡單,不同的詞彙有相對應的手勢,其實真正可懂也很難。打個比方來說,我們學英語,需要打亂漢語語序,按照英語的方式來思考,才能熟練掌握這門語言。手語也類似,其語序結構、句子表達、特殊表情等都和漢語不同,有時一個句子中的詞彙并不需要全都通過手語翻譯,例如量詞、副詞等,但有時合理地删減也是一大難點。

在調研過程中,研究人員發現,現在《新聞聯播》《北京新聞》等很多欄目中都增設了手語播報,不過部分聽障人士稱,他們隻能了解手語新聞中不到60%的内容。

日常的新聞播報尚且如此,冬奧會這一特殊場景下,項目名稱、技術動作等手語詞彙翻譯難度可想而知。為了讓手語數字人适應冬奧會這一特殊場景,研究人員也費了很大功夫。

孟凡博稱,首先,他們需要訓練手語系統應對比賽、采訪現場嘈雜的環境音,前期,技術團隊選取了大量賽事報道對手語數字人進行訓練;其次,手語作為一門獨立語言,其文本資源很少,研究團隊通過多方搜集隻能找到近160萬有效文本。相比于中英對照的2億文本,這個體量可以說很小了。

更為重要的一點是,體育賽事有很多專業術語,手語數字人在確定資訊全面、完整的基礎上,也要保證資料的準确性,是以,騰訊AI互動技術團隊和專業手語老師達成合作,遷移到手語數字人中的手語都經手語顧問反複确認。

是以,面對專業的冬奧會,在文本不足的條件下,如何打造“真正可懂”的手語數字人正是騰訊AI互動技術團隊需要跨越的技術壁壘。

1、手語表達語序獨立,建立映射詞典

看到複雜的手語動作,我們可能一頭霧水,但通過智東西和專業人士交流發現,手語表達語序與漢語大不相同。例如,在手語表達中,會先打出表達行為目的的詞語,後打出表示行為的對象的詞語,漢語“我想回家”的手語表達為“家 回 我想”。

手語翻譯過程中,不僅需要将每個詞都進行一一對應,還需要調整其順序便于聽力障礙人士了解。是以,騰訊AI互動技術團隊在漢語和手語之間建立映射詞典和語言體系,将漢語翻譯為符合自然手語規範和聽力障礙人士表達習慣的手語。

她們的冬奧會解說,暖了千萬人的心

2、搭建手語體系架構,按需删減量詞

手語中表示人名時,會使用拼音,不過,冬奧會作為國際體育賽事,有很多外國運動員,相比中文人名的拼音更加複雜。如果用手語逐個表示的話,可能采訪已經結束了。

在完整表達句意的前提下,騰訊AI互動技術團隊使用智能摘要技術,将按篇章摘要更新為按句子壓縮,對ASR識别文本進行精簡,抓取關鍵資訊,省略量詞、程度副詞等詞彙。例如正常解說詞為:“看慢動作可以看出,谷愛淩的這個高度是比其他選手都是要高,非常的飄逸,非常的好看。”可以壓縮為“谷愛淩的高度比其他選手都高,非常飄逸好看。”文本長度縮減為原來解說詞的 60%。這種恰當删減并保持完整句意的摘要能力是手語表達的關鍵前提。

騰訊AI互動技術團隊在手語顧問團隊、手語調研盤點下,搭建手語語言基礎體系架構,開發手語翻譯系統,隻需輸入健聽人語言,即可通過機器翻譯生成高準确率的手語語言表征。

此外,為了保證原視訊和手語視訊時間長度的一緻性,手語數字人的翻譯過程會将漢語句子進行動态調控。根據時間、句子意思等,壓縮文本,最終生成相對應的手語視訊。

孟凡博說:“在視訊和音頻處理方面我們做了容錯對齊處理,直播翻譯過程延遲控制在可接受範圍内。為了保證後續鍊路上手語視訊處理的穩定性和觀衆體驗的一緻性,我們還對音頻傳輸和識别輸入做了平滑處理。目前,漢語和手語的壓縮比大概在60%,會因實際情況不同進行調整。”

3、內建手控和非手控資訊,可懂度超90%

漢語的神奇之處在于,同一句話不同語調意思完全不同。那麼在手語中,同樣的句子如何表現說話人的不同情緒,更加多變的表情、手勢、體态如何準确傳遞句意,這也是打造手語數字人的技術難點所在。

手語需要多個要素綜合表達,才能向聽障人士傳達完整的意思。研究人員基于騰訊多模态端到端生成模型,提取手語語言體系下的多模态資訊,如手勢詞彙、表情口動、體态節奏、語序韻律等,将手語動作和面部表情同步,進一步優化手語表現力。

通過這項技術,AI手語可懂度達90%以上。

三、打造可視化動作編輯平台,低延遲生成手語視訊

上面提到的這些技術讓手語數字人能夠變得真正可懂,但是如何讓這個技術真正為聽障人群帶來福利,能夠有效應用到新聞播報中,為此騰訊AI互動技術團隊打造了一套可視化動作編輯平台,助力其規模化應用。

可視化動作編輯平台基于完備的手語翻譯系統、成熟的PaaS系統等,在保證語義完整、準确的基礎上,能夠實作低延遲快速翻譯,實作“秒翻手語”。

談及讓手語數字人真正可用,孟凡博說:“面向冬奧會場景的手語數字人隻是我們的第一步,未來我們将考慮聽障人士在實時場景和非實時場景的應用,覆寫聽障人士的不同需求。”

1、低延遲生成手語視訊

可視化動作編輯平台的強大之處在于,可快速從漢國文本、視訊檔案生成手語視訊,在這一環節中,轉換、翻譯所需的時間較短,有可能在你聽到新聞播報的瞬間,手語數字人也已經完整傳遞了該内容。

那麼,這個系統生成手語視訊的具體實作過程是什麼樣?在該系統中輸入一段文本或視訊進行預處理,内容處理過程包括多模态視訊内容提取、視訊語音提取、智能打軸、内嵌字幕OCR提取等,生成手語翻譯要素,包括手勢、肢體、表情、唇動等,進一步保證語序轉化、表情體态等特征的準确性,依托超寫實數字人驅動,快速生成與之對應的手語視訊。

她們的冬奧會解說,暖了千萬人的心

2、滿足有稿和無稿場景

目前,大部分電視節目都有字幕,不過一些直播節目、廣播節目中可能并沒有字幕,隻有聲音。在這種情況下,騰訊手語數字人同樣能應對,不光可以提取文本資訊,也可以識别音頻、視訊。

在實時新聞資訊等場景,為了進一步促進資訊無障礙溝通,通過手語數字人向聽障人士傳遞更多資訊,騰訊的可視化動作編輯平台可同時滿足無稿和有稿場景,并且支援以視訊流的形式為直播節目加入手語解說能力。

輸入節目源後,可視化動作編輯平台可提取音頻流、視訊流,提取文本資訊進行手語翻譯,快速生成手語視訊後,再對其進行編碼,進行視訊流傳輸,與節目視訊相融合,面向直播場景形成視訊推流。

她們的冬奧會解說,暖了千萬人的心

3、快速學習更新熱詞

現在越來越多的熱詞、新詞出現在我們的日常交流中,同樣的詞語放到網絡上就有截然不同的意思,當然,很多聽障人士也會緊跟潮流。并且現在很多視訊中都會頻繁使用這些詞彙,這也為手語播報提出了挑戰。

騰訊手語數字人能自行學習,快速補充海量新詞、熱詞,并且研究人員專門針對冬奧會中體育競賽手語詞彙進行了整理和優化。目前騰訊手語數字人已經具備完整的體育解說手語能力。

談到手語詞庫的更新疊代,孟凡博透露,他們為手語數字人建立了可視化動作編輯平台,該平台可以實作手語動作批量編輯與生成,無須對每個詞進行動捕,極大提升了手語詞彙生産效率。

騰訊AI互動技術團隊多年來深耕數字人技術,已有大資料平台可以将高頻中文文本引入預訓練模型中,同時動态加載檢索、标注得到的新、熱詞手語打法,并與後端結合,根據詞彙類型預測部分oov詞彙打法,就能確定最終輸出的連貫性。

結語:騰訊手語數字人助力無障礙資訊傳播

作為大陸超寫實3D數字人領域的頭部企業,騰訊AI互動技術團隊将目光聚焦到聽障人群中,沖上更高的技術壁壘。騰訊不斷精進數字人技術,為内容播報需求強勁的行業提供新的輸出方式,拉近人與機器的距離。

騰訊AI手語主播系統既要完成語序建構、表情生成等手語翻譯,還要依托超寫實數字人低延遲輸出手語視訊。對于觀衆來說,我們隻能看到最後生成的手語視訊,但在之後的技術體系搭建卻十分龐大,這也是手語數字人技術發展的壁壘所在。

科技飛速發展的當下,騰訊一直在思考如何用科技拉近2700萬聽障人群與社會的距離。此次,騰訊手語數字人聆語、小聰在冬奧會這個重要節點上線,能受到更多有效使用者的關注。與此同時,孟凡博稱,圍繞冬奧會場景騰訊也在不斷優化相關功能以相容更多場景。未來,騰訊手語數字人也将在更多場景提供服務,在新聞報道之外,探索生活服務,文化文旅等線下場景,秉持科技向善,助力打造無障礙資訊傳播環境。

繼續閱讀