天天看點

收錄詞彙語句總規模超10萬,虛拟主播變身冬奧手語播報員

“運動員要從一個近50米高的斜坡上下滑,順滑、倒滑都可以選擇,然後在斜坡的盡頭騰躍,完成空翻、轉體、抓闆等技術動作組合……”

電視畫面中,當主持人用較快的語速介紹冬奧會自由式滑雪大跳台項目時,畫面左下角的紅衣年輕女士手口并用,快速将這些内容以手語表達了出來。

2月5日以來,看過北京衛視《北京您早》節目的人可能見過上述這一幕。但很多可能不知道,電視畫面中的女手語播報員不是真人,而是“冬奧手語播報數字人”。

據智譜AI CTO張鵬介紹,“冬奧手語播報數字人”的最大優點是,它是一套自動系統,可以大量節省人工;同時,它可以流暢地将語音播報生成為手語播報,堪比真人。

目前,“冬奧手語播報數字人”的語義表達完整性已較高,其手語表達的90%的内容聽障人士與手語老師可懂。

收錄詞彙語句總規模超10萬,虛拟主播變身冬奧手語播報員

“冬奧手語播報數字人”手語播報冬奧新聞畫面。 項目研發方供圖

國内最大規模多模态手語庫作支撐

2022年北京冬奧會不僅是一場全世界奧運健兒與嘉賓歡聚的盛會,也是一場科技賦能的“智慧”盛會。

“冬奧手語播報數字人”采用了大陸首個超大規模智能資訊模型和虛拟數字人技術,由北京市科委、中關村管委會支援,智譜AI、淩雲光和北京廣播電視台聯合為聽障人士打造,清華大學賈珈教授團隊和中科院計算所陳益強研究員團隊也參與了相關關鍵技術的研究和開發。

該其系統以超大規模預訓練模型為核心技術,自主搭建有多模态肢體動作、表情、手指同步采集系統,運用跨模态拟人生成算法、超高精度寫實數字人等行業領先技術,實作了冬奧期間賽事新聞的專業手語翻譯播報。

張鵬告訴澎湃新聞記者,像“國語”一樣,有通用手語,但也有類似方言的不同手語表達形式。是以,需要采集足夠多的語料,才能讓“冬奧手語播報數字人”能夠準确表達不同場景下的内容的語義。

對此,“冬奧手語播報數字人”系統完成了《國家通用手語詞典》收錄的8214條通用手語的采集和錄制,并且文法都以聽障群體習慣打法為準,以確定手語播報成果的準确性和專業度。

據智譜AI合夥人、進階副總裁左家平介紹,由于目前國内缺少較完善的手語語料資料,研發人員在北京市殘障人士聯合會和市殘聯聾人協會的支援下,邀請超過40餘位聾人老師及手語專家進行了手國文本轉寫和技術指導,并進行大範圍聽障群體評測,最終建構了符合國家通用手語規範的國内最大規模多模态手語語料庫,詞彙及語句總規模超10萬。

張鵬表示,目前“冬奧手語播報數字人”的語義表達完整性已較高,就聽障人士與手語老師的回報來看,其表達的可懂度達90%。

收錄詞彙語句總規模超10萬,虛拟主播變身冬奧手語播報員

左家平介紹“冬奧手語播報數字人”相關情況。 澎湃新聞記者 程婷 圖

“智能數字腦”助力流暢、快速手語播報

電視中,“冬奧手語播報數字人”之是以能快速自如地将語音播報轉換成手語,是因為研發人員已經克服了重重難關。

張鵬說,手語除了有“方言”與“國語”外,其表達中諸如語序等一些規則和語音表達規則也不太相同。是以,“冬奧手語播報數字人”将語音轉化成手語時,需要自動學習進行語序調整。

“新聞主播的語速通常是每分鐘兩百多不到三百字,手語表達達不到那麼快的語速,但必須要能在正常合理的時間内把主要意思表達出來。這樣,由語音播報轉手語時,不能完完整整的逐字逐句的去翻譯,需要動态去精簡一些内容。”張鵬表示,這是一個難題,需要算法反複地去學習、調優。

為建構能夠了解、翻譯語音和手語的智能數字大腦,“冬奧手語播報數字人”系統以超大規模預訓練模型為核心技術,通過語義蒸餾及手語翻譯快編模型,實作新聞播報語音蒸餾成語義高度接近的手國文字,并翻譯成符合手語習慣的語序。最終,手語數字腦可以通過計算機模仿聽障人士的大腦,進行手語播報驅動。

此外,要讓數字人展現出高精度、高自然度的人物形象和手語動作姿态,也是一件難事。

為此,研發團隊自主搭建了多模态肢體動作、表情、手指同步采集系統。通過采集多模态動作捕捉資料,運用跨模态拟人生成算法對超寫實數字人進行自然、流暢的驅動和渲染,實作對文本内容的手語播報。

其中,通過肌肉綁定技術驅動實作面部采集,結合業内領先的語音識别及高清視訊合成等技術,呈現給聽障人群親切自然的冬奧手語播報服務。

收錄詞彙語句總規模超10萬,虛拟主播變身冬奧手語播報員

“冬奧手語播報數字人”。項目研發方供圖

與“虛拟AI主播”有何不同?

新亮相的“冬奧手語播報數字人”與常見的“AI虛拟主播”有何不同?

中科院計算機所所務委員、泛在中心主任陳益強向澎湃新聞記者表示,“虛拟主播”與“冬奧手語播報數字人”,身上都用到了虛拟人相關的技術,都追求形象的流暢性。

雙方最大的差別在于:一般而言,AI主播動作比較自然即可;手語播報數字人則需要通過手勢動作來實作表意的準确性和可懂度。

另外,傳統的AI模型主要是進行語音播報,基本不存在可懂度的問題;但AI手語人存在手語打得是否可懂的問題,它需要用豐富的、誇張的表情來提高手語的可懂度。

張鵬表示,手語播報數字人的應用場景廣泛,可以為新聞媒體提供全流程智能化的數字人手語生成服務,也可将聲音廣播内容轉化為手語,以便聽障人士可及時擷取冬奧會賽事相關資訊。

此外,推廣手語播報數字人可加速國家通用手語推廣落地,推動國家通用手語标準普及,為殘障人士平等參與社會生活創造無障礙環境。

繼續閱讀