盼望着,盼望着,春天的腳步近了,雪容融也終于正式上崗,迎來了自己的主場——2022北京冬殘奧會。
本屆冬奧會不僅是運動員們的競技舞台,更是科技公司“秀肌肉”的絕佳舞台。諸多科技亮點之中,大家可能都注意到了,冰墩墩和雪容融有一位共同的“同僚”——手語數字人。
2月4日晚開幕的冬奧會上,央視新聞AI手語主播正式上崗,陪伴聽障人士見證了一場場精彩絕倫的比賽。即将開幕的冬殘奧會,這位手語數字人也義不容辭,将披挂上陣,讓聽障人士實時感受冰雪運動的魅力。

創造豐厚的冬奧遺産,為國家、主辦城市、人民群衆帶來長期的、積極的收益,也是成功辦奧的重要标志之一。在日常生活中,手語數字人能不能繼續發光發熱,為聽障人士提供服務呢?
我們關注到,3月3日,央視新聞AI手語主播的制作者——百度智能雲曦,又推出“AI手語平台”,通過分鐘級生成手語合成視訊、手語主播實時直播等能力,為手語服務的普及難題,提出了科技平台化的新解法。
同時,百度智能雲曦靈還釋出了“AI手語平台一體機”,讓一些需要硬體互動的場景,比如醫院、銀行、車站等公共場合,插電即可提供手語服務,快速部署無障礙視窗。
平台化和軟硬協作的革新,正在讓手語數字人走上一條與社會價值長期對接、一同成長的進化之路。
科技巨頭們都在積極打造手語數字人,反映出哪些潮水的方向?數字生命與智能技術的溫情加速照進現實,這究竟意味着什麼?
數字生命覺醒時:手語數字人的能力體系
百度智能雲曦靈平台賦予手語數字人哪些特殊能力?我們不妨以人類手語老師的标準來審視一下。
有一種“難”,叫朱廣權的手語老師,想要實時且準确地翻譯出朱廣權的妙語連珠,千挑萬選的央視手語老師有時也難免手忙腳亂。而在此前與朱廣權的線上pk中,這位由“百度智能雲曦靈”打造的首個AI手語主播,面對朱廣權不斷抛出的超高速順口溜,立馬就能做出反應,表現出流暢、精準的業務能力。
綜合來看,手語主播的華麗炫技,以及冬奧會上的紮實服務,來自百度智能雲曦靈平台提供的三個方面的基礎能力:
1.了解能力。
真實世界中,很容易受到噪音幹擾,人類手語老師必須聽清、聽懂新聞内容,不然翻譯出來也可能是錯誤的,一通比劃猛如虎,但無法真正投入使用。
想要聽清,需要領先的語音識别能力。百度智能雲曦靈平台融合了百度自然語言處理技術,成熟領先的全雙工ASR(Automatic Speech Recognition)語音識别模型,近場中文國語的識别準确率,能夠達到98%以上。
輕松搞定各種語音内容,即使段子手朱廣權的神級語速也不在話下,這為後續數字人的手語翻譯打下了堅實的基礎,使得AI手語平台一體機更好地應用于不同場景中。
2.翻譯能力。
感覺之外,手語老師要分析、歸納重要資訊,根據語句整體意思進行精煉和語序調整,将其轉換成手語語言。
一些廠商研發的手語數字人直接采用“手勢漢語語料”,好處是無需重新标注,節省時間,問題是生硬地按照說話順序将手語手勢連接配接起來,并不能算是“人類高品質手語”。
舉個例子,“我想回家”并不是将這四個漢字依次比劃出來,而是按照“家”、“回”、“我想”的順序來表達。
是以,想要翻得準,手語數字人必須學會自然手語語序。百度智能雲曦靈平台就基于“國家手語文法規則”,聯合手語語言學專家,特殊教育專家、天津理工大學等,邀請上百位聽障學生做資料标注,形成了近千萬的高品質訓練資料。
有了資料,接下來就是模型設定與訓練。基于百度多年積累的神經網絡翻譯技術,設計了從中文文本到手語符号的翻譯方法,打造出了業内首個基于神經網絡的精煉度可控手語翻譯模型,讓手語數字人的翻譯可懂度達到85%以上,媲美主流的中英,中日等方向的機器翻譯結果。
3.表達能力。
手語中,手勢必不可少,還需要表情、口型、動作等肢體語言的配合,幫助聽障人士更好地了解。比如疑問句“吃飯了嗎“,不僅要做出吃飯的手勢,還要配上疑惑的表情,眉頭皺起、眼睛睜大。
要讓手語數字人聲情并茂、手舞足蹈地表達,尤其是3D人像,有着不小的技術難度。一些手語數字人動作過快,有時又存在卡頓不連貫的情況。為了訓練手語數字人的“聲台形表“,百度智能雲曦靈平台也是煞費苦心:
表情上,百度智能雲用4D掃描資料,積累了超1萬個臉部面4D資料,借助高精數字人“文字到形狀的跨模态面部表情生成技術”,能夠準确生成微笑、開心笑、wink、吹泡泡、白眼、思考等表情。口型合成準确性達98.5%,a和e這樣發音時表情接近的字母,都可以細緻的區分。
驅動時,通過個性化TTS,根據輸入的文本/語音資訊來進行自适應,結合多種預置動作,驅動數字人的唇形、肢體、表情、手勢等自動生成。多模态的手語表達,能夠傳遞出更豐富、準确、易于了解的資訊。
同時,百度智能雲曦靈平台搭載的開放域對話平台PLATO-XL,是百度基于百億級訓練參數、多年搜尋及知識圖譜積累而訓練出來的,被認為是目前最大規模的中英文對話模型。通過它可以快速驅動數字人實作直播、動畫等内容,達到多場景下的實時溝通。
縱觀手語數字人的能力體系,不難發現,頭部科技公司相繼推出了自己的手語機器人,除了展現科技的人文關懷之外,還隐藏着技術發展的必然。
必須在算力、資料、算法三方面都有強大的能力,在語音、視覺、NLP、知識圖譜等領域都有領先優勢,才能讓手語數字人真正覺醒在螢幕前、生活中。
百度作為國内AI 技術布局更完整的公司,能最快地實作手語數字人的大規模應用,原因正在于此。
數字生命的平台化複制:手語數字人插上産業之翼
在冬奧會和即将到來的冬殘奧會上的大規模應用,幾乎代表了現階段數字虛拟人的最高水準,是典型的數字生命:具備完成複雜目标的能力(通過手語翻譯傳遞賽事資訊),以及實時學習進化的能力(收集資訊、實時互動、做出回應,而非提前錄制)。
正如未來生命研究所的創始人:邁克斯·泰格馬克所說,數字生命是一種能夠自我複制的資訊處理系統,實體結構是其硬體,行為和“算法”是其軟體。這決定了,手語數字人必須向軟硬協作、規模複制的方向發展。
3月3日,百度智能雲曦靈釋出AI手語平台和“AI手語平台一體機”,或許正在為手語數字人插上産業騰飛的翅膀。
為什麼這麼說?手語數字人雖好,卻不能低估技術産業化的難度,至少有幾座大山橫亘在前面:
第一座大山,是效率之謎。
對于新興的手語數字人領域,制作難度大、周期長、技術門檻高,服務的群體相對較小,很多行業和企業在引入之前都會顧慮,會不會需要大量的人力财力成本,會不會效果不好沒人用,思前想後就是等等再說。要讓全社會聽障人士都享受到技術紅利,還是要尊重産業規律,降低新技術的應用門檻,真正讓手語數字人的制作“降本增效”。
百度智能雲曦靈的手語數字人平台,出現得恰逢其時。“AI手語平台”具備“視訊手語合成”“直播手語合成”“文本轉手語”“語音轉手語”四大功能,可實作普通視訊合成為手語視訊、實時直播中增加手語畫面、文字翻譯為手語、語音實時翻譯為手語等多種效果。AI手語平台可搭載在各類APP、網站、小程式中,讓聽障人士也能輕松實作線上社交、娛樂休閑、課程學習等各類需求。
同時,百度智能雲曦靈還設定了三大平台,讓手語數字人可以被快速、标準化、高效地生産和傳遞。比如在人設管理平台上,根據不同的場景搭配設定不同的人設,比如銀行中引入的手語數字人可以專業、嚴謹,景區中使用的手語數字人則親和、活潑等,适應千行百業的需求。
平台化、标準化、體系化的能力,使得AI驅動的2D數字人,生産周期隻需要幾個小時,3D虛拟偶像一兩個星期就能開發出來,輕松飛越效率這座大山。
第二座大山,是體驗之困。
大家可能注意到了,在百度智能雲曦靈釋出 “AI手語平台一體機”之前,幾乎所有的手語數字人都是以軟體形式存在的。專門打造一款手語數字人硬體,真的有必要嗎?
從根本上來說,我們所知的所有生命形式都有着生物“硬體”的載體,有技術人員認為,“生命3.0”階段的數字生命,不僅要具備設計自身軟體的進化能力,還能設計自身硬體。
很多銀行、醫院等都在引入人形智能機器人,來增加使用者的體驗感。具體到手語數字人,作為未來在社交、電商、直播、客服、導遊等領域的服務載體,企業與聽障使用者互動的關鍵入口,如果隻能通過軟體來互動,顯然是不夠友善。
但是,開發一個人形手語機器人又涉及到一個相當漫長且複雜的産業鍊,很容易讓企業望而卻步。
百度智能雲曦靈此次釋出的全離線一體機V3以及端雲結合一體機P3,搭載了“AI手語平台”的核心功能, AI手語數字人可以像手機、電腦一樣被快速、批量生産,到線下生活的各個角落中服務聽障人群。
其中本地全離線一體機,在一些網絡情況不佳的區域,比如偏遠的山村、景區等地,依然能夠進行手語翻譯、人像渲染等操作,提供文本轉手語、語音轉手語等服務。
端雲結合一體機,則通過雲端計算+本地渲染的形式,也能靈活地實作手語服務。
第三座大山,則是進化之難。
衡量一個數字生命的标準之一,就是具備自主學習、自主适應、自我進化的能力,這需要全面的AI能力支撐。目前,整個手語機器人的産業鍊還沒有被完全打通,盡管一些企業打出了“手語數字人“的概念,但隻能在部分場合、部分視訊中露臉。
推動手語數字人在真實的産業場景之中不斷更新,是AI産業化中必不可少的一種能力。在中國的AI科技企業當中,像百度這樣具備從底層算力、開發架構到産業解決方案的全棧AI能力的公司,并不多見。
目前看來,百度的全棧AI能力融入到百度智能雲曦靈當中,給數字人更新能力帶來了無限潛力,也将加速手語數字人這一“新物種“的全場景覆寫。
通過與産業的深度融合,手語數字人也将變得越來越複雜和聰明,進化成為真正的數字生命。
目前,大陸有近2780萬聽障人士,而手語翻譯老師隻有1萬人左右,許多場景中無法快速跟上手語服務,在飛速發展變化的社會中,很容易造成新的不公平。
而百度智能雲曦靈的AI手語平台,讓手語數字人的規模化複制變得更加可行;“AI手語平台一體機”,讓數字人技術帶來的體驗更加豐富和多元。
數字生命的平台化複制,是社會責任不會變成空談的前提,意味着商業價值與技術普惠的一次和解,也預示着手語數字人市場的快速打開。
AI産業的無形之變:手語數字人帶來的連鎖反應
平台化和軟硬一體,規模複制的産業落地效率與直覺的體驗價值,讓百度智能雲曦靈在手語數字人的競争中,已經獲得了先發優勢。
技術無障礙除了讓殘障群體受益,還将給企業自身和整個産業帶來意想不到的收獲。手語數字人的普及,換來的是AI閱聽人的擴大和手語服務的延展,會讓許多我們習以為常的場景出現明顯的擴容與創新,并引發一系列連鎖反應。
首先,AI手語解決方案不斷複制到各行各業,讓聽障人士樂于去用,企業和機構樂于引入手語服務,讓手語數字人的落地場景會愈加豐富,在公益屬性、社交、傳播營銷等領域的價值将一一顯現。
其次,數字人作為公認的虛拟世界入口,帶來巨大的商業空間,已經成為網際網路科技企業的下一幕競争焦點。搶占數字人規模化生産的機遇,培養B端市場的信任感與忠誠度,有助于在接下來的市場競争中占據優勢。
更進一步,百度智能雲曦靈在技術的領先性和全面性,決定了其有資格參與甚至主導數字人行業标準的建立,将吸引大量開發者和産業鍊上下遊加速彙聚到生态體系内,推動技術不斷疊代和應用持續創新,預先探索數字人的商業模式,帶動雲計算、AIoT等領域的增長,對于中國數字經濟的發展有着重要作用。
以前提到智能科技,大家可能更多地關注獨角獸、投融資、數字經濟等宏大概念,而現在,手語數字人這樣的智能新物種,正在給殘障群體日常生活中的“小事”帶來便利。
從冬奧主播到AI手語平台,百度智能雲曦靈向世界證明,隻需要打開一個通道、接通一座橋梁,技術紅利就可以源源不斷地彙聚到那些需要它的人群當中。
許人類一個更美好的未來,這或許是AI故事裡,最溫暖人心的章節。