天天看點

69歲鄧麗君與30歲周深同台飚《大魚》,藝術3分鐘,技術10年功

作者:IoTWANT

2022跨年晚會最大亮點,莫過于69歲鄧麗君(數字虛拟形象30歲左右)與30歲周深跨時空同台。一曲《大魚》,合音部分充分發揮了周深唱功的天籁空靈、超穩氣息與鄧麗君虛拟人聲的甜美幹淨、獨特共鳴。舞台上,一女一男,一老一新;一唱一和,一張一弛;一颦一笑,一虛一實,逼真的全息呈現,令無數螢幕内外觀衆動容。殊不知,台上一曲3分鐘的合唱,台下技術攻關卻用了10年有餘。

要達到以假亂真的實時全息直播,需要融合以下技術:

    • 1、3D模組化。實作鄧麗君人物實時全息投影,首先要對人物模組化。要達到逼真/以假亂真的效果,就需要通過生平的影像和實物資料,建立數字化的3D模型。3D模組化軟體核心技術與标準掌握在歐美手中(AutoCAD/3DMAX/Maya/Rhino),歐美廠家在此領域深耕了10幾20年,好萊塢的大片已經大量、成熟地應用3D模組化工具了(可以說,萬物可模組化:人物/街道/城市/地球/外星球-比如阿凡達的潘多拉星球);近年來在國家政策支援下,國産3D模組化軟體廠家陸續出現。在細分垂直領域與雲化,或是國産3D模組化團隊的彎道超車的機會。
    • 2、動作捕捉。模型有了後,還要動起來。而驅動模型的是資料,一整套基于真實人物動作的系列、連貫、自然的資料。而這些動作資料目前采集的比較好的手段,就是動作捕捉。同樣,動作捕捉技術國人也在跟随階段。動作捕捉需要三個階段過程:一是傳感器,高精度要求的位置傳感器(陀螺儀/加速度傳感器,或者用紅外錄影機采集),采集位置資訊/資料;二是傳輸器,資料如何傳輸,儲存在本地後續處理軟體,或是上雲端應用;三是分析器,就是動作資料進一步模組化(這裡的模組化是建立動作運動狀态模型,運動場景模型,比如不同文字咬字發音的不同嘴型模型,拿麥克風及表演手勢模型),對動作資料進行分類、分析,生成不同場景的可調用的場景分析模型,并在後續組合應用。
    • 3、全息投影。全息投影技術難在投影媒體。想像科幻電影中以空氣為媒體做全息投影,目前技術上還差10年左右。我們現在能看到的電視上的、展廳裡的、博物館内的全息投影,其背後技術得益于20年前高成本效益的全息膜的發明與應用。目前全息投影更多用的是水霧(可以在音樂噴泉+水幕電影的更新版場景中看到)、雷射旋轉(各類科技展廳中在倒金字塔玻璃裝置裡,常看得到)還有45度全息膜(舞台表演常用)。
    • 4、聲音還原與合成。這塊技術相對全息投影成熟些,但要達到随便采集個人聲就能讓這個人聲合成歌曲,那還需要5-10年。人的聲音本質是響度、音調和音色。模拟鄧麗君聲音的難度還是在音色和氣息。讨巧的做法是先找一個跟鄧麗君聲音比較像的人聲,做替身或聲優,把預先的歌曲錄制好,再在音色上,用現有市面上比較可用的工具(Vocaloid/UTAU/Cevio Creative Studio/MUTA),進行調整。
    • 5、5G。實時的全息投影,先要對真人動作進行動作捕捉,然後再将捕捉資料賦到3D人物模型上,再通過全息投影将3D數字虛拟人投影出來。而這個實時過程的關鍵環節是資料傳輸效率,也就是資料的一緻性和延遲。目前,在4G的通信水準下,VR傳輸大緻有40秒延遲。這種延遲水準是完全沒辦法支撐直播。而實時的動作捕捉,則需要5G無延遲保障。在肉眼基本能接受的精度、清晰度下,5G的延遲也隻能控制最多以100毫秒為機關。更為逼真的全息投影還需要3-5年後6G的技術加持。
    • 春晚的洛天依、跨晚的鄧麗君,用全息技術呈現數字虛拟人技術,仍不完善,仍在快速疊代中。技術的突破是遲早的事,但數字虛拟人,特别是用已故的知名人物,返場做數字虛拟人,總會有很多争議。不管是在論理上,還是在法律,甚至是在哲學層面,都會讓人深思技術的正反兩面性。像是這次跨晚,線上夥伴表達的更多的是不建議、不了解、不贊同。不知道你是怎麼想的,歡迎評論區評論。

繼續閱讀