天天看點

虛拟人的手工前世和AI今生

虛拟人的手工前世和AI今生

寫在前面

這一次,我們來個有點跨界的主題:分三篇探讨一下虛拟人、虛幻引擎,以及兩者将如何影響獨立影視創作。

三篇預計為:

一、虛拟人的手工前世和AI今生

二、虛幻Unreal如何成了最适合做影視的3D引擎

三、虛拟人和虛幻引擎對獨立影視創作的影響:可能的和不可能的

這裡的“獨立”,指的是有駕馭能力的個人和獨立工作室。

就像曾經輝煌一時的中小型計算機最終被微型個人計算機取代了主流市場地位,七兩未必不能撥千斤。獨立創作者,在新技術的加持下,是否有可能撬動目前的影視創作生态?

且就慢慢叙來。

作者比較喜歡先定義讨論範圍,這次也不例外:本篇讨論的是什麼虛拟人?

虛拟人是目前的熱門詞彙,是以也成為了标準的籮筐概念:什麼都可以往裡面裝,比如二次元主播,企業人工智能客服,元宇宙的NPC……都可以自稱虛拟人。

而本系列真正關注的目标,是那些“照片級”超寫實虛拟人。我們期待這種以假亂真的虛拟人在某種程度代替真人演員,在未來參與到影視創作中去。

虛拟人的幾個時代

目前網上對虛拟人的發展曆史有一個比較通用的四階段劃分,不知道是哪位大佬給定義的。我們不妨遵循這個劃分,先做一點簡單的回顧。

第一階段:八十年代 萌芽期 初代歌姬

讓我們從林明美開始:公認的初代虛拟歌姬,第一個虛拟偶像。

對于動漫迷而言,林明美有更讓人熟悉的身份,那就是80年代日本經典卡通片《逾時空要塞》的女主角,她那首著名的《可曾記得愛》,在濃縮動畫劇集情節的84劇場版的結尾高潮時唱起。

《可曾記得愛》是在逾時空要塞Macross向入侵的外星軍團發起總攻的時候向整個戰場唱起的。明美作為人類的頭号歌姬,在人類文明面臨着外星敵人毀滅性的打擊之時,唱出了這首歌,激發了所有人的鬥志,更讓部分外星軍隊産生文化共鳴而起義,一舉扭轉了戰局。男主角一條輝(也是前男友……)在明美的歌聲中,駕駛變形戰機最終突入敵軍腹地,給予了外星大首領緻命一擊。

這首星際大戰中6分鐘的完整Live,戰火與歌聲的交織,極緻的壯麗和浪漫留下了動畫史上永遠無法超越的經典一幕。可以說,明美一曲之後,卡通片裡再無虛拟歌姬,出道即是巅峰。

林明美是虛拟偶像的開端,動畫公司以她的虛拟形象發行了唱片,虛拟人第一次進入了現實世界。而經過近40年的時間,明美的形象仍深入人心。

從動畫水準來看,當年巅峰之作的純手繪動畫現在已徹底被3D動畫潮流所取代,但明美至今讓人津津樂道的原因和技術無關,純粹基于人物設定以及大氣磅礴的故事背景所襯托出的“宇宙歌姬”符号。

是以用明美作為本系列的起始還挺合适的:

林明美就是一個從影視中走出的虛拟偶像。可以這樣說,明美給了我們一個啟示:成功的虛拟偶像,除了技術支援,更重要的是,他/她必須擁有作品所賦予的靈魂。

第二階段: 21世紀初 探索期 影視娛樂的試水

時間一下就跳到了2000年。

(從這個時間跳躍上,我們也能感覺到,初代歌姬林明美是多麼牛的存在……)

在這個時期裡,虛拟人終于擺脫了傳統手繪的限制,第一代3D虛拟人偶像開始出現, 比較有代表性的是2007年在日本出現的初音未來。

在這個階段,虛拟人偶像都是簡單的二次元形象,也契合了當時3D的CG水準:複雜的做不好,做點簡單的二次元形象正合适。

有趣的是,初音未來其實是一款歌曲合成軟體,當時的 CRYPTON FUTURE MEDIA 以雅馬哈的 Vocaloid 系列語音合成程式為基礎開發音源庫,并以此制作發售了虛拟歌姬角色主唱系列,初音未來也由此走進大衆視野。

而中國對标初音未來的虛拟歌姬洛天依則在2012年出現。

值得一提的是,虛拟歌姬發展的關鍵,被實踐證明是同人創作的UGC。

當時初音未來發售後,大量翻唱歌曲就被發表在日本的論壇上;公司随後開放了二次創作權,鼓勵粉絲創作;加上其本身沒有詳細設定,日本UGC網站上出現大量粉絲制作的美術人設/音頻/視訊内容,甚至還誕生了一些“大神”級别的同人創作者,極大豐滿了初音的内容内涵,更讓初音未來放大了粉絲圈層,并随着粉絲創作的洗腦神曲屢次出圈。

而中國的洛天依也走出了類似的道路, 經曆了幾年PGC(專業内容創作)營運情況不佳後, 公司開始鼓勵UGC創作,大量同人作品湧現,洛天依這個虛拟偶像才真正站穩了腳跟。

這個時間段裡, 電影工業裡一個著名的虛拟人也出現了, 這就是2001年電影《指環王》裡的咕噜(其實稱之為虛拟怪物更恰當)。

咕噜完全由動作捕捉技術和CG技術産生, 前所未有的動作捕捉加3D CG形象的合成效果驚豔了世界。 現在基于動作捕捉的3D熒幕形象很平常, 但當年咕噜可以說在電影行業轟動一時。

而到了2008年,神作《阿凡達》又達到了另一個高度:全程運用動作捕捉技術完成表演,CG技術創造整個虛拟世界,此乃後話。

讓我們深究一下,為什麼虛拟人的第一次發展是從2000年左右開始的?那個時間點發生了什麼事情呢?

在1999年,NVIDIA釋出了它标志性的産品GeForce256,這個系列産品開始正式支援3D圖形運算裡特别重要的T&L功能(坐标轉換和光源)。

要知道,3D圖形的解算就是由各種複雜的坐标轉換和光源計算組成的。在GeForce256之前,所有的坐标處理和光源運算都靠CPU處理;而當圖形晶片具有T&L功能後,CPU就徹底從繁重的圖形計算中解放出來。

從此,圖形晶片可以真正被稱為GPU,和CPU并駕齊驅了。

或許正由于個人計算機3D圖形加速能力的突飛猛進,向大衆普及了3D圖形加速的使用場景和能力, 帶來了3D虛拟人的第一次發展。這個時期,市場規模還比較小,動捕、CG等關鍵技術還不夠成熟,也沒有足夠的資源支援,可以說是娛樂業關于虛拟人的試水階段。

第三階段:2016-2020 成長期 技術突破帶來的應用普及

2016年到2020年這幾年一般被劃分為虛拟人的第三個階段。

這幾年裡有哪些虛拟人出現呢?其實讓人能記住的并不多。必須提及的是,這個時間裡,誕生和發展了世界首位虛拟主播,即YouTube 上的“絆愛”。

2016年12月1日,YouTube頻道“A.I.Channel”開設,“絆愛”成為世界上第一個自稱虛拟主播的視訊部落客,從此确認了虛拟主播VTuber的概念,開啟了二次元風格的虛拟人時代。

出道 3 個月,“絆愛” YouTube 粉絲數就超過了 20 萬;到了 2018 年 7 月 15 日,絆愛的主頻道訂閱人數突破 200 萬人。到2022年,其YouTube主頻道和遊戲分頻粉絲總數超 400 萬。

不過,恰好在不久前的今年2月26日,“絆愛”在舉行了線上演唱會“Hello World 2022”後,宣布進入“無限期休眠”。初代虛拟主播走完了完整的演藝生涯周期。

和真實世界的明星相比,虛拟明星的興衰背後也沒有更多新鮮事。不外乎就是粉絲關注度的逝去,粉絲群體的割裂,公司的營運失誤,如此這般。

虛拟偶像也走出了人格化的演藝圈道路。

而這幾年間,技術上又發生了什麼呢?

除了3D領域的模組化,渲染和動作捕捉技術日益成熟;這幾年還是基于深度學習的人工智能技術爆發式增長的時期。

2016年3月,英國DeepMind公司基于深度學習的圍棋程式ALphaGo以4:1擊敗頂尖的職業棋手李世石,成為了第一個擊敗職業九段的計算機圍棋程式。作為标志性的事件,人工智能走進了公衆的視野,引發了AI的全面火熱。

在這個階段裡, AI能力也開始運用在虛拟人身上,主要展現在AI語音的能力與虛拟人服務形象的結合,例如2018年搜狗和新華社推出的AI主持人,以及2019年浦發銀行和百度合作開發的數字員工“小浦”等等。

第四階段:2020至今 新時期 新的氣象

近兩年,“虛拟人”成了熱門話題。在目前語境下,大家了解的“虛拟人”多數是指所謂“照片級”的超寫實虛拟人。

或許有幾方面原因讓目前“虛拟人”的标準變得如此之高:

軟硬體的發展終于足以支撐這一終極水準;

使用者的口味更挑剔, 典型案例也提高了公衆預期;

資本也需要虛拟人産業講出新的故事。

歸根結底,最重要的還是使用者期待有這種以假亂真的虛拟人體驗。超寫實的虛拟人物有更好的代入感,也能更好的接入現實世界的商業資訊。

虛拟人這股熱潮到了2021年愈加明顯,網際網路不同領域的公司都在賣力發展虛拟人業務:

2021年5月,AYAYI超寫實數字人推出,目前小紅書粉絲12.6w,抖音粉絲8.3w。

2021年6月,B站宣布在過去一年裡共有超過3.2萬名虛拟主播在B站開播。虛拟主播成為B站直播領域增長最快的品類。新生代虛拟主播更加多樣化且更接地氣。

2021年11月18日,NVIDIA推出全方位的虛拟化身平台Omniverse Avatar,CEO黃仁勳現場示範了由這個平台生成的能與人自然問答交流的“迷你玩具版黃仁勳”Toy-Me。

2021年12月31日的跨年晚會,不約而同地,多個主流衛視平台都引入了虛拟人元素,其中最出彩的當屬周深和虛拟人“鄧麗君”同台演唱的《小城故事》。

且不論各家節目最終效果如何,多個虛拟偶像同一時間登陸各家主流跨年晚會,這本身說明了很多問題。

而要說目前國内最火的虛拟人偶像,當屬柳夜熙。

2021年10月31日,抖音美妝虛拟主播柳夜熙,第一條視訊釋出即登上熱搜,漲粉上百萬;截止到現在,抖音粉絲數量突破了900萬,且仍在明顯增長中。

如此兇猛的粉絲增長着實讓人眼紅,另一方面,一片大好的形勢下,柳夜熙有個小小的隐患,那就是她的視訊釋出頻率比較低。這是由超寫實虛拟人的視訊制作門檻和周期決定的。

柳夜熙背後的團隊有一百多人,三分之二都是内容創作部門,這樣強大而專業的團隊,每次3-4分鐘的高素質視訊内容,基本上一個月一條的速度。這差不多是目前極限水準了,超長的生産周期很容易讓虛拟偶像錯失流量宣傳節點。

試想一下,如果柳夜熙的視訊産出速度提高十倍呢?

如果有一種技術能讓團隊每三天輸出一條柳夜熙級别的短劇視訊,影視行業或許就要被改寫了。

盡管無法一夜之間做到這點,但計算機技術的發展正迅速降低着虛拟人内容制作的門檻。這一天的到來或許比我們想象得更快。

接下來,我們花點時間,來回顧技術如何推動虛拟人發展到了今天的水準。

虛拟人生産方式的演變

話接上一節,我們先來看看目前虛拟人的生産成本。

根據行業資料,目前打造一個Q版或者二次元形象的虛拟偶像,成本在10萬;

如果是美型偏寫實的虛拟偶像,成本就到了40萬;

若想制作一個類似柳夜熙的超寫實虛拟人,據稱行業價格在百萬;

而虛拟人動畫的每分鐘成本,也對應的從幾萬一直到近百萬。

這種成本,不是獨立内容創作所能承受的。這裡還有獨立工作者的空間嗎?如果每個人都能自由打造自己的超真實虛拟人,是多麼酷的事情。

我們不妨深入虛拟人的各個生産環節,來探索究竟:

打造以假亂真的3D人像:3D雕刻刀、相機陣列和光場重建、捏臉遊戲

3D雕刻刀

把一個虛拟人的樣子給打造出來,行話叫做虛拟人的模組化。

最傳統的3D模組化方式就是手工打造。

和現實世界類似,運用3D世界的雕刻工具比如ZBrush軟體,一點點精雕細刻而成。本質上這是計算機3D藝術家的傑作。

事實上,遊戲世界裡各種充滿着想像力和張力細節的怪物角色,都是在做了原畫設定後,通過手工方式慢慢打磨而成。

3D藝術家的鬼斧神工,把隻存在想象中的人物栩栩如生的帶到了使用者觀衆面前。

相機陣列掃描和動态光場重建

遺憾的是,隻靠藝術家的雙手,很難滿足工業生産所需要的效率和量級;而且,人工打造高精度虛拟人模型,成本非常高昂。

為了普及3D虛拟人的生産,一些聰明的人們繼續探索更高效的模型産出方式。

最直接的思路就是3D掃描采集。

目前主要的3D掃描方式有兩種:相機陣列掃描和動态光場重建。

兩個有點陌生的詞彙,我們一一看過來。

首先是相機陣列掃描,這是什麼技術呢?

在2021年3月,Epic在官網宣布收購了一家叫做Capturing Reality的公司。

這是一家“攝影制圖技術”公司。他們家開發了一個有點神奇的軟體Reality Capture:隻要使用者拿手機對着物體拍一圈,所有的照片輸入軟體計算,就能生成一個物體的3D模型。

這個攝影制圖法是目前行業裡用于人臉模組化的最主流方案,使用者可以隻用一台相機完成品質還OK的模型掃描,也可以花力氣組建一個相機光源陣列來實作高精度的拍攝重建。

不難了解,這個方法是利用了不同圖檔之間的相同特征點來進行3D空間的重建。是以,照片的分辨率,相機内外部參數的控制,人臉光線的均勻程度等因素都會影響到最終的模型品質,需要一個相對理想的拍攝環境來進行拍攝,國内就湧現了一些專門的掃描技術提供商,承接了不少影視業務。

這種方法盡管相對簡單,但有着模組化細節上的局限性。最明顯的一點是,攝影制圖法在重建虛拟人的皮膚細節時,會有一種力不從心的感覺。

如果我們把鏡頭怼到虛拟人臉上,扁平的人物皮膚就會立刻露出馬腳了。

如果虛拟人隻是做做帶貨直播,或在遊戲裡互動也罷了;若希望打造出影視級别的超寫實虛拟人,臉部大特寫是必須的,皮膚真實感這一點無論如何繞不過去。

那能否在攝影制圖法重建的3D模型之上,依靠藝術家的雙手在模型上重制真實的皮膚細節呢?答案是否定的,盡管3D藝術家有着高超的技藝,但真實皮膚有如一座高峰攔在面前,難以逾越。

為什麼真實質感的皮膚難以手工打造?

這是因為,人的皮膚在細節上有着特别複雜的表現。和那些滑溜溜的虛拟人臉部皮膚完全不同,人類真實皮膚具有着相當的複雜性:

當日光進入人體後,不同波長的光會有不同的吸收,對應着不同的散射距離和衰減速度;此外,進入皮膚的光線還受到皮膚表層透光度,毛孔和皺紋結構甚至是皮下組織結構的影響。

是以,靠着藝術家的手工一直無法還原出皮膚的照片級真實感,純手工打造擁有毛孔結構細微變化的皮膚太難了。

這個難題一直到了2008年才有了轉機,技術宅發明了一種黑科技,能對面部皮膚進行高精度三維重建,在精确的臉部幾何模型之上,再準确生成表面的皺紋和每個毛孔的結構細節(感慨一下, 太牛了……),同時還用實體學公式描述了不同波長光線在皮下組織的衰減,最終才得到了“照片級”真實的皮膚質感。

這就是影視行業裡大名鼎鼎的LightStage,或許是這個星球上最牛的人臉掃描技術,也是光場動态重建技術在工業界最有代表性的系統實作。

LightStage是由美國南加州大學ICT Graphic Lab的保羅·德貝維奇(Paul Debevec)所上司開發的三維采集重建平台系統。第一代系統于2000年誕生,從誕生的第一天就受到了廣泛的關注,到現在已經發展到了LightStage6,最新一代系統被命名為 LightStageX。

LightStage所采用的光場掃描的技術出了好些頂級圖形學論文。對普通讀者來說,隻需要了解一點:LightStage光場掃描通過采集人臉各種角度的明暗分明的光照資料(如上所示), 最終計算還原出超高精度的人臉表面資訊。

這種技術能很好的重建人臉上每個毛孔的結構。通過LightStage掃描重建的美國前總統奧巴馬人臉,上面的毛孔細節清晰可見,着實讓人驚歎。

有趣的是,攝影制圖法和大殺器LightStage都采用類似的球形相機陣列來拍攝獲得人臉不同角度的資訊。但明顯的差別是:前者用柔和均勻的燈光拍攝,要避免高光和明暗不均勻;而後者則特地拍攝明暗分明的人臉。兩種系統的用光理念南轅北轍。

是以,觀察陣列拍攝時的用光方式,讀者可以一眼辨識出相機陣列背後所采用的是攝影制圖技術,還是動态光場重建技術。

當LightStage2成型之後,索尼影業旗下Imageworks的視覺效果主管Scott Stokdyk在Light Stage團隊的配合下,用這個技術為電影《蜘蛛俠2》制作了演員阿爾弗雷德·莫利納(“歐克醫生”Doc Ock)和托比·馬奎爾(“蜘蛛俠”)的虛拟替身。這項技術在近40個鏡頭中使用,幫助這部電影獲得了2004年奧斯卡最佳視覺效果成就獎。

LightStage2在更多的電影制作中被使用,包括了2005年的電影《金剛》,以及2006年的電影《超人歸來》,後者用LightStage2掃描制作了一個虛拟數字超人角色,在很多動作動作鏡頭裡都有運用,這個虛拟數字超人幫助這部電影赢得了奧斯卡最佳視覺效果提名。

虛拟人的手工前世和AI今生

《超人歸來》

而到了成熟的LightStage5,則被廣泛用于好萊塢的各種大片,很多都是耳熟能詳的,比如《本傑明巴頓奇事》《蜘蛛俠3》《阿凡達》……

嚴格上來說,LightStage這個大殺器的核心技術光度立體法并不測量幾何結構,還是要靠類似攝影制圖的方法來擷取人像的準确3D模型,然後再用光度立體法對模型表面進行高精度細節的計算 - 這就是Light Stage能還原皮膚毛孔結構細節的原因。也正是以,LightStage掃描技術能夠得到衆多好萊塢大片的青睐。

不過,盡管LightStage是個有公開論文的成熟系統,其最核心的模型表面高精度細節計算并沒有公開的解決方案,很多算法細節無從知曉,導緻國内長期以來一直沒有這種級别的掃描技術出現。

由于核心算法的缺失,國内市面上大部分球形掃描系統使用的依然是上面提到的攝影制圖方式,采用球陣隻是為了控制光照均勻以及相機标定等,這樣的系統在最關鍵的皮膚細節精度上無法和LightStage匹敵。

(據說随着Reality Capture軟體的更新,攝影制圖法現在勉強能接近毛孔級别的細節,也算一種經濟适用的重建方式。)

最近國内已有幾家企業研究實作類似Light Stage的系統,希望國内早日用上Light Stage級别的三維人臉重建。

除了Light Stage之外,還有另一種動态光場重建概念,這種所謂“光場成像”的思路更簡單粗暴:不管物體模型和表面材質,直接從各個角度采集三維物體在各種條件下的光線反射資訊,然後在渲染時對采集的光線進行重組輸出,就可以讓人看見“真實”的三維世界。

大家是否注意到了,所謂打造“真實感世界”的頂級方法,最後都返璞歸真:

把所有的資訊都盡可能采集一遍,重組計算後輸出。

無論是三維重建,還是後面各種基于大資料融合的虛拟人驅動方法,其核心思路無不如此:從現實中來,回到現實中去。

大資料加持的捏臉遊戲

花了一些篇幅介紹了這個星球上最牛逼的三維重建技術,但結論卻有點無奈:這樣的人臉掃描重建成本和門檻都過高了,獨立影視創作不用指望這種核彈級别的系統。

但沒關系,我們還有大資料和人工智能。

這裡的想法也很簡單,雖然沒有高大上的系統直接掃描真人,但如果可以利用現成的掃描資料,再結合類似遊戲捏臉的互動系統,是否能面向普通使用者提供照片級超寫實虛拟人的生成服務?

真有人這麼做了,這就是Unreal虛幻的MetaHuman Creator。

(是的,又是虛幻)

虛拟人的手工前世和AI今生

MetaHuman Creator互動界面

值得一提的,MetaHuman Creator是一個雲端渲染服務,使用者通過網頁連接配接和進行互動操作,所有的資料運算和生成都是雲服務渲染;而雲端背景使用的,就是Unreal虛幻引擎本身。

MetaHuman初看上去似乎是一個很簡單的系統,頗有點遊戲建立角色捏人臉的感覺。

但簡單的背後,其實是多門計算機學科最新技術的結晶:

超大規模的4D人類面部掃描,基于機器學習的資料處理和融合,實時3D引擎支援,雲渲染服務……無數計算機科學家和工程師的智慧打造出了一個普通人可以上手創作的超寫實虛拟人生成系統。

(注: 暫時沒更多資料披露,但從資料結果來看,MetaHuman 4D掃描資料應該類似LightStage的光場掃描重建)

事實上,目前MetaHuman基于大資料的模型融合隻完成了人臉部分——當然這也是最難的部分;而身體部分,僅提供了傳統的基本樣式選擇. 原因很簡單,尚沒有全身模型的掃描大資料支援。

盡管如此,MetaHuman Creator實作了面向普通消費者的超寫實虛拟人生成服務(居然還是免費的, 線上生成的虛拟人可以直接資料導出使用), 這已經是一個很了不起的事情。

毫不誇張的說,MetaHuman Creator在虛拟人制作上實作了技術突破,極大簡化了超寫實虛拟人的創作過程,某種程度上,讓虛拟人制作真正飛入了尋常百姓家。

如果繼續替使用者考慮,一般人如何設計一個帥氣/漂亮的虛拟人呢,或許對着明星照片捏臉是一種方式。

但明星臉這種事情,往往涉及肖像版權;而在影視制作中,版權是個重要問題。

有辦法可以自行生成一個漂亮人臉嗎?

在人臉創作這個小細節上,大資料加持的人工智能又一次展示了它的巨大威力。通過深度學習技術,我們已經可以生成各種風格傾向的人臉。以下是作者基于公開的深度學習模型随機生成的一些東方明星人臉和歐美普通人臉。

虛拟人的手工前世和AI今生
虛拟人的手工前世和AI今生

以上都是純計算機生成的人臉圖檔, 但混在真人照片裡, 絕對真僞難分

如果哪天,MetaHuman Creator增加一個上傳人臉照片自動學習和比對捏臉的功能,那就真的是“一鍵喜提虛拟人”了。

順便提一下,前面提到過的虛拟人AYAYI,正是由MetaHuman Creator打造的。

到這裡,打造虛拟人模型的故事就差不多了。

在打造了3D虛拟人模型後,其實緊接着還有一項很有挑戰的工作——把人物模型各個部位正确地綁定到之後用以驅動動作和表情的控制器上。這就好比把皮膚和底下的肌肉和骨骼正确連接配接在一起,這樣靜态的模型才有可能被驅動起來。

在這點上,類似MetaHuman這樣的捏臉系統稍微好一點,畢竟是通過同一個原始模型衍生而來,内部的驅動機制可以統一做好;而對于直接相機陣列掃描得來的超寫實模型,綁定是一個很繁重的工作;這個領域目前也有了大資料和AI技術的加持,不再贅叙。

讓虛拟人動起來: 關鍵幀動畫、動作捕捉、AI驅動

關鍵幀動畫

在很長一段時間裡,我們驅動一個3D模型,無論虛拟人還是虛拟怪物,讓模型動起來的方法就是關鍵幀動畫。

關鍵幀動畫是容易了解的概念,有點類似黏土定格動畫,把黏土人偶擺出一個動作拍一幀,持續擺拍完成後再以24幀每秒的速度播放,就得到了連貫的黏土動畫。很明顯,打造這樣的動畫需要驚人的耐心。

關鍵幀動畫和黏土動畫的機制很像,讀者可以了解為把現實的黏土人偶換成了軟體裡的3D模型,制作者在時間軸上擺出模型的一個個動作(關鍵幀),軟體實作動作間的過渡,進而打造了一個3D人物的關鍵幀動畫。

人們想了很多方法去提高關鍵幀動畫的效率,但本質上,關鍵幀動畫還是由3D動畫師一幀幀手工摳出來的。

動作捕捉

和3D模組化一樣,從生産效率,輸出品質和人力成本等各方面而言,純手工的關鍵幀動畫方式都無法被工業化大規模生産流程所接受。自《指環王》的咕噜開始,動作捕捉技術走進了大衆的視野。

顧名思義,“動作捕捉”就是直接捕捉采集表演者的動作,然後去比對驅動虛拟人模型。這是目前虛拟人動作生成的主要方式。

動作捕捉這個事情,有一個有趣的路線區分,有點類似自動駕駛汽車感覺系統路線之争:

自動駕駛的核心是要通過傳感器感覺周圍環境,有兩種方式:純視覺攝像頭和雷射雷達。哪種路線更好,視覺派和雷達派至今還PK得不亦樂乎。

動作捕捉,也分為兩大派系,光學動作捕捉和慣性動作捕捉。

光學動作捕捉是在一個攝影棚四周架上一圈攝像頭,360度無死角對着表演者拍攝;表演者身上标記着很多反射紅外光的标記點(marker),通過多攝像頭對反光點的同步追蹤,計算機計算得出演員動作。

慣性動作捕捉呢,則是在人體特定骨骼節點上綁上慣性測量元件(加速度計+陀螺儀+磁力計等等),通過對傳感器測量數值進行計算,進而完成動作捕捉。

光學動作捕捉是目前電影工業的主要生産方式,因為精确度足夠高。

但問題是:盡管效果很好,但光學動捕對于大衆化普及沒什麼意義。一般人很難擁有這種昂貴的光學動捕攝影棚,場地和裝置的需求注定了這是一個相對陽春白雪的技術。

慣性動捕的成本則低得多。目前,小幾萬人民币的成本,可以擁有一個包括動捕手套在内的全身慣性動捕裝置,這價格對網紅大V不是問題,普通創作者咬咬牙也買得起。

和相對低廉的價格相比,更重要的是,慣性動捕裝置對場地大小沒有要求。

目前一些高端的虛拟主播使用慣性動捕裝置做直播已不是什麼稀罕事了。

不過慣性動捕有個小問題,随着連續使用時間的增加,測量元件會産生累計誤差,是以使用一段時間後需要重新校準。此外,盡管已比較友好,慣性動捕仍不是特别友善,比如使用時需要全身綁上測量單元,還需要避免環境中有磁場的影響……

想偷懶的技術宅不會完全滿意。

一定有讀者在想,我們的個人電腦上都有攝像頭,如果不用架一屋子攝像頭,而隻依靠一或兩個攝像頭,就像人的雙眼一樣,就能準确識别動作,實作動作捕捉該多好啊。

這個想法其實很多人都有,而真正的踐行者,正是大名鼎鼎的微軟,産品就是在XBOX上推出的光學和深度攝像頭結合的Kinect。

在Kinect裝置的規模化生産以及相應算法處理上,微軟投入了巨大的人力和财力。但很遺憾,經過了兩代XBOX的實踐之後,Kinect最終被放棄。資料顯示,Kinect的累計銷量超過了 3500 萬台。是以Kinect不能說是一款失敗的産品,至少它在前中期對擴大XBOX品牌的影響力是有功勞的。但最終Kinect壯志未酬,對微軟的很多同學來說, 都是有遺憾的。

Kinect黯然離場後,它的核心技術仍繼續發光發熱。作為Kinect最初的技術提供商(後期微軟已自行做了改良)PrimeSense在Kinect上市三年之後,于2013年被蘋果公司以3.6億美元的價格收購。是以,現在的蘋果手機内置深度攝像頭,且FaceID在原理上和Kinect有相同點,就不足為奇了。

主機遊戲娛樂系統行業裡,當年也有着Sony PS VR搖桿體感和XBOX的Kinect體感之争,即慣性和視覺路線之争。在這個領域裡,最後視覺路線失敗了。

除了使用者互動體驗的問題,Kinect在技術上也受限于當年的硬體性能,畢竟隻是一個家用娛樂系統的附屬裝置,Kinect的攝像頭分辨率,XBOX上的算力限制和記憶體限制都制約了其對人體動作識别的精度。

盡管Kinect出師未捷,但基于單攝像頭的視覺動捕應用仍在繼續發展。對于個人使用者,使用單攝像頭實作動作捕捉是一個非常實際的需求。

在今天,基于單攝像頭的人臉和半身動作捕捉,已經是一些二次元虛拟直播軟體和短視訊APP的标配了。但平心而論,這些視覺動捕的應用,目前隻是玩具,娛樂一下OK,尚無法滿足工業生産的精度要求。

為什麼說是玩具呢,舉個簡單的例子:市面上仍沒有任何一款商業化的視覺動捕軟體能很好的捕捉雙手十指的動作(如果已經出現了,請讀者不吝糾正)。做不到捕捉肢體動作的細節,視覺動捕工具就無法進入生産領域。

不過讓人興奮的是,大資料、深度學習和計算機視覺的進一步結合提供了很多可能性。據聞在一些大廠的研究機構裡,已能看到基于手勢動作大資料庫+深度學習視覺識别的方式,來獲得非常精準的單攝像頭手勢識别結果。

樂觀估計,在未來一兩年内,我們或許就能用上工業精度的單攝像頭視覺識别産品了。

對于獨立影視制作而言,需求就是簡單易用精度OK的真人動捕,光學動捕過于奢侈。目前首選的方式是慣性動捕裝置,價格可以接受, 效果也可以接受。

而作者所期待的理想方式,将是慣性動捕+單攝像頭視覺識别的結合。

這種軟硬結合的體系一方面在成本上可以承擔;另一方面,兩個獨立捕捉系統可以互相參照和校正。以實作更精準的動作捕捉。

AI驅動

動作捕捉的技術越來越完善, 但懶人的境界是無止境的:

能不能連捕捉這一步都省了, 用人工智能來驅動虛拟人的動作?

這一步也有了一些實踐,如百度的AI手語主播,就是一個典型的AI驅動動作的虛拟人。

AI驅動的虛拟人對于本系列關注的影視創作有着非常實際的意義:

有了AI驅動的虛拟人,未來的影視表演中,跑龍套的虛拟配角可以通過AI來驅動。

導演隻需要重點關注虛拟主角的表演。表演者通過動捕技術把導演所希望表達的肢體動作(當然還有表情和語言)傳遞到虛拟人角色身上;而打醬油的AI虛拟人群演,隻需通過預置指令安排妥當,更進一步甚至隻需要借助自然語義了解技術直接解析劇本的用意,就能配合主角虛拟人的表演進行互動。

聽起來有那麼一點點科幻,不過這裡所描述的每個環節并沒有特别難啃的硬骨頭。

在這裡,挑戰者提出的質疑,或許并不在于語義指令如何讓虛拟人AI了解,進而轉為表演的輸出——輔以互動式的調教這是一定可以做到的。我們并沒有期望AI虛拟人真正懂得表演,而隻要求AI在接受了幾個關鍵點的校正後,能和真人動捕的虛拟人進行互動就可以了。

真正的難度或許還是在于,虛拟人的表演是否足夠自然,以騙過觀衆的眼睛?

目前我們看到的虛拟人AI動作驅動,還處于一個比較初級的狀态。不過作者樂觀地相信,和Metahuman的橫空出世類似,隻要輔以足夠規模的人體動作資料庫,實作以假亂真的AI驅動虛拟人動作,也就是早晚的事情。

最後

關于驅動虛拟人的話題,其實還有兩個方面沒有涉及,一是虛拟人的語音能力,二是虛拟人的表情驅動。

關于前者,在目前類似GPT-3這種有千億參數規模的大型語言模型的支援下,虛拟人基于AI的文本溝通做到真假難辨是幾乎沒有難度的。而基于聊天文本到自然語音的生成,也已經有很好的解決方案了。

在其他一些應用場合裡,比如打造互動元宇宙時,一個可以自主對話的AI系統是比較重要的;而回到我們的影視創作主題,一個虛拟人是否能自主聊天反而沒那麼關鍵。更重要的是虛拟人可以根據劇本做出符合預期的表演(朗讀情緒、面部表情、肢體語言等等)。

考慮到最基本的實作,虛拟人的台詞和動作可以通過背後表演者來表達,那麼核心的問題就剩下一個:我們如何實作以假亂真的虛拟人表情呢?

這裡暫且賣個關子,關于人物表情這個影視表演裡重要的話題,留在後續第三篇裡再回來讨論。

虛拟人的手工前世和AI今生

元天空之城的虛拟人代表 Jasmine

在結束這篇已經超标的長文之前,順便和大家介紹一下,作者自己親手打造的MetaHuman虛拟人Jasmine。作為元天空之城在元宇宙裡的代表,Jasmine在未來的内容裡會有更多的機會和大家見面:)

繼續閱讀