天天看點

李飛飛團隊實作“隔空模組化”,透過遮擋物還原完整3D人體模型

作者:量子位

克雷西 發自 凹非寺

量子位 | 公衆号 QbitAI

注意看,這個男人搬着一個長長的櫃子,畫面中半個人都被遮擋住了。

但即使有這樣的遮擋,男人的整個身體在AI面前依然是無所遁形。

李飛飛團隊實作“隔空模組化”,透過遮擋物還原完整3D人體模型

哪怕是蹲在椅子背後隻露出頭,依然可以被模型完整還原。

李飛飛團隊實作“隔空模組化”,透過遮擋物還原完整3D人體模型

從遮擋物背後把人“揪”出來的,是李飛飛團隊推出的人體模組化新工具Wild2Avatar(本文簡稱W2A)。

隻要一段4秒左右的的單角度視訊,就能建構出完整的3D模型,有遮擋也不怕。

李飛飛團隊實作“隔空模組化”,透過遮擋物還原完整3D人體模型

相比此前的SOTA方法,Wild2Avatar在人體模組化上可謂是實作了質的飛躍。

模組化效果完勝Vid2Avatar

從下面的對比圖中(從左到右依次為帶遮擋原圖、Vid2Avatar提取結果和W2A提取結果)可以看到,作為baseline的Vid2Avatar方法隻能大概描繪出人的輪廓,遮擋物直接被“拍扁”到了人物身上,而且輪廓看上去也不夠準确。

而W2A提取出的人物不僅輪廓更加精确,看上去也更具立體感,關鍵是遮擋物被完美地去除,顯現出了完整的人物結構。

李飛飛團隊實作“隔空模組化”,透過遮擋物還原完整3D人體模型

對遮擋物的去除,W2A操作得也更為徹底,沒有留下多餘的痕迹。

李飛飛團隊實作“隔空模組化”,透過遮擋物還原完整3D人體模型

而baseline中部分結構缺失的現象,在W2A中也沒有發生,人物的結構十分完整。

李飛飛團隊實作“隔空模組化”,透過遮擋物還原完整3D人體模型

而且,W2A的人物模組化是動态的,視訊畫面中,就算整個人都藏在椅子後面,依然可以輸出人物模型。

和另一baseline OccNeRF相比,W2A隻需100幀的訓練視訊就能複原出完整幹淨的結構,但後者用了500幀的系列視訊後不僅結構缺陷極大,還存在許多“鬼影”。

李飛飛團隊實作“隔空模組化”,透過遮擋物還原完整3D人體模型

測試資料也表明,對于陌生場景,W2A的提取品質和完整性(comp.)都比V2A有所提升,特别是對遮擋(llm)部分,合成品質得分接近翻番。

李飛飛團隊實作“隔空模組化”,透過遮擋物還原完整3D人體模型

和OccNeRF相比,W2A與500幀訓練資料的OccNeRF整體成績接近,但遮擋部分仍然是有明顯增強。

李飛飛團隊實作“隔空模組化”,透過遮擋物還原完整3D人體模型

那麼,Wild2Avatar是如何實作的呢?

人物與遮擋分層處理

工作過程中,W2A将整個場景分成了遮擋物、人物本體和背景三部分。

這三個部分由獨立的NeRF網絡分别預測特征,渲染圖像時再将三個部分的輸出拼合。

李飛飛團隊實作“隔空模組化”,透過遮擋物還原完整3D人體模型

這種做法的主要目的是為了避免遮擋被誤當成人體的一部分,出現Video2Avatar那樣把遮擋物合成進人物的情況。

具體來說,李飛飛團隊将圖像映射到一個球空間,背景位于球外,人物和遮擋物則分别位于球空間内部的不同位置。

遮擋空間是通過内部采樣點的坐标和距離來構造的。用于遮擋部分的生成網絡與背景共享,可以預測遮擋空間樣本點的顔色和密度值。

而人體部分的處理則是使用SMPL的參數化方式,通過正向和反向皮膚拟合,先将人體變形到一個姿态不變的坐标空間,再輸入神經網絡進行學習。

李飛飛團隊實作“隔空模組化”,透過遮擋物還原完整3D人體模型

為了增強任務模型的完整性,李飛飛團隊還設計了新的損失計算方式。

首先利用現成的分割模型輸出人體的二值分割掩碼,并掩碼取反得到“非人體”區域的掩碼,即為可能的遮擋區域。

同時,從W2A渲染的三個部分中遮擋部分的密度圖,然後根據提取結果再分離出人體部分。

其中人體部分與前面得到的“非人體”掩碼進行與非運算,得到的結果再和遮擋部分的密度圖做二值交叉熵運算,就得到了遮擋解耦損失Locc。

李飛飛團隊實作“隔空模組化”,透過遮擋物還原完整3D人體模型

Locc會與像素重構損失、場景分解損失等其他損失參數一并納入到整個網絡的端到端訓練過程,用于優化更新網絡參數。

論文位址:

https://arxiv.org/abs/2401.00431

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們,第一時間獲知前沿科技動态

繼續閱讀