天天看點

Meta開發新虛拟背景處理AI,讓元宇宙中人像不再虛糊

Meta開發新虛拟背景處理AI,讓元宇宙中人像不再虛糊

新智元報道

編輯:袁榭 拉燕

【新智元導讀】為了讓廣大視訊通話使用者體驗更佳,也讓更多AR、VR使用者青睐元宇宙,Meta的AI研發團隊最近開發了能更好處理虛拟背景的AI模型。

自新冠疫情開始以來,大部分人都已經習慣了在和朋友、同僚和家人遠端視訊通話。視訊聊天的時候都使用過虛拟背景。

使用者在視訊時變換背景,能賦予其在虛拟影像中掌控身邊環境的權利,減少因環境帶來的分心,還能保護隐私,甚至還能讓使用者在視訊裡看起來更有精氣神。

Meta開發新虛拟背景處理AI,讓元宇宙中人像不再虛糊

但有些時候虛拟背景呈現出來的效果可能和使用者需求的不一樣。大部分人都經曆過在移動的時候虛拟背景把人臉擋住了,或者是虛拟背景無法識别手和桌子之間的邊界。

最近,Meta利用強化的AI模型來分割圖像,優化了背景模糊功能,虛拟背景功能和其它Meta産品服務的AR效果。這樣可以更好的分辨照片和視訊中的不同部分。

來自Meta AI、現實實驗室和Meta其它部門的研究人員和工程師,組成了一個跨部門小組,最近開發了新的圖像分割模型,已用在Portal、Messenger和Instagram等很多平台的實時視訊通話和Spark AR的增強現實應用中。

該小組還優化了雙人圖像分割模型,已經在Instagram和Messenger上應用了。

如何讓AI改進虛拟背景

該小組在推進圖像分割的優化過程中,主要有以下三大挑戰:

1.要讓AI學會在不同的環境下也能正常識别。比如說環境偏暗、人物膚色不同、人物膚色接近背景色、人物不常見的體态(比方說彎腰系鞋帶,或者伸懶腰)、人物被遮擋、人物在移動等等。

2.要讓邊緣的位置看起來更加的流暢、穩定、連貫。這些特征在目前的研究中讨論較少,但是使用者回報研究表明,這些因素極大影響人們在使用各類背景效果時的體驗。

3.要確定模型能夠在全世界幾十億部智能手機中都能靈活、高效的運作。隻在一小部分最先進的手機中才能使用是不行的,這類手機往往搭載最新款的處理器。

而且,該模型必須能支援各種長寬比的手機,這樣才可以在筆記本電腦、Meta的便攜式視訊通話裝置和人們的手機的肖像模式、橫向模式中都保證模型的正常使用。

Meta開發新虛拟背景處理AI,讓元宇宙中人像不再虛糊

用Meta的AI模型處理後的虛拟背景示例,左為頭身像,右為全身像。

真實世界個人圖像分割模型的挑戰

圖像分割的概念不難了解,但獲得高精确度的個人圖像分割結果卻很困難。要有好結果的話,處理圖像的模型必須一緻性極高、延遲度極低。

不正确的分割圖像輸出,會導緻各種讓使用虛拟背景的視訊使用者走神的效果。更重要的是,圖像分割錯誤會導緻使用者的真實實體環境發生不必要的暴露。

因為這些,圖像分割模型的精度必須達到交并比90%以上,才能進入實際的市場産品應用。交并比是衡量圖像分割預測值與基底真實值重疊部分比值的常用标準度量。

由于使用場景與執行個體複雜度之海量,Meta的圖像分割模型要達到的交并比,最後10%完成起來遠比之前的所有部分都更難。

Meta的軟體工程師們發現,當交并比已達到90%時,圖像的可衡量名額趨于飽和,在時間一緻性與空間穩定性上難有更好提升。

為了克服此障礙,Meta開發了一個基于視訊的衡量系統,與其他幾個名額一起來解決這額外的難度。

為真實世界應用開發AI訓練與衡量政策

AI模型隻能從已傳遞的資料集裡學習。是以想要訓練出高精度的圖像分割模型,光是簡單錄入一大堆視訊使用者在明亮室内正襟危坐的視訊樣本是不行的。樣本類型得盡可能貼近真實世界地豐富。

Meta AI實驗室用了自家的ClusterFit模型,來從不同性别、膚色、年齡、身體姿勢、動作、複雜背景、多人數的海量樣本中提取可用資料。

靜态圖像的路徑成本并不準确反映模型實時處理動态視訊的品質,因為實時模型通常要有依賴時間資訊的追蹤模式。為了測量模型的實時品質,Meta AI實驗室設計了當模型預測出畫面時、計算每幀畫面的各名額的定量性視訊評估架構。

與論文中的理想狀況不同,Meta的個人圖像分割模型是被日常的海量使用者評判性能。如果有鋸齒、扭曲、或其他不滿意的效果出現,其他性能比基準值好出再多也沒用。

是以Meta AI實驗室直接詢問自家産品使用者對圖像分割效果的評價。結果是邊緣不平滑和模糊對使用者體驗影響最大。

針對此需求,Meta AI實驗室在視訊評估架構中,另添加了「邊緣交并比」這一新名額。當畫面的普通交并比超過90%、幾近飽和時,邊緣交并比就是更需注意的名額了。

而且,畫面時間一緻性不夠,會帶來圖形邊緣的混雜效果,這也會影響使用者體驗。Meta AI實驗室用兩種方法來測量畫面的時間一緻性。

首先,Meta研究人員假設時點緊鄰的兩幀畫面,圖像基本一緻。是以任何模型上的預測差異都代表最終畫面會有時間不一緻。

其次,Meta研究人員從時點緊鄰的兩幀畫面的前景動作入手。前景裡的光流能讓模型從第N幀的預測值推進到第N+1幀。然後研究者就将此預測值與真實的N+1幀數值對照。

這兩種方法中測算出的差異度都以交并比這一度量來展現。

Meta AI實驗室使用了來自30種的100餘類人群的1100個視訊樣本來輸入AI模型,分類包括所有人類表征性别與菲茨帕特裡克量表上的膚色色調。

分析結果是,Meta的AI模型在所有人群子分類的視像處理效果上都有差不多的顯著準确性,交并比與置信度都在95%以上,各分類間交并比差異基本都在0.5個百分點左右,性能優異可靠。

Meta開發新虛拟背景處理AI,讓元宇宙中人像不再虛糊
Meta開發新虛拟背景處理AI,讓元宇宙中人像不再虛糊

不同膚色與性别人群的視訊,Meta的AI模型處理後的交并比資料

優化模型

架構

Meta研究人員使用FBNet V3作為優化模型的主幹。這是一種由多層混合形成的解編碼結構,每一層都有相同的空間分辨率。

研究人員設計了一種配備輕量級解碼器加重量級編碼器的架構,這樣可以擁有比全對稱設計的架構更好的性能。生成的架構由神經架構搜尋支撐,并對裝置上運作的速度進行了高度優化。

Meta開發新虛拟背景處理AI,讓元宇宙中人像不再虛糊

語義分割模型架構。綠色的長方形代表卷積層,黑色的圓圈代表各層融合點。

資料學習

研究人員使用離線大容量的PointRend模型為未注釋的資料生成地一個僞标準實值标簽,以此來增加訓練的資料量。同樣地,研究者使用師-生半監督模型來消除僞标簽中的偏差。

長寬比相關的重新采樣

傳統的深度學習模型會将圖像重新采樣成一個小正方形,輸入到神經網絡裡。由于重新采樣,圖像會出現畸變。并且由于每幀圖像具有不同的長寬比,是以畸變的幅度也會不相同。

畸變的存在、畸變程度的不同,會導緻神經網絡AI學習到不穩健的低層次特征。這種畸變引起的限制在圖像分割應用中會被放大。

如此一來,如果大多數訓練圖像都是肖像比例,那麼該模型在實景圖像和視訊上的表現要差得多。

為了解決這個問題,研究團隊采用了 Detectron 2 的長寬比相關的二次采樣方法,該方法将具有相似長寬比的圖像分組,并将它們第二次采樣到相同的大小。

Meta開發新虛拟背景處理AI,讓元宇宙中人像不再虛糊

左為長寬比不調帶來畸變的基線圖像,右為AI模型處理後的改進圖像

自定義補邊框

長寬比相關的二次采樣法需要将具有相似長寬比的圖像補邊框,但常用的零補框方法會産生僞影(artifact)。

更糟糕的是,當網絡的深度不斷增加的時候,該僞影會擴散到其他區域。過去的辦法是,使用複用邊框的手段來移除這些僞影。

最新的一項研究中顯示,卷積層中的反射邊框可以通過最小化僞影傳播的方式來進一步提高模型的品質,但相對應地,時延成本也會增加。僞影的案例,和如何移除僞影的示例如下。

Meta開發新虛拟背景處理AI,讓元宇宙中人像不再虛糊

追蹤

時間不一緻,會讓AI處理圖形時在幀到幀之間存在預測性差異,帶來閃爍(flicker),它的出現會極大損害使用者的體驗。

為了提高時間一緻性,研究人員設計了一個名為「面具偵測」的檢測過程。它從目前幀圖像(YUV)中擷取三個通道,并且還存在第四通道。

對于第一幀圖像,第四通道隻是一個空矩陣,而對于随後的幀數,第四通道則是對上一幀的預測。

研究人員發現,這種利用第四通道跟蹤的政策顯著提高了時間一緻性。同時,他們還采用了最先進的跟蹤模型中的一些想法,例如CRVOS和變換不變性CNN等模組化政策,來獲得時間上較為穩定的分割模型。

Meta開發新虛拟背景處理AI,讓元宇宙中人像不再虛糊

「面具偵測」法流程圖

邊界交叉熵

建構平滑、清晰的邊界,對于AR圖像分割的應用至關重要。除了在分割圖像的時候會有的标準交叉熵損失之外,研究人員還必須考慮邊界權重損失。

研究人員發現,對象的内部是更容易被分割的,是以Unet模型與其之後大多數變體的作者都建議使用三元圖權重損失來提升模型的品質。

然而,三元圖權重損失有一個限制,就是三元圖隻會根據标準實值來計算邊界區域,是以它對所有的誤判都不敏感,是一種非對稱的權重損失。

受「邊界交并比」的啟發,研究人員采用交并比的方法為标準實值和各種預測提取邊界區域,并在這些區域中建立交叉熵損失。在邊界交叉熵上訓練的模型,很明顯是優于基準的。

如此除了能使最終掩碼輸出中的邊界區域更清晰之外,應用新方法後,新模型的誤報率更低。

Meta開發新虛拟背景處理AI,讓元宇宙中人像不再虛糊

Meta虛拟背景處理器應用的新AI模型,其新功能效率更高、更穩定,也更多樣化。這些優化都會提高背景濾鏡的品質和連貫性,進而提高在産品中的應用效果。

舉例來說,優化過的分割模型可以被用來識别多人場景和人物的全身,也可以識别被沙發、書桌或餐桌遮擋的全身人像。

除去應用在視訊通話以外,通過虛拟環境和和現實世界中的人、物結合,這項技術還可以給AR和VR技術增添新的次元。在建設元宇宙、營造沉浸式體驗時,這項應用會尤其重要。

參考資料:https://ai.facebook.com/blog/creating-better-virtual-backdrops-for-video-calling-remote-presence-and-ar/

繼續閱讀