Meta MCC：通過3D感覺編碼器，改善2D圖像到3D模型品質

作為現階段最成功的VR内容生态之一，Quest商店吸引了越來越多開發者釋出VR内容，但這對于Meta來講似乎還不夠，其也在探索某種UGC VR生态，比如在Horizon Worlds中提供可視化開發工具，讓普通人也能創造VR應用。而近期，Meta公布的一項新研究表明，未來制作AR/VR内容可能就像拍短視訊那麼簡單。

據了解，Meta為了簡化AR/VR内容開發方式，研發了一種RGB-D圖像生成3D模型方案：MCC。MMC全稱是多視圖壓縮編碼，它是一種基于Transformer的編碼器-解碼器模型，可根據一幀RGB-D圖像合成/重建3D模型，潛在應用場景包括AR/VR、3D視覺重建、機器人導航、數字孿生/虛拟仿真等等。與普通彩色2D圖像不同，RGB-D是具有深度的彩色圖像，相當于普通RGB三通道彩色圖像加上深度圖（Depth Map），二者是配準的，像素一一對應。

Meta MCC：通過3D感覺編碼器，改善2D圖像到3D模型品質

實際上，Meta在2018年的F8大會上，就曾公布3D照片研究，可通過雙攝手機拍攝出具有3D效果的照片，其中包含一定的深度資訊。其甚至還研發了将2D圖像轉3D的CNN模型，特點是支援單攝手機。這意味着，它如果結合MCC方案，或許可以将單攝手機捕捉的2D圖像合成為3D模型。

Meta MCC：通過3D感覺編碼器，改善2D圖像到3D模型品質

而Transformer是一種采用自注意力機制的深度學習模型，谷歌曾使用它來增強搜尋引擎，而近期比較火的ChatGPT模型也是基于Transformer。起初，Transformer更常用與自然語言處理領域，而随着它與大規模、通用類别的學習模型結合，便也開始被用于語言處理之外的領域，比如圖像合成、圖像分析。

利用MCC方案，3D開發/合成将有望實作規模化。随着深度傳感器、深度捕捉AI模型在手機上普及，具有深度資訊的圖像越來越容易獲得，是以MCC可使用的資料規模足夠大。

研究背景

Meta科研人員指出，視覺識别的一個核心目标根據單個圖像來了解物體和場景。在大規模學習和通用表示推動下，2D圖像識别技術得到大幅提升，但現階段識别3D場景/物體還存在挑戰，因為2D圖像源中存在圖形遮擋，是以很難從單張圖像合成完整的3D模型。

Meta MCC：通過3D感覺編碼器，改善2D圖像到3D模型品質

為了解決這一問題，一些3D合成模型依賴于多張不同角度的源圖像。而如果用CAD模型來訓練，市面可用的資料集規模不夠多，是以限制了3D合成和了解技術的發展。

而MCC隻需要RGB-D圖像就能訓練，圖像中不可見的部分也能在3D模型中完整預測/合成。監督所使用的資料則基于含有深度資訊、相機姿态的視訊幀。

方案原理

MCC采用簡單的解碼器-編碼器架構，将RGB-D圖像輸入到MCC中會産生輸入編碼，然後解碼器将在輸入編碼中通路3D點資料，以預測該點的占用率和RGB色彩（将3D重建定義為二進制分類問題）。簡單來講，MCC隻需要處理3D點雲資料，而3D點可以捕捉任何對象或場景，通用性比網格和立體像素更好，是以用大規模RGB-D圖像資料就能訓練模型。另外，RGB-D圖像可通過手機的LiDAR傳感器來捕捉，或是由深度模型來計算（比如MiDas、COLMAP）。

Meta MCC：通過3D感覺編碼器，改善2D圖像到3D模型品質

科研人員利用來自不同資料集的深度圖像/視訊來訓練MCC，這些資料部分未包含3D場景、3D對象的全部角度，而這将需要AI重新建構。此外，MCC也可以将AI合成的圖像轉化為3D模型。

https://v.qq.com/txp/iframe/player.html?vid=k3501bgcyye

是以，MCC最大的特點是可預測RGB-D圖像中看不見、被遮擋的3D幾何形狀。科研人員表示：MCC模型與基于圖像的自監督學習、掩碼自動編碼器（MAE）的最新進展有直接關系，MAE也是通過預測圖像中看不見的形狀來學習圖像表示。此外，MCC無需具有注釋的3D資料，成本更低、資料更容易收集。

Meta MCC：通過3D感覺編碼器，改善2D圖像到3D模型品質

科研人員表示：研究結果表明，将基于點雲的3D合成模型與通用類别的大規模訓練結合，是有效的。未來，希望将這種成果擴充為通用的3D分析視覺系統，讓3D重建/合成效果更接近人腦的想象力。

對比其他方案

谷歌、NVIDIA等科技公司也曾研發2D圖轉3D技術，分别依賴于NeRF、逆向渲染（3D MoMa），缺點是需要多張圖像，而且NeRF很那從單個圖像生成新的場景。其他一些方案需要使用3D CAD模型等規模有限的資料來訓練，而MCC隻需要通過RGB-D圖像就能訓練3D重建。

Meta MCC：通過3D感覺編碼器，改善2D圖像到3D模型品質

此外，MCC普适性好，對于未曾見過的新對象類别，也能實作“開箱即用”（支援零樣本學習），直接處理成3D模型。

Meta MCC：通過3D感覺編碼器，改善2D圖像到3D模型品質

為了展示MCC與不同資料來源的相容性，科研人員将其與多個圖像源結合，比如：

iPhone 14 Pro（LiDAR傳感器）

圖像生成AI DALL-E 2

Facebook的開源3D重建資料集CO3D（Common Objects in 3D）

大型視覺資料庫ImageNet

3D仿真資料集Hypersim

室内場景資料集Taskonomy

這些資料集包含了50多種常見對象類型，以及大規模場景，比如倉庫、禮堂、閣樓、餐廳等等，利用它們重建的3D模型還不能一比一還原，而是看起來比原來更圓潤、更卡通化，但應用在3D開發中品質足夠好。未來，随着用更多資料、更多樣化對象進行訓練，MCC的性能還可以顯著提升。

參考：Meta

Meta MCC：通過3D感覺編碼器，改善2D圖像到3D模型品質

研究背景

方案原理

對比其他方案

繼續閱讀

汪叢青：如何定義元宇宙

清華大學成立元宇宙實驗室！網友怒批：欠考慮！

（11）MyBatisPlus————條件構造器，AR，代碼生成器以及插件擴充

Unity3D中使用ITween對模型進行移動和旋轉iTween基礎之Move(移動)

P1214 [USACO1.4]等差數列 Arithmetic Progressions

【unity3d】unity3d的認識

Tango 開發指南 — 運動追蹤原理工作原理使用建議常見案例局限以下是原文How it worksUsability tipsCommon use casesLimitationsMore about tracking rotation and accelerationNotes

Vuforia開發入門一-準備工作

EasyAR + 第三方插件開發系列（2）--傷害效果

EasyAR 初學者入門指南（5）---錄屏功能

UE5配置VR項目環境

VR空氣鍵盤最新技術

關于在Windows11上華為eNSP啟動接入路由器AR失敗，并提示錯誤代碼的40的解決辦法

UE4 VR WidgetInteraction 區域網路設定

VR開發日記【一】 VR開發日記【其一】

LeapMotion VR開發