天天看點

論文Express | 單幅RGB圖像整體三維場景解析與重建

不是998!隻用一張圖就能重建三維場景!今天我們就給大家介紹這項神奇的研究。

這項研究由加州大學洛杉矶分校(UCLA)的六位學者完成,并已被歐洲計算機視覺國際會議(ECCV)采納。

論文Express | 單幅RGB圖像整體三維場景解析與重建

我們對論文的精華編譯如下:

人類視覺的複雜性和豐富性不僅展現在識别可見物體的能力上,而且展現在解釋潛在的不确定資訊上,包括推斷潛在的人類語境在場景中的功能 ,重建三維分層幾何結構,遵守實體限制并保證實體上合理的場景配置。對室内場景的這種豐富的了解是建構智能計算系統的本質,其超越了主要基于外觀和幾何的識别任務,而是考慮的是對觀察到的圖像或圖案更深層次的推理。

一個有希望的方向是合成分析或“視覺反轉圖形”這兩種方法。在這個範例中,計算機視覺被視為與計算機圖形相反的逆問題,其目标是對産生觀察圖像的實體過程中隐藏的因素進行逆向工程。

論文Express | 單幅RGB圖像整體三維場景解析與重建

圖1:通過合成分析這種方法所展現出的整體3D室内場景解析和重建。

3D表示由各個視覺子產品初始化(例如對象檢測和2D布局估計)。 聯合推理算法将渲染的法線,深度和分割圖之間的差異與輸入估計後的RGB圖像的差異進行比較,并不斷疊代調整3D結構。

我們提出了一種計算架構,将視覺概念作為逆圖形,使用随機文法模型(stochastic grammar model),聯合解析(jointly parse)單幅RGB圖像,重建出由一組CAD模型組成的整體3D結構。

圖1示意性地說明了合成分析推理過程。聯合推理算法從各種視覺子產品中擷取建議,并通過比較從恢複的3D結構渲染的各種投影(深度,法線,分割)與從輸入圖像直接估計的投影來推斷3D結構。

具體來說,我們利用一種整體場景文法(Holistic Scene Grammar, HSG)來展現3D場景結構,它表征了室内場景在功能空間和幾何空間上的聯合分布。HSG捕捉了室内場景中三個必要的隐含次元:1.隐含的人類背景,描述房間布置的功能可見性,2.場景結構的幾何限制,3.實體限制,這保證了實體上合理的解析與重建。

我們以綜合分析的方式來解決這個聯合解析與重建的問題,尋求在深度空間,曲面法線和對象分割圖上最小化輸入圖像與生成的渲染圖像之間的差異。

使用馬爾可夫鍊蒙特卡羅(Markov chain Monte Carlo, MCMC)推測出由解析圖表示的最優結構,其有效地周遊不可微的解空間,共同優化物體定位,3D布局和隐含的人類背景。實驗結果表明,該算法提高了泛化能力,在3D布局估計,三維物體檢測和整體場景了解方面明顯優于現有方法。

譯者注:

功能空間,指房間的層級結構,包含活動分區;幾何空間 ,指CAD模型。

論文Express | 單幅RGB圖像整體三維場景解析與重建

圖2: 用HSG分析圖展現的一個室内情景。函數空間描述了階級結構,幾何空間表示了空間物體和背景關系。

如圖2所示,我們的HSG将場景分解為功能空間中的潛在組(包括活動組的分層結構)和幾何空間中的對象執行個體(CAD模型)。對于功能空間,與僅模拟物-物關系的傳統方法相比,我們提出了一種通過在活動組中想象潛在的人來進一步幫助解釋和解析觀察到的圖像來模拟人-物關系的新方法。

對于幾何空間,各個對象的幾何屬性(大小,位置,方向)在我們考慮範圍之内,以及它們之間的幾何關系(支援關系)。另外,結合實體限制(對象之間的碰撞,違反布局)生成觀察圖像并進行實體上可信的3D解析和重建。

使用最大後驗機率估計(MAP)這種方法,是為了找到解析和重建所觀察圖像的最優解。在MAP這種方法中,我們可以利用相似度來測量所觀察的圖像和通過pg投影到各種2D空間上的渲染圖像之間的相似性。

是以,可以通過基于後驗機率(MAP)這種方法,對MCMC進行采樣來不斷疊代和細化解析圖(pg)。我們通過将重建的3D室内房間與實際的室内房間進行比較來評估我們在大規模RGB-D資料集上的方法。

本文有五個主要的貢獻:

1. 我們內建了幾何和實體兩個次元,用CAD模型解釋和重建室内場景。聯合優化了3D房間布局和物體的結構,大大提高了在SUN RGB-D資料集 [45] 上進行場景解析和重建的性能。

2. 我們将隐含的人類背景(即功能區)納入我們的文法模型,通過分組和抽樣,能夠猜想出每個活動區間中的潛在人類姿勢。通過這種方式,我們可以優化場景中可見和不可見 [48] 分量的聯合分布。

3. 我們提出了一個完整的計算架構,将生成模型(即随機文法),判别模型(即深度,法線和分割圖的直接估計)和圖形引擎(即渲染圖像)在場景解析與重建中結合起來。

4. 據我們所知,我們最先使用了推測出的深度,曲面法線和對象分割圖來幫助解析和重建3D場景(包括房間布局和多個物體)。請注意,文獻 [49] 對單個物體使用了類似的中間表示。

5. 通過學習物體之間的支撐關系(supporting relations),所提出的方法消除了先前工作中廣泛采用的假設,即所有物體必須立在地面上。模型的這種靈活性可以更好地解析和重建具有複雜對象關系的真實世界場景。

原文釋出時間為:2018-08-15

本文作者:雪清、羅然、CoolBoy

本文來自雲栖社群合作夥伴“

大資料文摘

”,了解相關資訊可以關注“

”。

繼續閱讀