天天看點

全面感覺通用目标:模組化、分割和重建(CVPR2021)

作者丨 jiangpei

Fully Understanding Generic Objects:Modeling, Segmentation, and Reconstruction

Feng Liu  Luan Tran  Xiaoming Liu

Michigan State University, East Lansing MI 48824

論文連結:https://arxiv.org/pdf/2104.00858.pdf

代碼連結:https://github.com/liuf1990/Fully_3D_Object

工程連結:http://cvlab.cse.msu.edu/project-fully3dobject.html

傳統的方法一般從CAD生成的合成資料中學習,要麼通過intrinsic decomposition生成2.5D深度圖像,并不是從真實圖像中推斷,與完整的三維重建相差甚遠。三維重建的挑戰之一在于如何在沒有真實資料的情況下利用大量真實的2D圖像去重建。為了解決這個問題,我們采用了一種半監督學習方法。對于對象的2D圖像,我們将提取出類别、形狀、反射率、光照和相機投影矩陣,将這些資訊分别解碼可以得到分割的3D形狀和反射率,并融合這些分量以渲染近似輸入圖像的圖像。使用類别自适應的3D joint occupancy field (JOF),利用完整的形狀和反射率模組化使我們能夠在模組化和模型拟合中更高效的利用真實的2D圖像。

前言

First

從單一視角觀察到的物體的三維結構是一個基本的計算機視覺問題,應用于機器人學、三維感覺和增強現實/虛拟現實。當我們單看一個物體時,我們能夠毫不費力地推斷出完整的三維形狀。

随着深度學習的發展,在2D視覺任務上表現出了人類水準的準确性,諸如檢測、識别,比對等。這一成功的一個關鍵原因是标簽資料的豐富,通過監督學習可以獲得良好的性能。也有一些學者将這一成功擴充到三維推理的監督學習中,由于三維标簽的可用性有限,遠遠落後。

在這種情況下,研究人員專注于使用合成資料集,如包含紋理化的CAD模型ShapeNet。為了形成用于監督訓練的圖像-形狀對,可以從CAD模型渲染得到2D圖像。然而,單獨使用合成資料有兩個缺點。首先,制作3D模型需要人工成本,需要計算機圖形專業知識。其次,合成資料訓練的模型在真實圖像上會出現性能下降。考慮到真實2D圖像,例如ImageNet,采用自監督方法可能有希望探索。如果這些圖像能夠有效地用于三維物體模組化或模型拟合,将對三維物體重建産生巨大的影響。

早期以自監督的方式從2D圖像進行3D模組化,但僅限于利用2D圖像。給定一個圖像,學習3D模型并建構2D輪廓。為了更好地模組化,需要同一物體的多個視圖的真實位姿或關鍵點注釋。最近一些工作通過可微分渲染從2D紋理中學習,獲得了很好的結果。然而,這些方法尚未充分利用3D表面法線資訊,例如陰影。在以前的工作中,一個常見的問題是并未在模組化中考慮反射率和光照,這是真實世界圖像非常重要的的組成。

另一方面,早期3D模組化工作通常建構特定類别的模型,其中每個模型對一個類别内的不同對象進行模組化。随着shape representation的快速發展,研究人員開始開發針對多個種類的通用模型。雖然擴大了訓練資料的規模,但同時捕捉類内和類間的形狀變形仍然是一項挑戰。

我們通過加入更多資訊重建一個完整的3D 模型,這些資訊包括3D形狀和反照率,以及一個模型拟合子產品來從多個 2D 圖像中估計類别、形狀、反射率、光照和相機投影參數來解決這些挑戰。模組化反射率以及估計環境照明條件使我們能夠以自我監督的方式将渲染圖像與輸入圖像進行比較。是以,未标記的真實世界圖像可以有效地用于 3D 對象模組化或學習拟合模型。是以,它可能會從真實資料重建 3D 對象産生深遠影響。此外,我們的形狀和反射率學習以類别為條件,這減輕了多個類别的 3D 模組化負擔。這種設計還增強了可見類别的表示能力和不可見類别的泛化能力。

這種基于學習的方法一個關鍵組成部分是有效表示不同對象類别的 3D 形狀和反射率的表示。具體來說,我們提出了一個以類别為條件的3D joint occupancy field  (JOF),以表示多個類别的 3D 形狀和反照率。使用占用場作為形狀表示,我們可以表達各種各樣的3D幾何,而不受特定拓撲的束縛。擴充到反照率,色域給出了3D點反射率的RGB值。采用反射率而不是紋理模組化,并利用陰影進行 3D 重建。此外,由于網格拓撲缺乏一緻性,缺少 3D 形狀之間的密集對應關系。我們建議聯合重建對象的分割,利用其與形狀和反射率的隐式相關性,為我們的模型拟合學習建立顯式限制。

貢獻點:

  1. 為多個類别建立了一個單一的模型;該模型通過三維聯合占用場對分割後的三維形狀和反射率進行了完整的模組化;
  2. 模組化内在的元件不僅使我們更好地利用視覺線索,可以增強模型的表示能力。
  3. 在JOF學習中引入類别碼,可以增強模型的表示能力。
  4. 聯合無監督分割使更好的限制微調形狀和姿态估計。

方法

Second

全面感覺通用目标:模組化、分割和重建(CVPR2021)

半監督綜合分析架構聯合學習一個圖像編碼器和兩個解碼器,具有可微的渲染層。訓練同時使用合成圖像和真實圖像,并在類标簽和 3D CAD 模型、合成資料和真實資料的silhouette mask的監督下進行。

在這項工作中,對象由三個參數表示:類别、形狀和反射率。通過兩個深度網絡,這些參數可以分别解碼為3D形狀和反射率。為了獲得端到端的可訓練架構,我們通過編碼器網絡(即拟合子產品)估計這些參數以及光照和相機投影。三個網絡通過結合基于實體的渲染層,為重建通用對象的輸入圖像的目标共同工作。

基于隐式表面的重建能夠提供高品質的連續表面,受此的啟發,我們提出了3D關鍵點占用場的表示,這種表示可以使用無監督的語義資訊,同時對模型的形狀和反射進行模組化,為3D形狀提供部位級别的對應。JOF在之前的隐式表面的學習上有三個新設計:

  1. 将無監督分割的思想從形狀擴充到反射率
  2. 将形狀分割內建到反射率解碼器中,通過幾何和外觀線索引導分割
  3. 調節 JOF 對多個類别進行模組化

為了從形狀、反照率以及照明參數 L和投影渲染圖像,首先找到一組對應于 2D 像素的3D表面點。然後使用照明 L 和解碼器輸出通過照明模型計算的每個像素的 RGB 顔色。

雖然我們的模型被設計成從真實圖像中學習,并受益于CAD模型的預訓練形狀和反射率,但考慮到逆向任務中的模糊性。是以首先從圖像中學習,然後從 CAD 模型中進行預訓練。

我們的訓練過程包含三個步驟:

  1. DS、DA 和 E0 在彩色體素和相應的采樣點值對上進行預訓練
  2. E通過最小化L2用合成圖像進行預訓練
  3. E 和 DA 使用真實圖像進行訓練。 

我們發現在更新形狀解碼器時,第 3 步訓練具有增量增益,提高了我們的編碼器将模型拟合到真實圖像的泛化能力,學習真實圖像的一個關鍵因素是可微渲染層。

實驗

Three

我們使用 ShapeNet Core v1[5]進行預訓練。使用 13 個類别的 CAD 模型和相同的訓練/測試拆分。在使用相同的測試集時,我們自己渲染訓練資料,添加光照和姿勢變化。我們在第 3 步訓練中使用 Pascal 3D+ [64] 的真實圖像。選擇了 5 個類别(飛機、汽車、椅子、沙發和桌子),它們與合成資料中的 13 個類别重疊。

由于模組化形狀、反射率和分割是密切相關的任務,聯合模組化允許利用它們的相關性,我們評估 CS 模型對飛機、椅子和桌子類别的共同分割和形狀表示能力,該模型比 BAE-NET實作了更高的分割精度。此外,我們比較了兩個模型在表示3D形狀方面的能力。通過将測試集中的真實體素提供給體素編碼器和形狀解碼器,我們評估了解碼結果與真實CAD模型的比對程度。更高的IoU和更低的CD表明我們提高了分割和表示的準确性。此外,圖七展示我們的SU模型對13個類别的分割,特别是類别内和跨類别。

全面感覺通用目标:模組化、分割和重建(CVPR2021)

圖七 十三個種類模型的無監督分割

評估合成圖像上的 3D 重建步驟中, 我們與利用各種 3D表示的SOTA基線進行比較:3D-R2N2[9](體素)、點集生成(PSG)[10](點雲)、Pixel2Mesh [60]、AtlasNet [15]、Front2Back [67]( 網格)和 IM-SVR [7]、ONet [33](隐式場)。除了學習 13 個模型的 IM-SVR 之外,所有基線都在 13 個類别上訓練單個模型。 

一般來說,我們的模型能夠預測出與真實模型非常相似的3D模型。我們的方法在大多數類别中都優于基線。

全面感覺通用目标:模組化、分割和重建(CVPR2021)

圖 8. (a) ShapeNet、(b) Pascal 3D+ 和 (c) Pix3D 資料集

單視圖 3D 重建的定性比較

總結

Four