天天看点

全面感知通用目标:建模、分割和重建(CVPR2021)

作者丨 jiangpei

Fully Understanding Generic Objects:Modeling, Segmentation, and Reconstruction

Feng Liu  Luan Tran  Xiaoming Liu

Michigan State University, East Lansing MI 48824

论文链接:https://arxiv.org/pdf/2104.00858.pdf

代码链接:https://github.com/liuf1990/Fully_3D_Object

工程链接:http://cvlab.cse.msu.edu/project-fully3dobject.html

传统的方法一般从CAD生成的合成数据中学习,要么通过intrinsic decomposition生成2.5D深度图像,并不是从真实图像中推断,与完整的三维重建相差甚远。三维重建的挑战之一在于如何在没有真实数据的情况下利用大量真实的2D图像去重建。为了解决这个问题,我们采用了一种半监督学习方法。对于对象的2D图像,我们将提取出类别、形状、反射率、光照和相机投影矩阵,将这些信息分别解码可以得到分割的3D形状和反射率,并融合这些分量以渲染近似输入图像的图像。使用类别自适应的3D joint occupancy field (JOF),利用完整的形状和反射率建模使我们能够在建模和模型拟合中更高效的利用真实的2D图像。

前言

First

从单一视角观察到的物体的三维结构是一个基本的计算机视觉问题,应用于机器人学、三维感知和增强现实/虚拟现实。当我们单看一个物体时,我们能够毫不费力地推断出完整的三维形状。

随着深度学习的发展,在2D视觉任务上表现出了人类水平的准确性,诸如检测、识别,匹配等。这一成功的一个关键原因是标签数据的丰富,通过监督学习可以获得良好的性能。也有一些学者将这一成功扩展到三维推理的监督学习中,由于三维标签的可用性有限,远远落后。

在这种情况下,研究人员专注于使用合成数据集,如包含纹理化的CAD模型ShapeNet。为了形成用于监督训练的图像-形状对,可以从CAD模型渲染得到2D图像。然而,单独使用合成数据有两个缺点。首先,制作3D模型需要人工成本,需要计算机图形专业知识。其次,合成数据训练的模型在真实图像上会出现性能下降。考虑到真实2D图像,例如ImageNet,采用自监督方法可能有希望探索。如果这些图像能够有效地用于三维物体建模或模型拟合,将对三维物体重建产生巨大的影响。

早期以自监督的方式从2D图像进行3D建模,但仅限于利用2D图像。给定一个图像,学习3D模型并构建2D轮廓。为了更好地建模,需要同一物体的多个视图的真实位姿或关键点注释。最近一些工作通过可微分渲染从2D纹理中学习,获得了很好的结果。然而,这些方法尚未充分利用3D表面法线信息,例如阴影。在以前的工作中,一个常见的问题是并未在建模中考虑反射率和光照,这是真实世界图像非常重要的的组成。

另一方面,早期3D建模工作通常构建特定类别的模型,其中每个模型对一个类别内的不同对象进行建模。随着shape representation的快速发展,研究人员开始开发针对多个种类的通用模型。虽然扩大了训练数据的规模,但同时捕捉类内和类间的形状变形仍然是一项挑战。

我们通过加入更多信息重建一个完整的3D 模型,这些信息包括3D形状和反照率,以及一个模型拟合模块来从多个 2D 图像中估计类别、形状、反射率、光照和相机投影参数来解决这些挑战。建模反射率以及估计环境照明条件使我们能够以自我监督的方式将渲染图像与输入图像进行比较。因此,未标记的真实世界图像可以有效地用于 3D 对象建模或学习拟合模型。因此,它可能会从真实数据重建 3D 对象产生深远影响。此外,我们的形状和反射率学习以类别为条件,这减轻了多个类别的 3D 建模负担。这种设计还增强了可见类别的表示能力和不可见类别的泛化能力。

这种基于学习的方法一个关键组成部分是有效表示不同对象类别的 3D 形状和反射率的表示。具体来说,我们提出了一个以类别为条件的3D joint occupancy field  (JOF),以表示多个类别的 3D 形状和反照率。使用占用场作为形状表示,我们可以表达各种各样的3D几何,而不受特定拓扑的束缚。扩展到反照率,色域给出了3D点反射率的RGB值。采用反射率而不是纹理建模,并利用阴影进行 3D 重建。此外,由于网格拓扑缺乏一致性,缺少 3D 形状之间的密集对应关系。我们建议联合重建对象的分割,利用其与形状和反射率的隐式相关性,为我们的模型拟合学习创建显式约束。

贡献点:

  1. 为多个类别建立了一个单一的模型;该模型通过三维联合占用场对分割后的三维形状和反射率进行了完整的建模;
  2. 建模内在的组件不仅使我们更好地利用视觉线索,可以增强模型的表示能力。
  3. 在JOF学习中引入类别码,可以增强模型的表示能力。
  4. 联合无监督分割使更好的约束微调形状和姿态估计。

方法

Second

全面感知通用目标:建模、分割和重建(CVPR2021)

半监督综合分析框架联合学习一个图像编码器和两个解码器,具有可微的渲染层。训练同时使用合成图像和真实图像,并在类标签和 3D CAD 模型、合成数据和真实数据的silhouette mask的监督下进行。

在这项工作中,对象由三个参数表示:类别、形状和反射率。通过两个深度网络,这些参数可以分别解码为3D形状和反射率。为了获得端到端的可训练框架,我们通过编码器网络(即拟合模块)估计这些参数以及光照和相机投影。三个网络通过结合基于物理的渲染层,为重建通用对象的输入图像的目标共同工作。

基于隐式表面的重建能够提供高质量的连续表面,受此的启发,我们提出了3D关键点占用场的表示,这种表示可以使用无监督的语义信息,同时对模型的形状和反射进行建模,为3D形状提供部位级别的对应。JOF在之前的隐式表面的学习上有三个新设计:

  1. 将无监督分割的思想从形状扩展到反射率
  2. 将形状分割集成到反射率解码器中,通过几何和外观线索引导分割
  3. 调节 JOF 对多个类别进行建模

为了从形状、反照率以及照明参数 L和投影渲染图像,首先找到一组对应于 2D 像素的3D表面点。然后使用照明 L 和解码器输出通过照明模型计算的每个像素的 RGB 颜色。

虽然我们的模型被设计成从真实图像中学习,并受益于CAD模型的预训练形状和反射率,但考虑到逆向任务中的模糊性。因此首先从图像中学习,然后从 CAD 模型中进行预训练。

我们的训练过程包含三个步骤:

  1. DS、DA 和 E0 在彩色体素和相应的采样点值对上进行预训练
  2. E通过最小化L2用合成图像进行预训练
  3. E 和 DA 使用真实图像进行训练。 

我们发现在更新形状解码器时,第 3 步训练具有增量增益,提高了我们的编码器将模型拟合到真实图像的泛化能力,学习真实图像的一个关键因素是可微渲染层。

实验

Three

我们使用 ShapeNet Core v1[5]进行预训练。使用 13 个类别的 CAD 模型和相同的训练/测试拆分。在使用相同的测试集时,我们自己渲染训练数据,添加光照和姿势变化。我们在第 3 步训练中使用 Pascal 3D+ [64] 的真实图像。选择了 5 个类别(飞机、汽车、椅子、沙发和桌子),它们与合成数据中的 13 个类别重叠。

由于建模形状、反射率和分割是密切相关的任务,联合建模允许利用它们的相关性,我们评估 CS 模型对飞机、椅子和桌子类别的共同分割和形状表示能力,该模型比 BAE-NET实现了更高的分割精度。此外,我们比较了两个模型在表示3D形状方面的能力。通过将测试集中的真实体素提供给体素编码器和形状解码器,我们评估了解码结果与真实CAD模型的匹配程度。更高的IoU和更低的CD表明我们提高了分割和表示的准确性。此外,图七展示我们的SU模型对13个类别的分割,特别是类别内和跨类别。

全面感知通用目标:建模、分割和重建(CVPR2021)

图七 十三个种类模型的无监督分割

评估合成图像上的 3D 重建步骤中, 我们与利用各种 3D表示的SOTA基线进行比较:3D-R2N2[9](体素)、点集生成(PSG)[10](点云)、Pixel2Mesh [60]、AtlasNet [15]、Front2Back [67]( 网格)和 IM-SVR [7]、ONet [33](隐式场)。除了学习 13 个模型的 IM-SVR 之外,所有基线都在 13 个类别上训练单个模型。 

一般来说,我们的模型能够预测出与真实模型非常相似的3D模型。我们的方法在大多数类别中都优于基线。

全面感知通用目标:建模、分割和重建(CVPR2021)

图 8. (a) ShapeNet、(b) Pascal 3D+ 和 (c) Pix3D 数据集

单视图 3D 重建的定性比较

总结

Four