ICCV 2023 | Prior真的重要吗？IST-Net：更强更快的category-level物体位姿估计模型

本文分析了基于 prior 的姿态估计方法中被忽视的问题，通过实验发现：prior 不会对性能提升做出贡献。基于此，作者设计了一个可以将相机空间特征转换为世界空间的特征的隐式空间变换网络(IST-Net) 和能够进一步增加几何约束的两个独立的增强器。目前，该工作已被ICCV 2023收录。

论文链接：https://arxiv.org/abs/2303.13479

代码链接：https://github.com/CVMI-Lab/IST-Net

一、背景介绍

Category-level 的物体姿态估计旨在让模型学习到类别独有的特征，从而能够在面对未见过的同类别物体时展现出良好的泛化性。为了解决 inrta-class variation 的问题，SPD 在早期提出了一种 Prior-based 的框架，现已被大多数主流的方法所采用。具体操作是当我们想估计一个 RGBD 图片的位姿时，使用预先训练好的一个 shape prior 作为辅助，学习 deformation 和 matching 的矩阵让 prior 通过先重建 RGBD 图片所对应的 3D 模型再进一步转换到世界坐标系下的视角(NOCS)。有了匹配的相机坐标系和世界坐标系下的视角，求解位姿便是一件十分容易的事情。

图1. Prior deformation的流程

二、Prior-based 方法对于 3D 模型的开销

3D 模型的标注是昂贵和耗时的，因此减少对于 3D 模型的依赖对于算法的实际应用是十分重要的。Prior-based 方法所产生的对于 3D 模型的数据开销主要来源于两个方面。一方面是训练过程中，网络在学习 deformation 的矩阵时(图 1)需要来自 3D 模型的监督。而另一方面是，prior 的产生需要依赖于大量的 3D 模型。

如图 2 所示，首先使用大量的 3D 模型训练一个 auto-encoder, 在训练完成后将相同类别的所有 3D 模型输入到 encoder 中得到 latent embeddings。再将这些 latent embedings 取平均再送入 decoder，重建得到的输出就是当前类的 shape prior。在这个过程中，为了得到一个通用的表征需要收集大量的 3D 模型。而当所需要预测的类别数量增多时，对于 3D 模型的依赖会变成一个严重的问题。

图2. Prior产生方法的图解，摘自SPD原文

三、Prior 真的重要吗？

当作者重新审视 prior-based 的方法时也逐渐产生了疑问，假设随机给一个 object shape 是否可以变换到 target shape 上呢？将这个过程拆解开就可以发现，random shape 到 target 的变换可以拆解为：从 random shape 到 prior 的变换加上 prior 到 target 的变换。其中 prior 到 target 的变换前述方法已经证明是可行的，而 random shape 到 prior 的变换，由于这两个量都是给定的，所以这个变换矩阵是直接可以求解的。因此作者猜想其实对于任意 shape 网络都可以将其变换到 target shape。

图3. 从 random shape 到 target shape 变换的分析

作者进一步在目前 SOTA 的 prior-based 方法上做了验证性实验–对 shape prior 进行替换，共有三组对照组：(1)使用默认的 prior；(2)所有类都使用相同的 prior(fixed prior)；(3)使用 random noise 作为 prior。可以观察到即使使用 noise 作为 prior 网络也可以很好重建出 target shape，同时各项指标都与 baseline 几乎相同。而只有当去掉了 deformation 这个模块后才会产生明显的掉点。作者因此得出结论：真正重要的是如何构建世界坐标系与相机坐标系的对应关系，而不是 prior 本身。

图4. Shape prior实验

四、解决方案

基于上述分析，作者提出了 IST-Net，一个高效且简洁的姿态估计器。旨在摒弃 prior 的同时，从 feature 层面完成从相机坐标系到世界坐标系的变换。IST-Net 包含如下三个模块：

图5. IST-Net框架结构

Implicit Space Transformation (IST)：该模块利用 CNN 和 PointNet++ 提取后的图像和几何特征作为输入，经过一个隐式变换网络直接预测世界空间下所对应的特征

。同时使用一个 MLP 将预测出的 feature 降维得到预测的世界坐标系下的视角(NOCS)。World-space Enhancer：由于 IST 模块所预测的特征

缺乏有效且直接的监督。作者设计了 world-space enhancer，使用另一个 PointNet++ 直接提取 GT 的特征

。构建 MSE loss 对 IST 模块的预测进行监督。

Camera-space Enhancer：相机空间下的特征作为 IST 的输入，其质量间接决定了所预测的世界空间下的特征的质量。因此作者设计了 camera-space enhancer，本质上是一个轻量的姿态估计器，为了让特征提取器得到的特征更有助于最终的预测。

值得一提的是，整个框架中两个 enhancer 都是 traning-only 的，并不会影响 inference 的速度。并且在训练过程中并没有用到任何的 3D 模型。

五、实验结果

作者在 REAL275 数据集上验证了 IST-Net 的性能。结合图 6 和表 1，可以看到 IST-Net 在各项指标上都有十分优异的表现，同时在速度上大幅度领先之前的方法。

图6. 速度与精度比较

表1. REAL275 benchmark上性能表现

作者将在 REAL275 和 CAMERA25 上训练好的模型直接在 Wild6D 数据集上进行测试结果如下表。IST-Net 展现出了良好的泛化性能甚至在很多指标上超过了在 Wild6D 上训练过的方法。

表2. Wild6D benchmark上性能表现

下表 3 展示了，仅在少量数据上(REAL275)训练得到的模型的性能。IST-Net 显著优于 prior-based 方法。

表3. 仅在REAL275上训练得到的模型性能

下表 4 展示了模型对于新的类别的迁移能力。在面对新的类别时，prior-based 方法对于 prior 的依赖导致了较弱的泛化能力。而 IST-Net 在面对相对相对简单的物体时 (bowl)，展现出了明显更好的泛化性。

表4. 模型对于新类的迁移能力

六、总结

本文分析了基于 prior 的姿态估计方法中被忽视的问题，通过实验发现：prior 不会对性能提升做出贡献。真正重要的实际上是 deformation 的过程：它构建了相机和世界坐标之间的对应关系，重建了世界坐标系中的物体形状。受到此启发，作者设计了一个隐式空间变换网络(IST-Net) 将相机空间特征转换为世界空间的特征。它无需目标对象的 prior 或是 3D 模型即可构建空间对应关系。此外，作者还设计了两个独立的增强器进一步增加了几何约束。大量实验表明所提出的方法在效率和准确性方面的有效性。希望这篇文章能为该领域未来的研究提供新的见解。

参考文献

[1] Tian, Meng, Marcelo H. Ang, and Gim Hee Lee. “Shape prior deformation for categorical 6d object pose and size estimation.” Computer Vision–ECCV 2020

[2] Lin, Jiehong, et al. “Category-level 6D object pose and size estimation using self-supervised deep prior deformation networks.” European Conference on Computer Vision.

[3] Chen, Kai, and Qi Dou. “Sgpa: Structure-guided prior adaptation for category-level 6d object pose estimation.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.

[4] Di, Yan, et al. “Gpv-pose: Category-level object pose estimation via geometry-guided point-wise voting.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

[5] Zhang, Ruida, et al. “RBP-Pose: Residual bounding box projection for category-level pose estimation.” European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022.

作者：刘健晖

Illustration by IconScout Store from IconScout-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线480+期talk视频，2400+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

[email protected]

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

>>> 添加小编微信！

关于我“门”▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

⤵一键送你进入TechBeat快乐星球

ICCV 2023 | Prior真的重要吗？IST-Net：更强更快的category-level物体位姿估计模型

一、背景介绍

二、Prior-based 方法对于 3D 模型的开销

三、Prior 真的重要吗？

四、解决方案

五、实验结果

六、总结

参考文献

继续阅读

10大Alevel复习网站分享，秋季大考就靠它们了！

ICCV23｜AlignDet：支持各类检测器完全自监督预训练的框架

分析Stack Overflow 架构、Shopify 架构和Levels.fyi架构应用程序

OC语言--分类(category)

OC Category 分类 Extension 延展.mdOC Category 分类OC Extension 延展

分类Category分类的定义无名分类

iOS 工程由shell脚本配置一套代码生成多个APP

Objective-C之类别（类扩展：Class Categories）1 前言2 代码实例3 结语

ICCV2023｜AlignDet：在各种检测器的所有模块实现无监督预训练

Category 高级使用

Effective Objective-C 2.0：Item 26: Avoid Properties in Categories

我司产品经全检，符合OEKOTEXZDHClevel3MRSL3.1新版本的要求

runtime源码探究（五）category的加载

OC中特有的一些语法

ObjC 源码

activity之隐式启动intent

ICCV 2023 | Prior真的重要吗？IST-Net：更强更快的category-level物体位姿估计模型

一、 背景介绍

二、Prior-based 方法对于 3D 模型的开销

三、Prior 真的重要吗？

四、解决方案

五、实验结果

六、总结

参考文献

继续阅读

一、背景介绍