天天看点

Modeling the World from Internet Photo Collections

转载请注明出处:https://blog.csdn.net/q_z_r_s/article/details/97651772

机器感知

一个专注于SLAM、三维重建、机器视觉等相关技术文章分享的公众号

Modeling the World from Internet Photo Collections
Modeling the World from Internet Photo Collections

1. Introduction

计算机视觉领域,一个关键的问题就是配准,即找出两个图像间的对应关系及

它们在一个公共的3D坐标系下的相对位姿问题。

2. Previous Work

2.1 Feature Correspondence

过去几十年的发展为现代特征检测和匹配技术发展奠定了基础,L-K光流跟踪、

Harris角点等。然而这些技术都依赖与特征点周围的图像块,即只是局部特征,

因此在相似场景中的应用。Shi 和 Tomasi 提出了一个经过仿射扩展的L-K光流跟踪器,

然而对于真实情况中的大基线匹配并不适用。本文使用的是一种更鲁棒的方法,

由Lowe提出的SIFT。

2.2 Structure from Motion

SfM旨在通过一些列的特征对应关系同步重建未知3D场景结构及相机位姿。

近年来,摄影测量技术,比如BA,开始进入计算视觉领域,BA被看做是执行三维重建

优化的黄金准则。作者发现,更好的估计BA优化中相机焦距可以产生更好的效果。

本文是第一个成功的将SfM技术应用于各种各样的现实世界中的图片集的方法,其典型的

图片集来自数百种不同的相机、缩放尺度、分辨率、不同时间、光照、天气等。

2.3 Image-Based Modeling(IBM)

Image-Based Modeling是一个通过输入的图像集合产生三维模型的过程。作者的工作

并不是为了进行三维可视化交互用的,而仅仅是用于重建一个稀疏的3D世界模型。

2.4 Image-Based Rendering(IBR)

The field of image-based rendering (IBR) is devoted to the

problem of synthesizing new views of a scene from a set of input photographs.

2.5 Image Browsing, Retrieval, and Annotation

如何组织图片的研究已经存在很多方法了,大多数方法使用元数据,比如关键字、摄影师、

时间等作为一个基本的图像组织结构。另一种方法就是标注,标注的好处是特征的对应关系

可以更好的得到保证,并且可以在图像间具体的物体和区域上传递标注。与大多数AR方法不同

作者使用2D图像标注在图像间传递。

3. Overview

三维重建最大的挑战是从数以百计、数以千计的不同视角、光照、天气条件、分辨率等的图片集

中匹配并重建三维信息。作者使用当前计算机视觉中的两个重要的突破,即特征匹配和SfM。

作者的工作的一个关键特性就是可以自动的在图像间传递标注,因此一个图像中的物体信息

可以被传播到所有包含该物体的其他图像中。

4. Reconstructing Cameras and Sparse Geometry

本文的方法不依赖于相机或其他设配来提供位姿、方位或几个信息,相反,而是通过使用计算机视觉技术

从图片中获得这些信息。首先是在所有的图像中提取特征点,然后在图像对中匹配特征点,

最后使用迭代优化的方法获得相机参数。

4.1 Keypoint Detection and Matching

作者使用SIFT检测子,该检测子同时提供了描述子。为了加速匹配,使用ANN进行匹配。

为了降低误匹配,使用SIFT提出者使用的方法,即找出某个特征点的两个最近邻匹配,然后

比较这两个距离的比值,如果比值 \frac{d_1}{d_2} < 0.6 则认为是好的匹配点,否则删除这两个特征。

在匹配好特征之后,使用RANSAC方法估计出较好的 Fundamental 矩阵,这里使用的是 8点法,同时

通过阈值来剔除 outlier,最后RANSAC出的 Fundamental 矩阵在使用 inliers 进行非线性优化,

方法为 L-M 优化。最后再次通过阈值剔除一些异常点。

4.2 Structure from Motion

下一步就是恢复一些列的相机参数,即旋转、平移及焦距。通过建立非线性最小而成问题及

通过使用BA可以求解这些参数。而非线性优化容易陷入局部极小值,所以给这些参数提供

一个较好的初始值至关重要。这里不是一次性的估计所有相机的参数,而是使用一种

增量的方法,逐步的增加相机。首先是找到一对匹配数量多的且基线大的图像,这样

就可以通过这两帧给出一个鲁棒的初始估计。位姿估计使用的是 5点法。下一步从数据集

中选择那些拥有最多 对应的匹配点的图像已经 有位姿 及 对应的3D点的 图像作为下一个

待加入的图像。首先是运行BA优化,这里只允许优化当前帧的位姿及其观测到的3D点,

先前加入的帧设置为固定,不参与优化。然后再将这些点和已加入进来的图像进行一个全局BA

优化。然后重复此过程,直到所有可用的图像都处理完毕。这里并不是所有的图像都会使用,

那些不符合要求的图像,比如匹配点太少等,不会用来进行三维重建。

在上述优化过程中,同时还会进行异常点的剔除工作,而且在添加新的图片时也并不是单纯的

只加入一张,而是加入多张。首先找出这多个图片中最大的匹配数量 M,然后提取不小于 0.75M 的

图片作为新的图片加入到优化中。作者发现,同时估计径向畸变会给三维重建精度上带来很大

的改善。为了防止畸变系数过大,在最小化方程中加入正则项 \lambda(k_12+k_22) 来防止

它们过大。

省略…

省略…

9. Research Challenges

Scale

互联网上图片非常多,然而有很多是冗余的,这意味着,我们可以仅使用这些图片的一小部分

进行高质量的三维重建。

9.1 Variability

虽然SIFT和其他特征匹配技术对外观变化有非常好的鲁棒性,但仍然还有很多场景下是有问题的。

9.2 Accuracy

大多数的SfM方法都是通过最小化重投影误差实现的,不能保证尺度精确度。而卫星图像、

地图、数字高程度(DEMs)等可以提供精准的尺度数据,这些可以用来获得更精准的SfM结果。

9.3 Online algorithom

想象一下,用手机对着你感兴趣的风景拍摄,然后立刻就能识别出你在哪里,

并适时地对图像中的可视物体进行信息标注。(你的想象现在已成现实_)

10. Conclusion

总而言之,我们相信互联网图像为计算机视觉研究提供了丰富的原料。

让我们期待该领域接下来几年的重要进步吧。

继续阅读