天天看点

二维图像三维化摄像机标定视觉计算理论(Computational Theory of Vision)

今天看了一篇大神的关于在2D图像中插入物体构建动画的文章,觉得很有意思,现在简要copy一下分享给大家

1: 物体表达的必要性和重要性

机器人能像人一样识别物体,是机器人视觉(robot vision)专家的梦想和追求。要想识别物体,不论是人还是机器人,仅仅看到是不够的,还需要知道物体的表达方式。表达是一个与认知科学密切联系的词汇,英文是representation, 通俗地讲, 物体表达问题就是指物体在大脑(对人类)或计算机内(对机器人)是如何对物体进行表示的问题。

物体表达是物体识别的主要步骤。对机器人而言,不同的表达(主要指不同的数学模型),直接决定着对物体识别的能力和可靠性。这主要是因为一个物体从不同的方向看,对应的图像是不同的,有时甚至差别很大。人们希望物体表达方式尽量与观察物体的视角无关。这也是为什么要研究有效表达的原因。目前机器人很难处理同一物体在不同视角下的物体识别问题。然而,我们人类在识别物体时似乎对这种视角变化很不敏感。所以,研究人类视觉表达方式,是解决机器人视觉中物体表达的有效途径,至少具有重要的参考作用。

2::两种主要的物体表达方式

尽管文献中对物体有大量不同的数学描述方式,如显著特征描述,不变量描述,弹性模型等等,但这些模型可以说仅仅是针对某些特定物体在特定环境下的一些表达形式,还上升不到通用的物体表达方式的层次。就目前的文献看,物体表达方式主要由两种模型。一种称为三维形状模型(3D model), 一种称为二维图像模型(view-based model).

马尔的三维模型

三维形状模型是上世纪80年代由麻省理工学院已故教授马尔(David Marr )提出的。基本思想是:物体在大脑中的表达是物体的三维几何形状。因为物体的三维几何形状与视角无关,所以人类对物体的表达是与视角无关的表达。马尔三维物体表达模型的提出,宣告了计算机视觉这门学科的诞生。马尔的物体表达方式,主要在他1982年出版的《vision》一书中进行了详细介绍

【1】,至今仍具有重要的影响。马尔的三维模型,文献中也称之为三维重建理论(3D reconstruction). 马尔理论认为,人们首先从看到的二维图像中提取一些诸如点、线、区域等简单基元, 然后通过双目立体视觉,运动视觉等视觉模块将这些简单基元的深度进行复原,最后对物体的整体几何形状给出一个简单表达。马尔的这种三维表达方式,在实践中遇到了很大的困难,并导致一些计算机视觉研究人员的批评和争论

【2】。马尔三维表达最主要的困难是计算机很难可靠地从二维图像来复原物体在成像过程中所丢失的三维深度信息。后来,人们又提出分层重建等理论,来克服深度恢复过程的不鲁棒性问题【3,4】

二维图像模型

心理学实验发现,尽管人们识别物体时,从侧面图像识别与从正面图像识别所需的时间差别不大(人们自身很难觉察到),但还是有差别的。这就从某种程度上说明,人类对物体的表达“不纯粹”是三维表达。如果是三维表达的话,从正面图像与侧面图像识别物体时所需的时间应该完全一样。近年来,人们又提出了基于图像的表达方式【5,6,7】。这种表达方式认为,人类对物体的表达,不是物体的三维几何形状,而是该物体在不同视点下的一组图像。

在这种模型下,物体的识别过程,就成为输入图像与大脑中对该物体存储的一组图像的匹配过程。这种模型数学上的依据是所谓的子空间方法(subspace method).也就是说,同一个物体,虽然从理论上来说可以投影成无数不同的图像, 但在允许一定小误差的情况下,任何一幅图像都可以通过数量有限的一组基图像的线性组合得到,所以大脑仅仅存储这组基图像就可以了。基于图像的模型,还很不成熟。一个明显的问题是,大脑皮层负责物体识别的区域,有大量仅仅对深度信息敏感的神经元,这些深度信息如果不对物体识别起作用,在人类长期进化的过程中,这些细胞应该早已退化不再起作用。

3:展望

物体表达问题,是一个复杂的问题。不论是三维模型,还是二维模型,也许人们都在“瞎子摸象”。文献【8】猜测物体的表达模型可能是二维和三维的混合模型。也就是说,人类在识别物体时,先利用二维图像识别。当二维图像仍不足以区分物体时,此时需要加入三维信息进行区分。总之,物体表达是一个重要的问题,但也是至今仍没有很好解决的一个复杂问题,随着脑成像手段的不断进步,在不远的将来,人们可望对这个问题有更加深入的认识。

摄像机标定

胡占义,中科院自动化研究所模式识别国家重点实验室

摄像机标定(Camera calibration)是指确定摄像机成像几何参数(称为内参数)的过程和方法。

摄像机标定是从多幅二维图像恢复场景三维几何结构必不可少的步骤,是计算机视觉的重要研究内容。由于摄像机制造厂家提供的出场参数一般来说不能满足应用精度的需求,所以在具体应用中需要对使用的摄像机进行标定。摄像机标定可以分为传统标定和自标定两大类。传统标定是指利用结构已知的高精度的标定块进行标定的方法。自标定是指不需要标定块、仅仅利用多幅图像之间几何基元(如点、线等)之间的对应关系进行标定的方法。自标定理论本质上利用的是射影空间的绝对二次曲线(或绝对二次曲面)在图像上的像与摄像机运动无关、仅与内参数有关的事实。摄像机标定一般是指对针孔成像模型下成像参数的确定过程。在精度要求很高的应用场合,需要考虑摄像机的非线性畸变参数,畸变包括径向畸变和切向畸变,一般来说,径向畸变需要首先考虑。

近年来,一些大视场成像设备得到了广泛应用。主要有鱼眼相机(fish-eye camera)和反射折射相机( catadioptric camera), 这些相机的视场角大,图像畸变大,标定方法相对复杂。

视觉计算理论(Computational Theory of Vision)

胡占义,中科院自动化研究所模式识别国家重点实验室

视觉计算理论一般是指马尔(D. Marr )在其《Vision》[1] 一书中提出的视觉计算理论和方法。马尔计算视觉理论的提出,标志着计算机视觉成为了一门独立的学科。

马尔计算视觉理论包含二个主要观点:首先,马尔认为人类视觉的主要功能是复原三维场景的可见几何表面,即三维重建问题;其次,马尔认为这种从二维图像到三维几何结构的复原过程是可以通过计算完成的,并提出了一套完整的计算理论和方法。所以,马尔视觉计算理论在一些文献中也被称为三维重建理论。

马尔认为,从二维图像复原物体的三维结构,涉及三个不同的层次。首先是计算理论层次,也就是说,需要使用何种类型的约束来完成这一过程。马尔认为合理的约束是场景固有的性质在成像过程中对图像形成的约束。其次是表达和算法层次,也就是说如何来具体计算。最后是实现层次。马尔对表达和算法层次进行了详细讨论。

他认为从二维图像恢复三维物体,经历了三个主要步骤,即图像初始略图(sketch)物体2.5维描述—>物体3维描述。其中,初始略图是指高斯拉普拉斯滤波图像中的过零点(zero-crossing)、短线段、端点等基元特征。物体2.5维描述是指在观测者坐标系下对物体形状的一些粗略描述,如物体的法向量等。物体3维描述是指在物体自身坐标系下对物体的描述,如球体以球心为坐标原点的表述。

马尔视觉计算理论是上世纪八十年代初提出的,尔后三十多年的研究中,人们发现马尔理论的基本假设:“人类视觉的主要功能是复原三维场景的可见几何表面”基本上是不正确的,“物体识别中的三维表达的假设”也基本与人类物体识别的神经生理机理不相符。

尽管如此,马尔计算视觉理论在计算机视觉领域的影响是深远的,他所提出的层次化三维重建框架,至今是计算机视觉中的主流方法。尽管文献中很多人对马尔理论提出了质疑、批评和改进,但就目前的研究状况看,还没有任何一种理论可以取代马尔理论,或与其相提并论。

基于图片的三维重建

相片是人们日常生活中不可或缺的一部分,它在记录一个难忘的时刻的同时,也记录下了所拍摄内容的部分结构信息。利用这些结构信息,通过多张不同视角拍摄的相片则可以恢复出被摄对象的三维结构。这一技术在移动平台迅速发展和普及的今天,将极大拓展普通用户获取感兴趣信息的方式。由于计算得到三维结构的同时,我们还得到了拍摄这些相片时相机所在的空间位置和朝向,因此可用于无GPS等定位信息存在时的室内外定位场合。将三维技术与基于图像的渲染技术相结合,还可以在离散的相片之间生成一系列虚拟的相片,连续播放时能产生媲美视频的效果,让美好的记忆更加生动。

基于深度信息的高精度建模

高精度模型不仅仅可以用于物体的展示,还可以用于3D打印和电影特效等,因此高精度模型在工业和娱乐领域都有着重要的应用。我们目前可使用激光测距仪和Kinect等设备采集深度信息,并通过点云拼接技术得到扫描对象的三维点云,最后在点云基础上采用表面重建技术得到可供计算机进行贴图和光照渲染的表面模型。

基于RGB-Depth三维重建

近年来,随着三维深度成像技术的发展(如structure light和time of light),出现了越来越多的轻便的消费级别深度相机(微软Kinect, 华硕Xtion Pro Live, Intel RealSense, Google Tango),可以预见深度相机将会成为移动设备标配,越来越走进我们的生活。深度相机提供了三维距离信息,通过实时计算深度相机的位置和朝向,可以实现对现实三维世界的实时重建。彩色相机和深度相机的结合,可以完整的重现多彩的现实三维世界。基于RGB-Depth图像,我们研究实时的三维物体和场景重建,SLAM,快速有效的loop检测和loop closing技术,实现了一个实时重建系统。基于RGB-Depth重建即使可以实现实时的三维物体建模,三维室内地图创建和定位,并结合渲染技术应用于三维展示(商品,场景),实时的室内虚拟现实和增强现实等应用中。

人体重建效果

二维图像三维化摄像机标定视觉计算理论(Computational Theory of Vision)

参考文献

【1】David Marr, Vision: A computational investigation into the human representation and processing of visual information, W.H. Freeman and Company, 1982.

【2】Michael J. Tarr and Michael J. Black, A computational and Evolutionary Perspective on the Role of Representation in Vision, CVGIP:Image Understanding, Vol.60, No.1, pp.65-73, 1994

【3】Olivier D. Faugeras, Three-Dimensional Computer Vision: A geometric Viewpoint, MIT Press, 1993;

【4】Richard Hartely and Andrew Zisserman, Multiple View Geometry in Computer Vision, Cambridge University Press, 2000.

【5】Maximilian Riesenhuber and Tomoso Poggio, Models of Object Recognition, Nature Neuroscience supplement, Vol.3, Nov., pp.1199-1204, 2000

【6】Michael Tarr, Pepper Williams, William G. Hayward, and Isabel Gauthier, Three-dimensional Object recognition is viewpoint dependent, Nature Neuroscience, Vol.1, No.4, pp.275-277, August, 1998.

【7】Tomoso Poggio and Emillo Bizzi, Generalization in vision and motor control, Nature 431(14):768-774, 2004

【8】Guy A. Orban, Peter Jansen, and Rufin Vogels, Extracting 3D structure from disparity, Trends in Neuroscience, Vol.29, No.8, pp466-473, 2006

   [9]: David Marr, Vision: A computational Investigation into the human representation and processing of visual information, W. H. Freeman and Company, 1982.

  [10]: R. Hartley and A. Zisserman, Multiple View Geometry in Computer Vision, Second Edition,Cambridge University Press, 2004

继续阅读