天天看點

二維圖像三維化錄影機标定視覺計算理論(Computational Theory of Vision)

今天看了一篇大神的關于在2D圖像中插入物體建構動畫的文章,覺得很有意思,現在簡要copy一下分享給大家

1: 物體表達的必要性和重要性

機器人能像人一樣識别物體,是機器人視覺(robot vision)專家的夢想和追求。要想識别物體,不論是人還是機器人,僅僅看到是不夠的,還需要知道物體的表達方式。表達是一個與認知科學密切聯系的詞彙,英文是representation, 通俗地講, 物體表達問題就是指物體在大腦(對人類)或計算機内(對機器人)是如何對物體進行表示的問題。

物體表達是物體識别的主要步驟。對機器人而言,不同的表達(主要指不同的數學模型),直接決定着對物體識别的能力和可靠性。這主要是因為一個物體從不同的方向看,對應的圖像是不同的,有時甚至差别很大。人們希望物體表達方式盡量與觀察物體的視角無關。這也是為什麼要研究有效表達的原因。目前機器人很難處理同一物體在不同視角下的物體識别問題。然而,我們人類在識别物體時似乎對這種視角變化很不敏感。是以,研究人類視覺表達方式,是解決機器人視覺中物體表達的有效途徑,至少具有重要的參考作用。

2::兩種主要的物體表達方式

盡管文獻中對物體有大量不同的數學描述方式,如顯著特征描述,不變量描述,彈性模型等等,但這些模型可以說僅僅是針對某些特定物體在特定環境下的一些表達形式,還上升不到通用的物體表達方式的層次。就目前的文獻看,物體表達方式主要由兩種模型。一種稱為三維形狀模型(3D model), 一種稱為二維圖像模型(view-based model).

馬爾的三維模型

三維形狀模型是上世紀80年代由麻省理工學院已故教授馬爾(David Marr )提出的。基本思想是:物體在大腦中的表達是物體的三維幾何形狀。因為物體的三維幾何形狀與視角無關,是以人類對物體的表達是與視角無關的表達。馬爾三維物體表達模型的提出,宣告了計算機視覺這門學科的誕生。馬爾的物體表達方式,主要在他1982年出版的《vision》一書中進行了詳細介紹

【1】,至今仍具有重要的影響。馬爾的三維模型,文獻中也稱之為三維重建理論(3D reconstruction). 馬爾理論認為,人們首先從看到的二維圖像中提取一些諸如點、線、區域等簡單基元, 然後通過雙目立體視覺,運動視覺等視覺子產品将這些簡單基元的深度進行複原,最後對物體的整體幾何形狀給出一個簡單表達。馬爾的這種三維表達方式,在實踐中遇到了很大的困難,并導緻一些計算機視覺研究人員的批評和争論

【2】。馬爾三維表達最主要的困難是計算機很難可靠地從二維圖像來複原物體在成像過程中所丢失的三維深度資訊。後來,人們又提出分層重建等理論,來克服深度恢複過程的不魯棒性問題【3,4】

二維圖像模型

心理學實驗發現,盡管人們識别物體時,從側面圖像識别與從正面圖像識别所需的時間差别不大(人們自身很難覺察到),但還是有差别的。這就從某種程度上說明,人類對物體的表達“不純粹”是三維表達。如果是三維表達的話,從正面圖像與側面圖像識别物體時所需的時間應該完全一樣。近年來,人們又提出了基于圖像的表達方式【5,6,7】。這種表達方式認為,人類對物體的表達,不是物體的三維幾何形狀,而是該物體在不同視點下的一組圖像。

在這種模型下,物體的識别過程,就成為輸入圖像與大腦中對該物體存儲的一組圖像的比對過程。這種模型數學上的依據是所謂的子空間方法(subspace method).也就是說,同一個物體,雖然從理論上來說可以投影成無數不同的圖像, 但在允許一定小誤差的情況下,任何一幅圖像都可以通過數量有限的一組基圖像的線性組合得到,是以大腦僅僅存儲這組基圖像就可以了。基于圖像的模型,還很不成熟。一個明顯的問題是,大腦皮層負責物體識别的區域,有大量僅僅對深度資訊敏感的神經元,這些深度資訊如果不對物體識别起作用,在人類長期進化的過程中,這些細胞應該早已退化不再起作用。

3:展望

物體表達問題,是一個複雜的問題。不論是三維模型,還是二維模型,也許人們都在“瞎子摸象”。文獻【8】猜測物體的表達模型可能是二維和三維的混合模型。也就是說,人類在識别物體時,先利用二維圖像識别。當二維圖像仍不足以區分物體時,此時需要加入三維資訊進行區分。總之,物體表達是一個重要的問題,但也是至今仍沒有很好解決的一個複雜問題,随着腦成像手段的不斷進步,在不遠的将來,人們可望對這個問題有更加深入的認識。

錄影機标定

胡占義,中科院自動化研究所模式識别國家重點實驗室

錄影機标定(Camera calibration)是指确定錄影機成像幾何參數(稱為内參數)的過程和方法。

錄影機标定是從多幅二維圖像恢複場景三維幾何結構必不可少的步驟,是計算機視覺的重要研究内容。由于錄影機制造廠家提供的出場參數一般來說不能滿足應用精度的需求,是以在具體應用中需要對使用的錄影機進行标定。錄影機标定可以分為傳統标定和自标定兩大類。傳統标定是指利用結構已知的高精度的标定塊進行标定的方法。自标定是指不需要标定塊、僅僅利用多幅圖像之間幾何基元(如點、線等)之間的對應關系進行标定的方法。自标定理論本質上利用的是射影空間的絕對二次曲線(或絕對二次曲面)在圖像上的像與錄影機運動無關、僅與内參數有關的事實。錄影機标定一般是指對針孔成像模型下成像參數的确定過程。在精度要求很高的應用場合,需要考慮錄影機的非線性畸變參數,畸變包括徑向畸變和切向畸變,一般來說,徑向畸變需要首先考慮。

近年來,一些大視場成像裝置得到了廣泛應用。主要有魚眼相機(fish-eye camera)和反射折射相機( catadioptric camera), 這些相機的視場角大,圖像畸變大,标定方法相對複雜。

視覺計算理論(Computational Theory of Vision)

胡占義,中科院自動化研究所模式識别國家重點實驗室

視覺計算理論一般是指馬爾(D. Marr )在其《Vision》[1] 一書中提出的視覺計算理論和方法。馬爾計算視覺理論的提出,标志着計算機視覺成為了一門獨立的學科。

馬爾計算視覺理論包含二個主要觀點:首先,馬爾認為人類視覺的主要功能是複原三維場景的可見幾何表面,即三維重建問題;其次,馬爾認為這種從二維圖像到三維幾何結構的複原過程是可以通過計算完成的,并提出了一套完整的計算理論和方法。是以,馬爾視覺計算理論在一些文獻中也被稱為三維重建理論。

馬爾認為,從二維圖像複原物體的三維結構,涉及三個不同的層次。首先是計算理論層次,也就是說,需要使用何種類型的限制來完成這一過程。馬爾認為合理的限制是場景固有的性質在成像過程中對圖像形成的限制。其次是表達和算法層次,也就是說如何來具體計算。最後是實作層次。馬爾對表達和算法層次進行了詳細讨論。

他認為從二維圖像恢複三維物體,經曆了三個主要步驟,即圖像初始略圖(sketch)物體2.5維描述—>物體3維描述。其中,初始略圖是指高斯拉普拉斯濾波圖像中的過零點(zero-crossing)、短線段、端點等基元特征。物體2.5維描述是指在觀測者坐标系下對物體形狀的一些粗略描述,如物體的法向量等。物體3維描述是指在物體自身坐标系下對物體的描述,如球體以球心為坐标原點的表述。

馬爾視覺計算理論是上世紀八十年代初提出的,爾後三十多年的研究中,人們發現馬爾理論的基本假設:“人類視覺的主要功能是複原三維場景的可見幾何表面”基本上是不正确的,“物體識别中的三維表達的假設”也基本與人類物體識别的神經生理機理不相符。

盡管如此,馬爾計算視覺理論在計算機視覺領域的影響是深遠的,他所提出的階層化三維重建架構,至今是計算機視覺中的主流方法。盡管文獻中很多人對馬爾理論提出了質疑、批評和改進,但就目前的研究狀況看,還沒有任何一種理論可以取代馬爾理論,或與其相提并論。

基于圖檔的三維重建

相片是人們日常生活中不可或缺的一部分,它在記錄一個難忘的時刻的同時,也記錄下了所拍攝内容的部分結構資訊。利用這些結構資訊,通過多張不同視角拍攝的相片則可以恢複出被攝對象的三維結構。這一技術在移動平台迅速發展和普及的今天,将極大拓展普通使用者擷取感興趣資訊的方式。由于計算得到三維結構的同時,我們還得到了拍攝這些相片時相機所在的空間位置和朝向,是以可用于無GPS等定位資訊存在時的室内外定位場合。将三維技術與基于圖像的渲染技術相結合,還可以在離散的相片之間生成一系列虛拟的相片,連續播放時能産生媲美視訊的效果,讓美好的記憶更加生動。

基于深度資訊的高精度模組化

高精度模型不僅僅可以用于物體的展示,還可以用于3D列印和電影特效等,是以高精度模型在工業和娛樂領域都有着重要的應用。我們目前可使用雷射測距儀和Kinect等裝置采集深度資訊,并通過點雲拼接技術得到掃描對象的三維點雲,最後在點雲基礎上采用表面重建技術得到可供計算機進行貼圖和光照渲染的表面模型。

基于RGB-Depth三維重建

近年來,随着三維深度成像技術的發展(如structure light和time of light),出現了越來越多的輕便的消費級别深度相機(微軟Kinect, 華碩Xtion Pro Live, Intel RealSense, Google Tango),可以預見深度相機将會成為移動裝置标配,越來越走進我們的生活。深度相機提供了三維距離資訊,通過實時計算深度相機的位置和朝向,可以實作對現實三維世界的實時重建。彩色相機和深度相機的結合,可以完整的重制多彩的現實三維世界。基于RGB-Depth圖像,我們研究實時的三維物體和場景重建,SLAM,快速有效的loop檢測和loop closing技術,實作了一個實時重建系統。基于RGB-Depth重建即使可以實作實時的三維物體模組化,三維室内地圖建立和定位,并結合渲染技術應用于三維展示(商品,場景),實時的室内虛拟現實和增強現實等應用中。

人體重建效果

二維圖像三維化錄影機标定視覺計算理論(Computational Theory of Vision)

參考文獻

【1】David Marr, Vision: A computational investigation into the human representation and processing of visual information, W.H. Freeman and Company, 1982.

【2】Michael J. Tarr and Michael J. Black, A computational and Evolutionary Perspective on the Role of Representation in Vision, CVGIP:Image Understanding, Vol.60, No.1, pp.65-73, 1994

【3】Olivier D. Faugeras, Three-Dimensional Computer Vision: A geometric Viewpoint, MIT Press, 1993;

【4】Richard Hartely and Andrew Zisserman, Multiple View Geometry in Computer Vision, Cambridge University Press, 2000.

【5】Maximilian Riesenhuber and Tomoso Poggio, Models of Object Recognition, Nature Neuroscience supplement, Vol.3, Nov., pp.1199-1204, 2000

【6】Michael Tarr, Pepper Williams, William G. Hayward, and Isabel Gauthier, Three-dimensional Object recognition is viewpoint dependent, Nature Neuroscience, Vol.1, No.4, pp.275-277, August, 1998.

【7】Tomoso Poggio and Emillo Bizzi, Generalization in vision and motor control, Nature 431(14):768-774, 2004

【8】Guy A. Orban, Peter Jansen, and Rufin Vogels, Extracting 3D structure from disparity, Trends in Neuroscience, Vol.29, No.8, pp466-473, 2006

   [9]: David Marr, Vision: A computational Investigation into the human representation and processing of visual information, W. H. Freeman and Company, 1982.

  [10]: R. Hartley and A. Zisserman, Multiple View Geometry in Computer Vision, Second Edition,Cambridge University Press, 2004

繼續閱讀