3D機器視覺所帶來的技術發展趨勢

在科幻小說中，機器人要麼是與人類對立，要麼是變異成壞人。但如今現實生活中機器人的應用大為不同。機器正代替人眼來看世界并加以行動，它們所到之處讓生活變得智慧化。

通過攝取圖像模拟人眼的視覺功能，提取資訊然後加以分析處理，機器視覺已成為智慧城市過程中不可或缺的“第三隻眼睛”，其應用領域也從食品生産流程管理、農業種植控制、醫學檢測等方面的個體需求到交通及安防等公共項目。其中我司深圳朗銳智科實業有限公司研發的雞蛋收集線計數器，就被投放到家禽養殖場使用，在使用過程中可以提高效率和降低成本。

随着機器視覺的發展與進步，3D機器視覺迎來了自動化行業的巨大機遇，主要用于品質保證和檢測。據資料預測，2017年到2022年期間的複合年增長率将達到11.07%，2022年全球3D機器視覺市場規模有望達到21.3億美元。

在機器視覺頂會中，差不多會有半壁江山那麼多的論文都是跟3D有關。前沿探索可謂瘋狂進行，那麼有哪些三維圖像+機器視覺的新技術趨勢，今天正隐藏在未知迷霧中眺望這個世界？今天我們來說幾種很有科幻感的技術突破點。說不定這些能力明年就會出現在你的手機、VR裝置和無人機中，又或許即将成為某個被資本瘋狂親吻的創業熱潮。

超大場景的3D資料感覺

3D機器視覺包括很多方面，既有讓智能體去了解3D資料，也包括如何通過機器視覺的解決方案，去擷取3D模型資料。

傳統意義上的3D資料擷取，或者稱其為3D感覺技術，一般來說可以利用多角度拍照或者深度傳感器的方式實作3D資料收集。這種技術的局限在于，收集的3D資料不能太大。

然而在3D資料要求不斷更新的今天，對于超大場景的3D資料感覺，正在成為一個熱門議題。比如無人駕駛中使用的城市高精地圖，就可以看做一個個超大3D場景的拼接。智能城市領域運用到的很多城市資料推演，也要根植于對城市3D場景的收集。

機器視覺正在為超大場景的3D資料感覺提供很多新的方法。比如自動化的成像方法，像視覺SLAM線上處理連續幀的圖像，實作實時重建巨大3D場景。再比如說對航拍資料進行點雲分割和點雲資料的語義了解，幫助快速低成本擷取城市3D資料。

總體來看，今天超大場景的3D資料感覺，有三個主要應用方向，很可能分别成為各自技術領域中新的投資和創業熱點：

1、建築物的3D高精度模型，運用在工程監理、智能設計、物流和智能城市領域。

2、高精地圖與3D資料感覺的結合，這是無人駕駛的重要一環。

3、室内外一體的3D模組化，這對于智能家居設計、環境監控、VR/AR體驗來說都有重要幫助。

手機與3D視覺進入蜜月期

目前，智能手機已經成為AR/AR以及計算視覺等先進技術發展的最大載體，人臉識别、AR功能成為目前智能手機發展的熱點，其實無論是在AR/VR領域還是識别技術，都離不開計算視覺。計算視覺領域其實就是運用計算機技術對生物視覺的一種模拟，其中深度識别和多元成像使其核心技術。

深度識别是計算視覺的關鍵前提，能夠對生物視覺進行識别，其中包括目前流行的蘋果人臉識别技術，多元成像将包括目前的3D顯示結局即對圖檔以及視訊等進行3D畫面的再現。利用深度識别和多元成像技術，除了還原我們肉眼所能看到的畫面，未來随着技術的不斷融合，深度識别技術還能是立體的展示我們肉眼所看不到的東西。例如，未來的智能手機可以在陽光下利用深度識别技術和人工智能技術的分析，識别紫外線的強度，提醒我們的防曬護膚。

AR/VR中的眼球追蹤技術

随着技術的進步，我們現在已經能夠利用人類眼睛進行虹膜識别，虹膜識别相較面部識别、指紋識别都更加有效和安全，很多手機廠商開始開發使用虹膜識别功能。

除了虹膜識别之外，還有眼球追蹤技術。所謂眼球追蹤，是指一項技術能夠追蹤眼球的運動，并利用這種眼球運動來增強某個産品或服務的體驗。

眼球追蹤技術曾經在智能手機領域火了一陣，這可能要追溯到2013年Galaxy S4手機率先搭載了眼球追蹤功能，這項功能主要應用在視訊播放上面。舉個例子，如果你正在觀看一個視訊，然後你身後的同學拍了一下你肩膀，在你轉過頭的時候，由于你的眼睛已經不再看着螢幕，視訊會自動暫停，而當你回過頭來，視訊會自動繼續播放。不需要你用手去點選暫停和播放;或者你在手機上看網頁，當你眼睛看到螢幕底部的時候，網頁會自動翻頁。同年，LG也推出了一款擁有眼球追蹤功能的LG Optimus G Pro手機。

可惜，眼球追蹤未能在手機領域掀起大風大浪，原因大概有兩點。首先使用者沒有需求，一款智能手機的平均尺寸大約隻有5英寸，在這麼一丁點兒大的地方，人們更喜歡直接用手指進行互動，何況手機絕大部分功能都是使用手指進行互動，是以也不多點傳播放/暫停這個環節;第二個原因就是，當時技術不太成熟，分辨率低，識别不夠精準，導緻有使用者覺得眼睛累。

3D視覺助力機器人産業智能化轉型

3D視覺作為一項激動人心的新技術，早已經出現在微軟Kinect、英特爾RealSense等消費級産品中。近幾年，随着硬體端技術的不斷進步，算法與軟體層面的不斷優化，3D深度視覺的精度和實用性得到大幅提升，使得“3D深度相機+手勢/人臉識别”具備了大規模進入移動智能終端的基礎。作為全球手機當之無愧的龍頭，蘋果率先大規模采用3D視覺技術，将徹底激活3D視覺市場，開啟全新時代。

3D視覺技術不僅僅在識别精度方面大幅提升，更重要的是打開了更加廣闊的人工智能應用空間。随着機器視覺、人工智能、人機互動等科學技術的發展，各種高智能機器人開始走進現實，3D視覺技術成為助力制造業實作“智能化”轉型的好幫手。

大家耳熟能詳的深度攝像頭技術和應用有英特爾的RealSense、微軟的 Kinect、蘋果的 PrimeSense、以及谷歌的Project Tango等。不過可以看到這一技術的研究和開發多為國外公司，國内計算視覺方面的公司或創業團隊屈指可數，技術上的壁壘依舊較大。

關于目前市場上的深度相機的技術方案主要有以下三種：雙目被動視覺、結構光、TOF。雙目被動視覺主要是利用兩個光學攝像頭，通過左右立體像對比對後，再經過三角測量法來得到深度資訊。此算法複雜度高，難度很大，處理晶片需要很高的計算性能，同時它也繼承了普通RGB攝像頭的缺點：在昏暗環境下以及特征不明顯的情況下并不适用。

結構光的原理是通過紅外雷射發射相對随機但又固定的斑點圖案，這些光斑打在物體上後，因為與攝像頭距離不同，被攝像頭捕捉到的位置也不盡相同。然後先計算拍到的圖的斑點與标定的标準圖案在不同位置的位移，引入攝像頭位置、傳感器大小等參數計算出物體與攝像頭的距離。

微軟在Kinect二代采用的是ToF的技術。ToF是Time of flight的簡寫，直譯為飛行時間的意思。所謂飛行時間法3D成像，是通過給目标連續發送光脈沖，然後用傳感器接收從物體傳回的光，通過探測光脈沖的飛行（往返）時間來得到目标物距離。相比之下，結構光技術的優勢是比ToF更加成熟，成本更低，更加适合用在手機等移動裝置上。

深度攝像頭是所有需要三維視覺裝置的必需子產品，有了它，裝置就能夠實時擷取周圍環境物體三維尺寸和深度資訊，更全面的讀懂世界。深度攝像頭給室内導航與定位、避障、動作捕捉、三維掃描模組化等應用提供了基礎的技術支援，成為現今行業研究熱點。如今iPhone X搭載3D深度攝像頭勢必會大力推動機器視覺領域的發展，助力機器人産業實作完美“智能化轉型”。

更好的深度傳感器解決方案

還有一個機器視覺技術和3D的交彙，主要發生在無人機領域。

無人機今天進行測繪和航拍時，必須附帶對空間的了解能力，否則拍照不準事小，撞了南牆事大。而這個能力主要來自于攝像頭和傳感器進行空間閱讀。

随着消費級無人機的不斷更新，人們對無人機拍攝效果要求也不斷升高。無人機必須不斷在更遠的距離、更極端的天氣、更複雜的運動中拍攝畫面。然而傳統的傳感系統解決方案已經快要跟不上使用者的期許。

今天的消費級無人機，一般采取兩種感覺解決方案，一種是雙目視覺技術，比如大疆的某些産品；一種是結構光傳感器，比如微軟的Kinect。而這兩種主流方案都是有一定局限的，比如感覺範圍都有限，難以完成遠距離作業。再比如雙目視覺技術在黑夜中會失靈，是以無人機夜拍一直是個大坑，然而結構光技術應對不來強光，一到中午無人機就石樂志也是很心塞的。

更好的解決方案，在于将傳感器與智能攝像頭結合起來，達成可以适應不同天候與天氣，并且可以長距離感覺的新型傳感系統解決方案。

今天，用機器視覺技術中的很多算法，協調不同的傳感裝置工作，讓無人機變成“多眼無人機”，正在成為流行的解決方案。機器視覺算法大量加入無人機傳感器，還可能帶來軌迹拍攝能力提升，讓無人機獲得拍攝整體環境，或者精準捕捉動态物體，比如說運動中的動物和車輛的能力。

以上幾個技術趨勢，都可能成為機器視覺和圖形學應用的下一步熱點。這個領域看似偏門，事實上卻能影響今天科技市場中的風吹草動。

讓機器看到立體世界的遊戲才剛剛開始，機器與人類在某一天可以用同樣的視角互相凝視，或許才是這個故事的終點。

來源：機械視覺沙龍

聲明：部分内容來源于網絡，僅供讀者學習、交流之目的。文章版權歸原作者所有。如有不妥，請聯系删除。