本文節選《2019人工智能發展報告》第三章計算機視覺篇,涵蓋計算機視覺概念、發展曆史、人才概況、論文解讀以及計算機視覺目前進展的深度解讀。
本報告共393頁,足夠詳實,想要下載下傳報告請戳連結:
https://yq.aliyun.com/download/38773.1計算機視覺概念
計算機視覺(computer vision),顧名思義,是分析、研究讓計算機智能化的達到類似人類的雙眼“看”的一門研究科學[3]。即對于客觀存在的三維立體化的世界的了解以及識别依靠智能化的計算機去實作。确切地說,計算機視覺技術就是利用了錄影機以及電腦替代人眼使得計算機擁有人類的雙眼所具有的分割、分類、識别、跟蹤、判别決策等功能。總之,計算機視覺系統就是建立了能夠在2D的平面圖像或者3D的三維立體圖像的資料中,以擷取所需要的“資訊”的一個完整的人工智能系統。
計算機視覺技術是一門包括了計算機科學與工程、神經生理學、實體學、信号處理、認知科學、應用數學與統計等多門科學學科的綜合性科學技術。由于計算機視覺技術系統在基于高性能的計算機的基礎上,其能夠快速的擷取大量的資料資訊并且基于智能算法能夠快速的進行處理資訊,也易于同設計資訊和加工控制資訊內建。
計算機視覺本身包括了諸多不同的研究方向,比較基礎和熱門的方向包括:物體識别和檢測(Object Detection),語義分割(Semantic Segmentation),運動和跟蹤(Motion & Tracking),視覺問答(Visual Question & Answering)等[4]。
物體識别和檢測
物體檢測一直是計算機視覺中非常基礎且重要的一個研究方向,大多數新的算法或深度學習網絡結構都首先在物體檢測中得以應用如VGG-net,GoogLeNet,ResNet等等,每年在imagenet資料集上面都不斷有新的算法湧現,一次次突破曆史,創下新的記錄,而這些新的算法或網絡結構很快就會成為這一年的熱點,并被改進應用到計算機視覺中的其它應用中去。
物體識别和檢測,顧名思義,即給定一張輸入圖檔,算法能夠自動找出圖檔中的常見物體,并将其所屬類别及位置輸出出來。當然也就衍生出了諸如人臉檢測(Face Detection),車輛檢測(Viechle Detection)等細分類的檢測算法。
語義分割
語義分割是近年來非常熱門的方向,簡單來說,它其實可以看作一種特殊的分類——将輸入圖像的每一個像素點進行歸類,用一張圖就可以很清晰地描述出來。很清楚地就可以看出,物體檢測和識别通常是将物體在原圖像上框出,可以說是“宏觀”上的物體,而語義分割是從每一個像素上進行分類,圖像中的每一個像素都有屬于自己的類别。
運動和跟蹤
跟蹤也屬于計算機視覺領域内的基礎問題之一,在近年來也得到了非常充足的發展,方法也由過去的非深度算法跨越向了深度學習算法,精度也越來越高,不過實時的深度學習跟蹤算法精度一直難以提升,而精度非常高的跟蹤算法的速度又十分之慢,是以在實際應用中也很難派上用場。
學術界對待跟蹤的評判标準主要是在一段給定的視訊中,在第一幀給出被跟蹤物體的位置及尺度大小,在後續的視訊當中,跟蹤算法需要從視訊中去尋找到被跟蹤物體的位置,并适應各類光照變換,運動模糊以及表觀的變化等。但實際上跟蹤是一個不适定問題(ill posed problem),比如跟蹤一輛車,如果從車的尾部開始跟蹤,若是車輛在行進過程中表觀發生了非常大的變化,如旋轉了180度變成了側面,那麼現有的跟蹤算法很大的可能性是跟蹤不到的,因為它們的模型大多基于第一幀的學習,雖然在随後的跟蹤過程中也會更新,但受限于訓練樣本過少,是以難以得到一個良好的跟蹤模型,在被跟蹤物體的表觀發生巨大變化時,就難以适應了。是以,就目前而言,跟蹤算不上是計算機視覺内特别熱門的一個研究方向,很多算法都改進自檢測或識别算法。
視覺問答
視覺問答也簡稱VQA(Visual Question Answering),是近年來非常熱門的一個方向,其研究目的旨在根據輸入圖像,由使用者進行提問,而算法自動根據提問内容進行回答。除了問答以外,還有一種算法被稱為标題生成算法(Caption Generation),即計算機根據圖像自動生成一段描述該圖像的文本,而不進行問答。對于這類跨越兩種資料形态(如文本和圖像)的算法,有時候也可以稱之為多模态,或跨模态問題。
3.2 計算機視覺發展曆史
盡管人們對計算機視覺這門學科的起始時間和發展曆史有不同的看法,但應該說,1982年馬爾(David Marr)《視覺》(Marr,1982)一書的問世,标志着計算機視覺成為了一門獨立學科。計算機視覺的研究内容,大體可以分為物體視覺(object vision)和空間視覺(spatial vision)二大部分。物體視覺在于對物體進行精細分類和鑒别,而空間視覺在于确定物體的位置和形狀,為“動作(action)”服務。正像著名的認知心理學家J.J.Gibson所言,視覺的主要功能在于“适應外界環境,控制自身運動”。适應外界環境和控制自身運動,是生物生存的需求,這些功能的實作需要靠物體視覺和空間視覺協調完成。
計算機視覺40多年的發展中,盡管人們提出了大量的理論和方法,但總體上說,計算機視覺經曆了三個主要曆程。即:馬爾計算視覺、多視幾何與分層三維重建和基于學習的視覺。下面将對這三項主要内容進行簡要介紹[5]。
馬爾計算視覺(Computational Vision)
現在很多計算機視覺的研究人員,恐怕對“馬爾計算視覺”根本不了解,這不能不說是一件非常遺憾的事。目前,在計算機上調“深度網絡”來提高物體識别的精度似乎就等于從事“視覺研究”。事實上,馬爾的計算視覺的提出,不論在理論上還是研究視覺的方法論上,均具有劃時代的意義。
馬爾的計算視覺分為三個層次:計算理論、表達和算法以及算法實作。由于馬爾認為算法實作并不影響算法的功能和效果,是以,馬爾計算視覺理論主要讨論“計算理論”和“表達與算法”二部分内容。馬爾認為,大腦的神經計算和計算機的數值計算沒有本質差別,是以馬爾沒有對“算法實作”進行任何探讨。從現在神經科學的進展看,“神經計算”與數值計算在有些情況下會産生本質差別,如目前興起的神經形态計算(Neuromorphological computing),但總體上說,“數值計算”可以“模拟神經計算”。至少從現在看,“算法的不同實作途徑”,并不影響馬爾計算視覺理論的本質屬性。
多視幾何與分層三維重建
上世紀90年代初計算機視覺從“蕭條”走向進一步“繁榮”,主要得益于以下二方面的因素:首先,瞄準的應用領域從精度和魯棒性要求太高的“工業應用”轉到要求不太高,特别是僅僅需要“視覺效果”的應用領域,如遠端視訊會議(teleconference),考古,虛拟現實,視訊監控等。另一方面,人們發現,多視幾何理論下的分層三維重建能有效提高三維重建的魯棒性和精度。
多視幾何的代表性人物首數法國INRIA的O.Faugeras,美國GE研究院的R.Hartely和英國牛津大學的A.Zisserman。應該說,多視幾何的理論于2000年已基本完善。2000年Hartley和Zisserman合著的書(Hartley & Zisserman2000)對這方面的内容給出了比較系統的總結,而後這方面的工作主要集中在如何提高“大資料下魯棒性重建的計算效率”。
大資料需要全自動重建,而全自動重建需要反複優化,而反複優化需要花費大量計算資源。是以,如何在保證魯棒性的前提下快速進行大場景的三維重建是後期研究的重點。舉一個簡單例子,假如要三維重建北京中關村地區,為了保證重建的完整性,需要擷取大量的地面和無人機圖像。假如擷取了1萬幅地面高分辨率圖像(4000×3000),5千幅高分辨率無人機圖像(8000×7000)(這樣的圖像規模是目前的典型規模),三維重建要比對這些圖像,從中選取合适的圖像集,然後對相機位置資訊進行标定并重建出場景的三維結構,如此大的資料量,人工幹預是不可能的,是以整個三維重建流程必須全自動進行。這樣需要重建算法和系統具有非常高的魯棒性,否則根本無法全自動三維重建。在魯棒性保證的情況下,三維重建效率也是一個巨大的挑戰。是以,目前在這方面的研究重點是如何快速、魯棒地重建大場景。
基于學習的視覺
基于學習的視覺,是指以機器學習為主要技術手段的計算機視覺研究。基于學習的視覺研究,文獻中大體上分為二個階段:本世紀初的以流形學習為代表的子空間法和目前以深度學習為代表的視覺方法。
物體表達是物體識别的核心問題,給定圖像物體,如人臉圖像,不同的表達,物體的分類和識别率不同。另外,直接将圖像像素作為表達是一種“過表達”,也不是一種好的表達。流形學習理論認為,一種圖像物體存在其“内在流形”(intrinsic manifold),這種内在流形是該物體的一種優質表達。是以,流形學習就是從圖像表達學習其内在流形表達的過程,這種内在流形的學習過程一般是一種非線性優化過程。深度學習的成功,主要得益于資料積累和計算能力的提高。深度網絡的概念上世紀80年代就已提出來了,隻是因為當時發現“深度網絡”性能還不如“淺層網絡”,是以沒有得到大的發展。
目前似乎有點計算機視覺就是深度學習的應用之勢,這可以從計算機視覺的三大國際會議:國際計算機視覺會議(ICCV),歐洲計算機視覺會議(ECCV)和計算機視覺和模式識别會議(CVPR)上近年來發表的論文可見一般。目前的基本狀況是,人們都在利用深度學習來“取代”計算機視覺中的傳統方法。“研究人員”成了“調程式的機器”,這實在是一種不正常的“群衆式運動”。牛頓的萬有引力定律,麥克斯韋的電磁方程,愛因斯坦的質能方程,量子力學中的薛定谔方程,似乎還是人們應該追求的目标。
3.3 人才概況
全球人才分布
學者地圖用于描述特定領域學者的分布情況,對于進行學者調查、分析各地區競争力現況尤為重要,下圖為計算機視覺領域全球學者分布情況:
圖 3-1計算機視覺全球學者分布
地圖根據學者目前就職機構地理位置進行繪制,其中顔色越深表示學者越集中。從該地圖可以看出,美國的人才數量優勢明顯且主要分布在其東西海岸;亞洲也有較多的人才分布,主要集中在我國東部及日韓地區;歐洲的人才主要分布在歐洲中西部;其他諸如非洲、南美洲等地區的學者非常稀少;計算機視覺領域的人才分布與各地區的科技、經濟實力情況大體一緻。
此外,在性别比例方面,計算機視覺中男性學者占比91.0%,女性學者占比9.0%,男性學者占比遠高于女性學者。
計算機視覺學者的h-index 分布如下圖所示,大部分學者的h-index 分布在中間區域,其中h-index 在20-30 區間的人數最多,有706 人,占比34.7%,小于20 的區間人數最少,有81人。
中國人才分布
圖 3-3中國計算機視覺學者分布
我國專家學者在計算機視覺領域的分布如下圖所示。通過下圖我們可以發現,京津地區在本領域的人才數量最多,其次是珠三角和長三角地區,相比之下,内陸地區的人才較為匮乏,這種分布與區位因素和經濟水準情況不無關系。同時,通過觀察中國周邊國家的學者數量情況,特别是與日韓、東南亞等亞洲國家相比,中國在計算機視覺領域學者數量相對較多。
中國國際合作
中國與其他國家在計算機視覺的合作情況可以根據AMiner資料平台分析得到,通過統計論文中作者的機關資訊,将作者映射到各個國家中,進而統計中國與各國之間合作論文的數量,并按照合作論文發表數量從高到低進行了排序,如下表所示。
從上表資料可以看出,中美合作的論文數、引用數、學者數遙遙領先,表明中美間在計算機視覺領域合作之密切;同時,中國與世界各地區之間的合作非常廣泛,前10名合作關系裡包含了歐洲、亞洲、北美洲以及大洋洲等;中國與加拿大合作的論文數雖然不是最多,但是擁有最高的平均引用數說明在合作品質上中加合作達到了較高的水準。
3.4 論文解讀
本節對本領域的高水準學術會議論文進行挖掘,解讀這些會議在2018-2019年的部分代表性工作。會議具體包括:
IEEE Conference on Computer Vision and Pattern Recognition
IEEE International Conference on Computer Vision
European Conference on Computer Vision
我們對本領域論文的關鍵詞進行分析,統計出詞頻Top20的關鍵詞,生成本領域研究熱點的詞雲圖。其中,計算機視覺(computer vision)、圖像(images)、視訊(videos)是本領域中最熱的關鍵詞。
論文題目:Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation
中文題目:具有空洞分離卷積的編碼-解碼器用于語義圖像分割
論文作者:Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,Hartwig Adam
論文出處:Proceedings of the European conference on computer vision (ECCV). 2018: 801-818.
論文位址:
https://link.springer.com/chapter/10.1007%2F978-3-030-01234-2_49研究問題:
語義分割是計算機視覺中一項基本且重要的研究内容,它是為圖像中的每個像素配置設定語義标簽。在深度學習語義分割任務中經常會使用空間金字塔池化和編碼-解碼器結構。空間金字塔池化可以通過不同分辨率的池化特征捕捉豐富的上下文資訊,但網絡中具有步進操作的池化或卷積會導緻與對象邊界有關的詳細資訊丢失。這可以通過空洞卷積提取更密集的特征圖來緩解,但大大增加了計算資源的消耗。而編碼-解碼器結構則可以通過逐漸恢複空間資訊來捕獲更清晰的對象邊界。通過組合兩種方法的優點,提出新的模型—DeepLabv3+。
研究方法:
如下圖是DeepLabv3+的網絡結構,通過添加一個簡單但有效的解碼器子產品來優化分割結果,尤其是對象邊界的分割結果,擴充了DeepLabv3。編碼器子產品(DeepLabv3)通過在多個尺度上應用空洞卷積,編碼多尺度上下文資訊。空洞卷積可以明确控制由深度卷積神經網絡所提特征的分辨率,并調整濾波器的感受野以捕獲多尺度資訊。而簡單而有效的解碼器子產品則沿對象邊界調整分割結果。
為了進一步提高模型的性能和速度,将深度分離卷積應用于ASPP(空洞空間金字塔池化)和解碼器子產品。深度分離卷積将傳統的卷積分解為一個深度卷積和一個1×1的逐點卷積,在深度卷積操作時應用膨脹率不同的空洞卷積,以擷取不同的尺度資訊。

研究結果:
以用ImageNet-1k預訓練的ResNet-101和修改的對齊Xception(更多的層、步進深度分離卷積替代最大池化、額外的BN和ReLU)為骨架網絡,通過空洞卷積提取稠密特征。在PASCAL VOC 2012和Cityscapes資料集上證明了DeepLabv3+的有效性和先進性,無需任何後處理即可實作89%和82.1%的測試集性能。但是對非常相近的物體(例如椅子和沙發)、嚴重遮擋的物體和視野極小的物體較難進行分割。
論文題目:MobileNetV2: Inverted Residuals and Linear Bottlenecks
中文題目:MobileNetV2: 反向殘差和線性瓶頸
論文作者:Sandler Mark,Howard Andrew,Zhu Menglong,Zhmoginov Andrey,Chen Liang-Chieh
論文出處:2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2018
https://ieeexplore.ieee.org/document/8578572在衆多計算機視覺領域中,深度神經網絡正扮演越來越重要的角色。但是優秀性能的獲得通常是以高昂計算資源為代價的,進而大大限制了在計算資源嚴重受限的移動端或嵌入式裝置中使用。是以輕量化網絡的研究在近期收到了大量關注,本文提出了一種新的移動端輕量化模型——MobileNetV2,在保持相同精度的同時顯着減少了所需的操作和記憶體需求,關鍵是設計了具有線性瓶頸的反向殘差子產品。将上述模型應用于移動端目标檢測,介紹了一種有效的方法—SSDLite。此外,通過簡化的DeepLabv3建構移動端語義分割模型—Mobile DeepLabv3。
MobileNetV2的關鍵是具有線性瓶頸的反向殘差子產品,該子產品以低維壓縮表示作為輸入,首先将其擴張到高維,然後使用輕量級的深度卷積進行過濾,最後使用線性卷積将特征投影回低維表示。其包含兩個主要的技術:深度分離卷積和殘差子產品。
深度分離卷積是很多有效的神經網絡結構中關鍵的組成部分,其基本思想是将傳統卷積分解為兩部分:第一層稱為深度卷積,它通過對每個輸入通道應用單個卷積濾波器來執行輕量化濾波;第二層是1×1卷積,稱為逐點卷積,它通過計算輸入通道的線性組合來建構新特征。深度分離卷積的計算量相對于傳統卷積減少了大約k2(k是卷積核大小),但是性能隻有極小的降低。
我們可以認為深度神經網絡中任意層的激活組成一個“感興趣流形”,它可以嵌入到低維子空間中。也就是說,深度卷積層中所有單個通道的像素,其中編碼的資訊實際上位于某種流形中,而該流形可以嵌入到低維子空間中。通過分析作者得到兩個屬性:
(1)如果感興趣流形在ReLU變換後仍保持非零值,則對應于線性變換;
(2)ReLU能夠保留輸入流形的完整資訊,但前提是輸入流形位于輸入空間的一個低維子空間中。
基于以上兩個觀點,幫助作者優化現有的神經網絡結構:假設感興趣流形是低維的,可以通過向卷積塊插入線性瓶頸獲得該流形,即本文核心具有線性瓶頸的反向殘差子產品,其結構如下圖所示。先使用逐點卷積擴大通道數+ReLU激活,然後使用逐深度卷積提取特征+ReLU激活,最後使用逐點卷積降低通道數+線性激活,并且使用了shortcut連接配接。
研究者首先通過實驗驗證了反向殘差連接配接和線性瓶頸的有效性,然後在圖像分類、目标檢測和語義分割三個任務上證明了本文網絡結構的先進性。ImageNet圖像分類任務上MobileNetV2的Top1最好可達74.7,優于MobileNetV1、ShuffleNet和NASNet-A。在目标檢測任務上,MNetV2+SSDLite與MNetV1+SSDLite的mAP很接近,但參數量和計算時間都明顯減少。在語義分割任務上保持較好性能的同時減少了參數量和計算資源的消耗。
論文題目:The Unreasonable Effectiveness of Deep Features as a Perceptual Metric
中文題目:深度特征作為感覺度量的有效性
論文作者:Zhang Richard,Isola Phillip,Efros Alexei A.,Shechtman Eli,Wang Oliver
https://ieeexplore.ieee.org/document/8578166對于人類來說,評估兩幅圖像之間的感覺相似度幾乎是毫不費力且快速的,但其潛在過程卻被認為是相當複雜的。視覺模式是高維且高度相關的,視覺相似性的概念十分主觀。例如在圖像壓縮領域,壓縮圖像是為了人類看來與原始圖像沒有很大差別,而不關注它們在像素值上可能有很大的差别。
當今最廣泛使用的、傳統的基于像素值的度量方法(例如L2 歐式距離、PSNR)或感覺距離度量(如SSIM、MSSIM 等)是簡單的淺層函數,無法解決人類感覺的許多細微差别,一個最典型的例子就是模糊會造成圖像在感覺上的很大不同,但是在L2 範數上卻差别不大。如下圖所示,傳統的評價名額與人類的感覺判斷是完全相反的。
近期深度學習社群發現,将在ImageNet 分類中訓練的VGG 網絡模型所提取的深度特征,用作圖像合成的訓練損失是非常有用,一般将這種損失稱為“感覺損失” (perceptual losses)。但是這些感覺損失的作用有多大?哪些要素對其成功至關重要?本文研究者們嘗試探讨了這些問題。
對于人類來說,評估兩幅圖像之間的感覺相似度幾乎是毫不費力且快速的, _但其潛在過程卻被認為是相當複雜的。視覺模式是高維且高度相關的,視覺相似性的概念十分主觀。例如在圖像壓縮領域,壓縮圖像是為了人類看來與原始圖像沒有很大差別,而不關注它們在像素值上可能有很大的差别。
當今最廣泛使用的、傳統的基于像素值的度量方法(例如L2 歐式距離、PSNR)或感覺距離度量(如SSIM、MSSIM 等)是簡單的淺層函數,無法解決人類感覺的許多細微差别,一個最典型的例子就是模糊會造成圖像在感覺上的很大不同,但是在L2 範數上卻差别不大。如下圖所示,傳統的評價名額與人類的感覺判斷是完全相反的。近期深度學習社群發現,将在ImageNet 分類中訓練的VGG 網絡模型所提取的深度特征,用作圖像合成的訓練損失是非常有用,一般将這種損失稱為“感覺損失” (perceptual losses)。
但是這些感覺損失的作用有多大?哪些要素對其成功至關重要?本文研究者們嘗試探讨了這些問題。
為了研究将深度神經網絡提取的深度特征作為感覺損失的有效性,本文研究者們構造了一個人類感覺相似性判斷的新資料集——Berkeley-Adobe Perceptual Patch Similarity Dataset(BAPPS 資料集)。該資料集包括484K 個人類判斷,具有大量傳統失真,如對比度、飽和度和噪聲等;還有基于CNN 模型的失真,例如自編碼、降噪等造成的失真;以及一些真實算法的失真,如超分辨率重建、去模糊等真實應用。
論文用如下公式計算在給到一個網絡時,參考和失真圖像塊的距離。首先提取特征,然後将通道次元的激活歸一化,用向量縮放每個通道,并采用2 距離。最後對空間次元的所有層取平均。
作者進行了大量的實驗,系統地評估了不同網絡結構和任務中的深度特征, _并将它們與經典名額進行比較,發現深度特征是一種非常好的感覺度量名額。更令人驚訝的是,該結果不僅限于ImageNet 訓練的VGG 提取的深度特征,而且還适用于不同的深度網絡結構和不同的訓練方式(監督,自監督,甚至無監督)。
論文題目:Residual Dense Network for Image Super-Resolution
中文題目:基于殘差密集網絡的圖像超分辨率重建
論文作者:Yulun Zhang,Yapeng Tian,Yu Kong,Bineng Zhong,Yun Fu
https://ieeexplore.ieee.org/document/8578360研究内容:
單幅圖像超分辨率(SISR)旨在通過其退化的低分辨率(LR)觀測結果生成視覺上令人愉悅的高分辨率(HR)圖像。最近,深度卷積神經網絡在圖像超分辨率重建方面取得了巨大的成功,網絡的不斷加深使模型能提供豐富分層特征,圖像中的目标具有不同的比例、視角和寬高比,來自非常深的網絡的分層特征能為重建提供更多線索。但是,大多數基于卷積神經網絡的深層圖像超分辨率模型都沒有充分利用原始低分辨率(LR)圖像中的分層特征,以緻獲得了相對較低的性能。在本文中,研究者提出了一種新穎的殘差密集網絡(RDN)來解決圖像超分辨率中的上述問題,使模型能充分利用所有卷積層提取的分層特征。
如下圖是殘差密集網絡RDN,主要包含四部分:淺層特征提取網絡(SFEnet)、殘差密集塊(RDBs)、密集特征融合(DFF)和上采樣網絡(UPNet)。
一個非常深的網絡直接提取LR 空間中每個卷積層的輸出是困難且不切實際的,是以使用殘差密集塊(RDB)作為RDN 的構模組化塊。RDB 由密集連接配接層和具有局部殘差學習能力的局部特征融合(LFF)組成。RDB還支援RDB之間的連續存儲,一個RDB的輸出可以直接通路下一個RDB中每一層,形成連續的狀态傳遞。RDB中的每個卷積層都可以通路所有後續層,并傳遞需要保留的資訊。局部特征融合将先前的RDB和目前RDB中所有先前層的狀态連接配接在一起,通過自适應保留資訊來提取局部密集特征。LFF通過更高的增長率來穩定更寬網絡的訓練。在提取多層局部密集特征後,進一步進行全局特征融合(GFF),以全局方式自适應地保留分層特征。在RDN中每個卷積層卷積核大小為3×3,局部和全局特征融合卷積核大小為1×1。在上采樣部分使用ESPCNN提升圖像的分辨率。
使用DIV2K資料集中全部的800幅訓練圖像訓練模型,測試選用5個标準基準資料集:Set5、Set14、B100、Urban和Manga109。為了全面地說明所提方法的有效性,模拟了三種圖像退化過程:
(1)雙三次下采樣(BI);
(2)高斯核模糊HR圖像,再下采樣(BD);
(3)先雙三次下采樣,再加入高斯噪聲(DN)。
作者進行了大量的實驗發現:
(1)RDB數量或RDB中卷積層數量越多,模型性能越好;增長率越大也會獲得更好的性能。當上述子產品使用數量較少時RDN依然比SRCNN性能好。
(2)進行了消融實驗,驗證了所提模型中連續存儲、局部殘差學習和全局特征融合的有效性。
(3)在三種退化模型上與六種先進的模型進行了對比:SRCNN、LapSRN、DRNN、SRDenseNet、MemNet和MDSR。在不同比例因子、退化模型和資料集中,RDN都表現出了相近甚至更好的性能。
論文題目:ShuffleNet V2: Practical guidelines for efficient cnn architecture design
中文題目:ShuffleNet V2:高效CNN網絡結構設計實用指南
論文作者:Ma Ningning,Zhang Xiangyu,Zheng Hai-Tao,Sun Jian
論文出處:Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), v 11218 LNCS, p 122-138, 2018, Computer Vision – _ECCV 2018 - 15th European Conference, 2018, Proceedings
論文連結:
https://link.springer.com/chapter/10.1007%2F978-3-030-01264-9_8自AlexNet之後,ImageNet圖像分類準确率被很多新的網絡結構如ResNet和DenseNet等不斷提高,但是除準确率外,計算複雜度也是CNN網絡需要考慮的重要名額。實際任務通常是要在有限的計算資源下獲得最佳的精度,過複雜的網絡由于速度原因難以在移動端等裝置中應用。
為此,研究者們提出了很多輕量化的CNN網絡如MobileNet和ShuffleNet等,在速度和準确度之間做了較好地平衡。以往的移動端CNN網絡結構設計在考慮計算複雜度時,直接緻力于優化整體網絡計算所需的FLOPs,并沒有考慮真正關心的速度和延遲,且具有相似FLOPs的網絡速度也是不同的。像記憶體通路開銷(MAC)、計算平台等也是需要考慮的方面。為了實際需求,本文研究者不局限于追求理論FLOPs的減少,從更直接的角度為輕量化網絡設計提供指導意見。
研究方法:
作者建議有效的網絡結構設計應考慮兩個原則。首先,應使用直接名額(例如速度)代替間接名額(例如FLOP)。其次,應在目标平台上評估此類名額。通過對兩個代表性最新網絡的分析,作者得出了關于有效網絡設計的四項準則:
(1)卷積層的輸入和輸出特征通道數相等時MAC最小;
(2)過多的組卷積會增大MAC;
(3)網絡碎片化會降低并行度;
(4)元素級的操作(element-wise)會增加時間消耗。
遵循以上準則提出了一個更有效的網絡結構——ShuffleNet V2。下圖是ShuffleNet V1(圖中a和b)和ShuffleNet V2(圖中c和d)組成子產品的對比。對比(a)和(b),ShuffleNet V2首先用Channel Split操作将輸入按通道分成兩部分,一部分直接向下傳遞,另外一部分則用于計算;然後棄用了1x1的組卷積,将通道混洗操作(Channel Shuffle)移到了最後,并将前面的Add操作用Concat代替。
論文進行了大量的實驗,與MobileNet V1/V2、ShuffleNet V1、DenseNet、Xception、IGCV3-D、NASNet-A等模型在速度、精度、FLOPs上進行了詳細的對比。實驗中不少結果都和前面幾點發現吻合,ShuffleNet V2在準确率和速度方面達到了很好的平衡。
論文題目:A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction
中文題目:非視距形狀重建的費馬路徑理論
論文作者:Shumian Xin, Sotiris Nousias, Kiriakos N. Kutulakos, Aswin C. Sankaranarayanan,Srinivasa G. Narasimhan, and Ioannis Gkioulekas.
論文出處:CVPR 2019 : IEEE Conference on Computer Vision and Pattern Recognition.
https://www.ri.cmu.edu/wp-content/uploads/2019/05/cvpr2019.pdf很多時候攝像頭可能無法拍攝全部場景或物體,例如,面對錄影機的物體背面,拐角處的物體或通過漫射器觀察到的物體。非視距(non-line-of-sight,NLOS)成像對于許多安全保護應用至關重要。一些傳統方法通過分析隐藏場景投射陰影的細微本影和半影,以估計粗糙的運動和結構,或使用光的相幹特性來定位隐藏的對象,但很難重建任意隐藏場景的3D形狀。基于主動照明的瞬态NLOS成像大多采用快速調制光源和時間分辨傳感器,但現有的SPAD強度估計不理想,而且重建NLOS對象的朗伯反射率假設。作者使用NLOS瞬态測量得出幾何限制而非強度限制的方法來克服上述限制。
上圖為非視距成像示例:被遮光闆遮擋(a)和被漫射闆遮擋(b)的物體表面重建結果與視距掃描結果(c)對比。
作者提出了一個新的光費馬路徑(Fermat path)理論,即光在已知的可見場景和不處于瞬态相機視線範圍内的未知物體之間,這些光要麼從鏡面反射,要麼被物體的邊界反射,進而編碼了隐藏物體的形狀。作者證明,費馬路徑對應于瞬态測量中的不連續性,間斷點的位置僅與NLOS對象的形狀有關,與其反射率(BRDF)無關。并推導出一個新的限制條件,它将這些不連續處的路徑長度的空間導數與曲面的曲率相關聯。
基于此理論,作者提出了一種稱為費馬流(Fermat Flow)的算法,用于估計非視距物體的形狀。其關鍵在于,費馬路徑長度的空間導數可唯一确定隐藏場景點的深度和法線,再拟合和估算平滑路徑長度函數,進一步結合深度和法線獲得光滑的網格,進而精确恢複了對複雜對象(從漫反射到鏡面反射)形狀,範圍從隐藏在拐角處以及隐藏在漫射器後面的漫反射到鏡面反射。最後,該方法與用于瞬态成像的特定技術無關。
作者使用了一些不同BRDF的凹凸幾何形狀的日常物品,包括半透明(塑膠壺),光滑(碗,花瓶),粗糙鏡面(水壺)和光滑鏡面(球形)等。分别開展了使用SPAD和超快雷射從皮秒級瞬态中恢複毫米級形狀,以及使用幹涉法實作從飛秒級瞬态中恢複毫米級形狀的兩種實驗,實驗結果顯示重建細節與groundtruth形狀非常吻合。
論文題目:Implicit 3D Orientation Learning for 6D Object Detection from RGB Images
中文題目:從RGB 圖像檢測6維位姿的隐式三維朝向學習
論文作者:Martin Sundermeyer , Zoltan-Csaba Marton , Maximilian Durner , Rudolph Triebel
論文出處:ECCV 2018: European Conference on Computer Vision.
http://openaccess.thecvf.com/content_ECCV_2018/papers/Martin_Sundermeyer_Implicit_3D_Orientation_ECCV_2018_paper.pdf對于諸如移動機器人控制和增強現實之類的應用而言,現代計算機視覺系統中最重要的元件之一就是可靠且快速的6D目标檢測子產品。至今尚無通用,易于應用,強大且快速的解決方案。原因是多方面的:首先,目前的解決方案通常不足以有效處理典型的挑戰;其次,現有方法通常需要某些目标屬性。而且,目前的方法在運作時間以及所需帶标注的訓練資料的數量和種類方面效率都不高。作者提出對單個RGB圖像進行操作,可在很大程度上不需要深度資訊,顯著增加可用性。
上圖為6D目标檢測管道具有齊次坐标變換Hcam2obj(右上)和深度細化結果Hcam2obj(refined)(右下)。作者提出了一種基于RGB的實時目标檢測和6D姿态估計流程。首先使用SSD(Single Shot Multibox Detector)來提供目标邊界框和辨別符。其次,在此基礎上,采用新穎的3D方向估計算法,該算法基于之前的降噪自動編碼器(Denoising Autoencoder)的通用版本,增強型自動編碼器(AAE)。AAE使用一種新穎的域随機化政策,模型學到的并不是從輸入圖像到物體位姿的顯式映射,而是會根據圖像樣本在隐含空間内建立一個隐式的物體位姿表征。因而,訓練獨立于目标方向的具體表示(例如四元數),避免從圖像到方向的一對多映射,由此AAE可處理由對稱視圖引起的模糊姿态。另外學習專門編碼3D方向的表征,同時實作對遮擋,雜亂背景的魯棒性,并可推廣到對不同環境和測試傳感器。而且,AAE不需要任何真實的姿勢标注訓練資料。相反,它被訓練為以自我監督的方式編碼3D模型視圖,克服了對大型姿勢标注資料集的需要。下圖為AAE訓練過程。
作者在T-LESS和LineMOD資料集上評估了AAE和整個6D檢測管道,僅包括2D檢測,3D方向估計和投影距離估計。與最先進的深度學習方法相比,AAE準确性更好,同時效率更高。另外,作者也分析了一些失敗案例,主要源于檢測失敗或強遮擋。
論文題目:SinGAN: Learning a Generative Model from a Single Natural Image
中文題目:SinGAN:從單張圖像學習生成模型
論文作者:Tamar Rott Shaham ,Technion Tali Dekel ,Google Research ,Tomer Michaeli ,Technion
論文出處:ICCV 2019 : IEEE International Conference on Computer Vision.
https://arxiv.org/pdf/1905.01164.pdf生成對抗網絡(Generative Adversarial Nets ,GAN)在模拟視覺資料的高維分布方面取得了巨大飛躍。特别是用特定類别的資料集(如人臉、卧室)進行訓練時,非條件GAN在生成逼真的、高品質的樣本方面取得了顯著成功。但對高度多樣化、多種類别的資料集(如ImageNet)的模拟仍然是一項重大挑戰,而且通常需要根據另一輸入信号來調整生成或為特定任務訓練模型。對單個自然圖像中各種圖像塊的内部分布進行模組化已被公認為是許多計算機視覺任務的有用先驗。作者将GAN帶入到一個新領域—從單個自然圖像中學習非條件生成模型。單個自然圖像通常具有足夠的内部統計資訊,可學習到強大的生成模型,而不必依賴某個相同類别的資料集。為此,作者提出了一個新的單圖像生成模型SinGAN,能夠處理包含複雜結構和紋理的普通自然圖像的神經網絡。
相對于左邊的原始圖像,SinGAN生成新的逼真的圖像樣本,該樣本在建立新的對象配置和結構的同時保留原始圖像塊分布。
作者的目标是學習一個非條件生成模型,該模型可捕獲單個訓練圖像的内部統計資料。 此任務在概念上與正常GAN設定相似,不同之處在于,訓練樣本是單個圖像的多尺度的圖像塊,而非整個圖像樣本。為此,SinGAN生成架構由具有層級結構的patch-GANs(馬爾可夫判别器)組成,其中每個判别器負責捕獲不同尺度的分布,這是第一個為從單個圖像進行内部學習而探索的網絡結構。圖像樣本從最粗尺度開始,然後依次通過所有的生成器直到最細尺度,且每個尺度都注入噪聲。所有生成器和判别器具有相同的感受野,是以,随着生成過程推進可以捕獲更細尺寸的結構。在訓練時,對抗損失采用WGAN-GP損失,以增加訓練穩定性。并設計了一種重建損失來確定可以生成原始圖像的特定噪聲圖譜集合。
作者在圖像場景跨度很大的資料集上進行了測試。直覺上,SinGAN很好地保留目标的全局結構和紋理資訊,很真實地合成了反射和陰影效果。再使用AMT真假使用者調研和FID的單幅圖像版本進行量化。AMT測試結果表明可以生成很真實的樣本,對于細節保留的也更多,人類判别的混淆率較高。FID結果與AMT一緻。
3.5 計算機視覺進展
近年來,巨量資料的不斷湧現與計算能力的快速提升,給以非結構化視覺資料為研究對象的計算機視覺帶來了巨大的發展機遇與挑戰性難題,計算機視覺也是以成為學術界和工業界公認的前瞻性研究領域,部分研究成果已實際應用,催生出人臉識别、智能視訊監控等多個極具顯示度的商業化應用。
計算機視覺的研究目标是使計算機具備人類的視覺能力,能看懂圖像内容、了解動态場景,期望計算機能自動提取圖像、視訊等視覺資料中蘊含的階層化語義概念及多語義概念間的時空關聯等。計算機視覺領域不斷湧現出很多激動人心的研究成果,例如,人臉識别、物體識别與分類等方面的性能已接近甚至超過人類視覺系統。本文根據近兩年計算機視覺領域頂級會議最佳論文及高引論文,對該領域中的技術現狀和研究前沿進行了綜合分析。
近兩年大多數研究都集中在深度學習、檢測和分類以及面部/手勢/姿勢、3D傳感技術等方面。随着計算機視覺研究的不斷推進,研究人員開始挑戰更加困難的計算機視覺問題,例如,圖像描述、事件推理、場景了解等。單純從圖像或視訊出發很難解決更加複雜的圖像了解任務,一個重要的趨勢是多學科的融合,例如,融合自然語言處理領域的技術來完成圖像描述的任務。圖像描述是一個融合計算機視覺、自然語言處理和機器學習的綜合問題,其目标是翻譯一幅圖檔為一段描述文字。目前主流架構為基于遞歸神經網絡的編碼器解碼器結構其核心思想類似于自然語言機器翻譯。
但是,由于遞歸網絡不易提取輸入圖像和文本的空間以及階層化限制關系,階層化的卷積神經網絡以及啟發自認知模型的注意力機制受到關注。如何進一步從認知等多學科汲取知識,建構多模态多層次的描述模型是目前圖像描述問題研究的重點。
事件推理目标是識别複雜視訊中的事件類别并對其因果關系進行合理的推理和預測。與一般視訊分析相比,其難點在于事件視訊更加複雜,更加多樣化,而最終目标也更具挑戰性。不同于大規模圖像識别任務,事件推理任務受限于訓練資料的規模,還無法建構端到端的事件推理系統。目前主要使用圖像深度網絡作為視訊的特征提取器,利用多模态特征融合模型,并利用記憶網絡的推理能力,實作對事件的識别和推理認知。目前研究起源于視訊的識别和檢測,其方法并未充分考慮事件資料的複雜和多樣性。如何利用視訊資料豐富的時空關系以及事件之間的語義相關性,應是今後的關注重點。
場景了解的目的是計算機視覺系統通過分析處理自身所配置的傳感器采集的環境感覺資料,獲得周圍場景的幾何/拓撲結構、組成要素(人、車及物體等)及其時空變化,并進行語義推理,形成行為決策與運動控制的時間、空間限制。近年來,場景了解已經從一個初期難以實作的目标成為目前幾乎所有先進計算機視覺系統正在不斷尋求新突破的重要研究方向。
利用社會-長短記憶網絡(Social-LSTM)實作多個行人之間的狀态聯系模組化,結合各自運動曆史狀态,決策出未來時間内的運動走向。此外神經網絡壓縮方向也是是目前深度學習研究的一個熱門的方向,其主要的研究技術有壓縮,蒸餾,網絡架構搜尋,量化等。
綜上所述,視覺的發展需要設計新的模型,它們需要能考慮到空間和時間資訊;弱監督訓練如果能做出好的結果,下一步就是自監督學習;需要高品質的人類檢測和視訊對象檢測資料集;結合文本和聲音的跨模态內建;在與世界的互動中學習。
立即體驗工業視覺智能平台訓練:
https://www.aliyun.com/product/indvi?spm=5176.12825654.h2v3icoap.467.e9392c4a1KMEL9&aly_as=c7DQGDJ5将阿裡雲基于工業各場景中的最佳實踐所獲得的預訓練模型與使用者實際場景中的樣本資料結合,通過使用者樣本資料的訓練對模型進行定制優化,進而适配使用者實際使用場景。