天天看點

【今日CV 計算機視覺論文速覽 第109期】Wed, 1 May 2019

今日CS.CV 計算機視覺論文速覽

Wed, 1 May 2019

Totally 40 papers

?上期速覽✈更多精彩請移步首頁

【今日CV 計算機視覺論文速覽 第109期】Wed, 1 May 2019

?Segmentations is All You Need,提出了一種無須錨點和非極大值抑制的目标檢測方法,主要解決了複雜遮擋情況下召回率低的問題。研究人員提出了一種基于弱監督分割的多模态标記方法來實作更高的魯棒性。利用bbox作為弱标記來得到魯棒的檢測表現,避免了超參數相關的錨框和非極大值抑制。(from 牛津)

分割标記的成本是bbox成本的15倍以上,研究人員提出了基于bbox使用分割的方法來實作多模态标記,隻需要一個模型即可處理多種情況。

多模态資料:

【今日CV 計算機視覺論文速覽 第109期】Wed, 1 May 2019

可以檢測小到5050,1515像素的小物體(矢量場的幫助下)。

【今日CV 計算機視覺論文速覽 第109期】Wed, 1 May 2019

多模态标記方法的細節以及向量場:

【今日CV 計算機視覺論文速覽 第109期】Wed, 1 May 2019
【今日CV 計算機視覺論文速覽 第109期】Wed, 1 May 2019
【今日CV 計算機視覺論文速覽 第109期】Wed, 1 May 2019

dataset:

野外人臉WIDER Face

鋼筋檢測資料集, github

pytorch faster rcnn

?RefineContourNet進行目标輪廓及邊緣檢測, 利用了Resnet抽取高層次特征并用于邊緣檢測,并融合了高、中、低特征,通過一定的方式層層融合。(from Helmut Schmidt University)

邊緣檢測的過程:

【今日CV 計算機視覺論文速覽 第109期】Wed, 1 May 2019

殘差卷積單元、多分辨率融合、鍊式殘差池化單元的結構:

【今日CV 計算機視覺論文速覽 第109期】Wed, 1 May 2019

一些得到的結果:

【今日CV 計算機視覺論文速覽 第109期】Wed, 1 May 2019

dataset:BSDS500,PASCAL VOC 2012 dataset

?自動字形生成, 提出了基于cnn模型的字形生成架構,首先利用協作政策訓練合作筆畫精煉技術來恢複缺失筆畫部分;同時利用線上縮放增強技術來充分複用内容以減小訓練集大小;并使得字形産生自适應的預變形、标準化和配準,隻利用了750對字元進行訓練。(from 上海交大)

【今日CV 計算機視覺論文速覽 第109期】Wed, 1 May 2019

網絡具體架構以及比較方法需要資料集大小如下:

【今日CV 計算機視覺論文速覽 第109期】Wed, 1 May 2019

一些生成的記結果:

【今日CV 計算機視覺論文速覽 第109期】Wed, 1 May 2019

?SurfelWarp高效的單視角非剛體動态三維重建, 提出了一種基于深度圖流的非剛體實時重建方法,而無需維持體素資料結構,不需要模闆和先驗模型,同時避免了較大記憶體和計算量的使用。同時使用曲面元素表示的集合可以高效的跟蹤形态學變換并實作基于深度觀測的實時重建。(from MIT)

系統流程圖:

【今日CV 計算機視覺論文速覽 第109期】Wed, 1 May 2019

一些動态重建結果:

【今日CV 計算機視覺論文速覽 第109期】Wed, 1 May 2019

web:https://sites.google.com/view/surfelwarp/home

?基于深度學習利用Sentinel-2多光譜衛星圖像估計森林覆寫植被的高度, 其中基準資料來自于雷射雷達或者林木高度模型。(from ETHz)

【今日CV 計算機視覺論文速覽 第109期】Wed, 1 May 2019

?公園裡自動撿垃圾的機器人, (from 北航)

【今日CV 計算機視覺論文速覽 第109期】Wed, 1 May 2019

Daily Computer Vision Papers

Comparative evaluation of 2D feature correspondence selection algorithms

Authors Chen Zhao, Jiaqi Yang, Yang Xiao, Zhiguo Cao

旨在從原始特征比對中尋找正确的特征對應關系的對應選擇對于許多基于特征比對的任務是關鍵的。已經呈現了各種2D圖像對應選擇算法,其具有數十年的進步。遺憾的是,由于缺乏深入評估,開發人員很難在給定特定應用的情況下選擇合适的算法。本文通過評估八種二維對應選擇算法(從經典方法到四種标準資料集中的最新方法)來填補這一空白。實驗資料集的多樣性帶來各種麻煩,包括縮放,旋轉,模糊,視點變化,JPEG壓縮,光變化,不同的渲染風格和多結構,以進行全面測試。為了進一步建立初始比對的不同分布,還考慮了一組檢測器和描述符的組合。我們從四個方面測量對應選擇算法的品質,即精度,召回,F測量和效率。根據評估結果,彙總了所有考慮的算法的目前優點和局限性,可以将其視為以下開發人員的使用者指南。

The Level Weighted Structural Similarity Loss: A Step Away from the MSE

Authors Yingjing Lu

均方誤差MSE在應用于深度生成模型(如自動編碼器)模型重建損失時已顯示出其強度。然而,特别是在圖像領域,MSE的局限性很明顯,它假定像素獨立并忽略樣本的空間關系。這與使用卷積層提取空間相關特征的自動編碼器的大多數架構相沖突。我們基于結構相似性度量SSIM,并為卷積自動編碼器提出新的級别權重結構相似性LWSSIM損失。對各種自動編碼器變體的常見資料集的實驗表明,我們的損失能夠超越MSE損失和香草SSIM損失。我們還提供了在标準SSIM丢失失敗的情況下我們的模型能夠成功的原因。

Structured Prediction using cGANs with Fusion Discriminator

Authors Faisal Mahmood, Wenhao Xu, Nicholas J. Durr, Jeremiah W. Johnson, Alan Yuille

我們提出了融合鑒别器,一種統一的架構,用于将條件資訊合并到生成對抗網絡GAN中,用于各種不同的結構化預測任務,包括圖像合成,語義分割和深度估計。與常用的卷積神經網絡條件馬爾可夫随機場CNN CRF模型非常相似,所提出的方法能夠在模型中實施更高階的一緻性,但不限于非常特定的一類電勢。該方法在概念上簡單而靈活,我們的實驗結果證明了對幾種不同的結構化預測任務的改進。

Object Contour and Edge Detection with RefineContourNet

Authors Andre Peter Kelm, Vijesh Soorya Rao, Udo Zolzer

基于ResNet的多路徑細化CNN用于對象輪廓檢測。對于此任務,我們優先考慮ResNet的進階抽象功能的有效利用,這導緻邊緣檢測的最新結果。牢記我們的關注點,我們将特定順序的高,中,低級功能融合在一起,這與許多其他方法不同。它使用具有最進階别特征的張量作為起點,逐層将其與較低抽象級别的特征組合,直到達到最低級别。我們在改進的PASCAL VOC 2012資料集上訓練該網絡以進行物體輪廓檢測,并在精細的PASCAL val資料集上進行評估,達到卓越的性能和0.752的最佳資料集規模ODS。此外,通過對BSDS500資料集的精細教育訓練,我們達到了最先進的邊緣檢測結果,ODS為0.824。

PYRO-NN: Python Reconstruction Operators in Neural Networks

Authors Christopher Syben, Markus Michen, Bernhard Stimpel, Stephan Seitz, Stefan Ploner, Andreas K. Maier

目的最近,進行了多次嘗試以将深度學習轉移到醫學圖像重建。越來越多的出版物遵循将CT重建作為已知算子嵌入神經網絡的概念。然而,所提出的大多數方法缺乏完全整合到深度學習環境中的有效CT重建架構。結果,許多方法被迫使用變通方法來解決數學上明确無法解決的問題。方法PYRO NN是一個通用的架構,用于将已知運算符嵌入到流行的深度學習架構Tensorflow中。目前的狀态包括現有的并行,扇形和錐形光束投影儀以及使用CUDA作為Tensorflow層加速的後投影儀。最重要的是,該架構提供了一個進階Python API,可以使用來自真實CT系統的資料進行FBP和疊代重建實驗。結果該架構提供了所有必要的算法和工具,用于內建CT重建算法設計端到端神經網絡管道。進階Python API允許簡單地使用Tensorflow中已知的層。為了示範層的功能,該架構附帶三個基線實驗,顯示錐形束短掃描FDK重建,CT重建濾波器學習設定和TV正則化疊代重建。所有算法和工具都參考科學出版物,并與現有的非深度學習重建架構進行比較。該架構可在url作為開源軟體使用

Segmentation is All You Need

Authors Yuxiang Wu, Zehua Cheng, Zhenghua Xu, Weiyang Wang

我們提出了一種新的檢測任務範例,即錨箱免費和NMS免費。盡管目前基于區域提出方法的現有技術模型已經得到了很好的認可,但是作為RPN的基礎,NMS無法解決複雜遮擋情況下的低召回率問題。當面對複雜的遮擋時,這種情況尤其重要。我們提出使用弱監督分段多模态注釋來實作沒有NMS的高度魯棒的對象檢測性能。在這種情況下,我們利用差的帶注釋的邊界框注釋來在困難的環境中執行穩健的對象檢測性能。我們已經避免了與錨框和NMS相關的所有超參數。我們提出的模型優于先前基于錨的單級和多級探測器,具有更簡單的優點。我們在準确率和召回率方面都達到了最先進的表現。

Detecting Reflections by Combining Semantic and Instance Segmentation

Authors David Owen, Ping Lin Chang

自然圖像中的反射通常會導緻自動檢測系統出現誤報。這些誤報可能導緻檢測,計數和分割任務的準确性嚴重受損。在這裡,受最近全景分割方法的啟發,我們展示了融合執行個體和語義分割如何能夠自動識别反射誤報,而無需明确地需要标記反射區域。我們詳細探讨了現有技術的兩級探測器如何遭受更廣泛的背景特征的損失,是以無法學會忽略這些反射。然後,我們提出了一種融合該應用的執行個體和語義分割的方法,并随後展示了如何減少具有大量反射表面的真實世界監視資料中的誤報檢測。這表明盡管處于起步階段,但全景分割和相關工作在現實世界的計算機視覺問題中已經非常有用。

Non-Rigid Structure-From-Motion by Rank-One Basis Shapes

Authors Sami S. Brandt, Hanno Ackermann

在本文中,我們表明,運動問題的仿射,非剛性結構可以通過一級解決,進而退化,基礎形狀。這是Bregler等人對經典低等級方法的自然重構,其中假設可變形3D結構由剛性基礎形狀的線性組合産生。非剛性形狀将被分解為平均形狀和簡并形狀,由低秩分解的右奇異向量構成。正确的奇異向量被仿射地反投影到3D空間中,并且仿射背投影也将作為因子分解的一部分被解決。通過構造,對低秩分解的右奇異向量的直接解釋也将随後被視為主要成分,是以,我們方法的第一變體被稱為秩1 PCA。被稱為秩1 ICA的第二變體另外估計正交變換,其将變形模式映射到盡可能統計獨立的模式。它具有精确定位與例如人臉上的嘴唇運動相關的統計依賴子空間的優點。而且,與先前的工作相反,沒有強加子空間的預定義次元。對幾個資料集的實驗表明,該方法比現有技術獲得了更好的結果,可以更快地計算,并且為變形模式提供了直覺的解釋。

Handwritten Chinese Font Generation with Collaborative Stroke Refinement

Authors Chuan Wen, Jie Chang, Ya Zhang

自動字元生成是新字型設計的有吸引力的解決方案,特别是對于包括超過3700個最常用字元的中文字型。這個任務有兩個主要的難點我手寫字元通常與很少資訊和複雜結構的細筆畫相關聯,這些筆畫在變形過程中容易出錯。基于一些手工設計的字元,需要數千個具有各種形狀的字元來合成。為了解決這些問題,我們提出了一種新的基于卷積神經網絡的模型,采用三種主要技術協同筆劃細化,利用協同訓練政策恢複線上縮放增加的丢失或中斷,利用内容重用現象來減小大小。訓練集和自适應預變形,标準化和對齊字元。所提出的模型僅需要750個配對的訓練樣本,沒有預先訓練的網絡,需要額外的資料集資源或标簽。實驗結果表明,該方法在手寫字型合成的實際限制下明顯優于現有技術方法。

A new algorithm for shape matching and pattern recognition using dynamic programming

Authors Noreddine Gherabi, Bahaj Mohamed

我們提出了一種基于動态規劃的形狀識别和檢索的新方法。我們的方法使用動态程式設計算法來計算最佳分數并找到兩個字元串之間的最佳對齊。首先,每個形狀輪廓由一組點表示。在兩個形狀之間對齊和比對之後,輪廓被轉換為一串符号和數字。最後,我們找到兩個完整字元串的最佳對齊并計算最佳相似成本。通常,動态程式設計具有前向階段和後向階段兩個階段。在前進階段,我們計算每個子問題的最優成本。在後退階段,我們重建了提供最優成本的解決方案。我們的算法在包含各種形狀(如MPEG 7)的資料庫中進行測試。

GaborNet: Gabor filters with learnable parameters in deep convolutional neural networks

Authors Andrey Alekseev, Anatoly Bobe

本文描述了一種使用深度卷積神經網絡進行圖像識别的系統。提出了改進的網絡架構,側重于改善收斂性并降低訓練複雜性。網絡的第一層中的過濾器被限制以适合Gabor功能。 Gabor函數的參數是可學習的,并通過标準反向傳播技術進行更新。該系統是在Python上實作的,在幾個資料集上進行了測試,并且優于常見的卷積網絡。

Using cameras for precise measurement of two-dimensional plant features

Authors Amy Tabb, Germ n A Holgu n, Rachel Naegele

圖像經常用于植物表型分析以捕獲測量值。本章提供了一種可重複的方法,使用各種相機類型的手機,數位單反相機,在現場或實驗室環境中捕獲植物部件的二維測量值,并添加了印刷校準圖案。該方法基于使用來自圖像的EXIF标簽的可用資訊校準相機,以及來自圖案的視覺資訊。提供代碼以實作該方法,以及用于測試的資料集。我們包括通過對工件進行成像來驗證協定正确性的步驟。将該協定用于二維植物表型分析将允許從不同的相機和環境捕獲資料,并在相同的實體尺度上進行比較。

Facial Expressions Analysis Under Occlusions Based on Specificities of Facial Motion Propagation

Authors Delphine Poux, Benjamin Allaert, Jose Mennesson, Nacim Ihaddadene, Ioan Marius Bilasco, Chaabane Djeraba

盡管在面部表情分析領域已經取得了很大進展,但面部遮擋仍然具有挑戰性。這一貢獻帶來的主要創新在于利用面部運動傳播的特殊性來識别存在重要遮擋的表情。由表達引起的運動延伸到運動震中之外。是以,在遮擋區域中發生的移動朝向相鄰的可見區域傳播。在存在遮擋,每個表達的情況下,我們計算每個未被遮擋的面部區域的重要性,并且我們建構适應的面部架構,其提高每個表達式二進制分類器的性能。然後聚合每個依賴于表達式的二進制分類器的輸出并将其饋送到融合過程,該融合過程旨在建構每個遮擋的識别所考慮的所有面部表情的唯一模型。評估強調了這種方法在存在明顯面部遮擋的情況下的穩健性。

PR Product: A Substitute for Inner Product in Neural Networks

Authors Zhennan Wang, Wenbin Zou, Chen Xu

本文從矢量正交分解的角度分析了神經網絡中權向量和輸入向量的内積,證明了權向量的局部方向梯度随着它們之間的角度接近0或pi而減小。我們提出了PR産品,它是内積的替代品,它使重量矢量的局部方向梯度與角度無關,并且始終大于傳統内積中的那個,同時保持前向傳播相同。作為神經網絡的基本操作,PR産品可以應用于許多現有的深度學習子產品,是以我們開發了完全連接配接層,卷積層和LSTM層的PR産品版本。在靜态圖像分類中,對CIFAR10和CIFAR100資料集的實驗表明,PR産品可以有力地增強各種現有技術分類網絡的能力。關于圖像字幕的任務,即使沒有任何花哨,我們的PR産品版本的字幕模型可以在MS COCO資料集上競争或優于最先進的模型。

Surprising Effectiveness of Few-Image Unsupervised Feature Learning

Authors Yuki M. Asano, Christian Rupprecht, Andrea Vedaldi

用于無監督表示學習的現有技術方法可以很好地訓練标準卷積神經網絡的前幾層,但是它們不如針對更深層的監督學習那麼好。這可能是由于淺層的一般性和相對簡單的性質,然而,這些方法被應用于數百萬個圖像,可擴充性被宣傳為它們的主要優點,因為未标記的資料收集起來便宜。在本文中,我們質疑這種做法,并詢問是否實際需要這麼多圖像來學習無監督學習效果最好的圖層。我們的主要結果是,一些甚至單個圖像以及強大的資料增強足以使性能幾乎達到飽和。具體來說,我們提供了三種不同的自監督特征學習方法BiGAN,RotNet,DeepCluster與訓練圖像數量1,10,1000的分析,并表明我們可以使用一個單一的常見網絡的前兩個卷積層的精度未标記的訓練圖像并獲得其他層的競争結果。我們進一步研究和可視化學習的表示,作為單個圖像用于訓練的函數。我們的結果也暗示了深層網絡中淺層可以捕獲哪種類型的資訊。

Deep Learning-based Face Pose Recovery

Authors Zhaoxiang Liu, Zezhou Chen, Jinqiang Bai, Shaohua Li, Shiguo Lian

面部姿勢估計在許多實際應用中獲得了很多關注,例如人體機器人互動,注視估計和駕駛員監控。同時,基于端到端深度學習的面部姿勢估計正變得越來越流行。然而,面部姿勢估計受到關鍵挑戰的困擾,即許多姿勢缺乏足夠的訓練資料,尤其是對于大姿勢。受近視姿勢下面部相似的觀察啟發,我們将面部姿勢估計重新表述為标簽分布學習問題,将每個面部圖像作為與高斯标簽分布而非單個标簽相關聯的示例,并構造卷積神經在AFLW資料集和300WLP資料集上訓練具有多重損失功能的網絡,直接從彩色圖像預測面部姿勢。在幾個流行的基準測試中進行了大量實驗,包括AFLW2000,BIWI,AFLW和AFW,其中我們的方法顯示出優于其他最先進方法的顯着優勢。

Early Action Prediction with Generative Adversarial Networks

Authors Dong Wang, Yuan Yuan, Qi Wang

動作預測旨在盡早确定視訊中正在發生的動作,這對于許多線上應用程式至關重要,例如在事故發生之前預測交通事故并檢測監控系統中的惡意行為。在這項工作中,我們通過開發端到端架構來解決這個問題,該架構通過将部分觀察到的視訊的特征同化為完整視訊中的特征來提高其可辨識性。為此目的,引入生成對抗網絡來解決動作預測問題,雖然縮小了部分觀察視訊與完整視訊的特征差異,但提高了部分觀察視訊的識别精度。具體來說,它的發生器包括兩個網絡,一個用于特征提取的CNN和一個用于估計部分觀察到的視訊和完整視訊的特征之間的殘差的LSTM,然後CNN的特征增加了來自LSTM的殘差,這被認為是增強的。愚弄競争鑒别者的功能。同時,使用額外的感覺目标訓練發生器,這迫使部分觀察的視訊的增強特征對于動作預測具有足夠的辨識力。在UCF101,BIT和UT互動資料集上的廣泛實驗結果表明,我們的方法優于現有技術方法,特别是對于觀察到少于50個幀的視訊。

Memory-Augmented Temporal Dynamic Learning for Action Recognition

Authors Yuan Yuan, Dong Wang, Qi Wang

在視訊序列中捕獲的人類動作包含用于動作識别的兩個關鍵因素,即視覺外觀和運動動态。為了模拟這兩個方面,卷積和回歸神經網絡CNN和RNN被用于大多數現有的識别動作的成功方法中。然而,基于CNN的方法在模組化長期運動動力學方面受到限制。 RNN能夠學習時間運動動力學,但缺乏有效的方法來解決長時間運動中的不穩定動态。在這項工作中,我們提出了一個記憶體增強時态動态學習網絡,它學會将最明顯的資訊寫入外部存儲器子產品并忽略不相關的資訊。特别地,我們提出了一種差分存儲器控制器,以便對是否應該用目前特征更新外部存儲器子產品做出離散決定。離散存儲器控制器将存儲器曆史,上下文嵌入和目前特征作為輸入并控制資訊流入外部存儲器子產品。此外,我們使用直通估算器訓練這個分立的記憶體控制器。我們在人類行動識别的基準資料集UCF101和HMDB51上評估這個端到端系統。實驗結果表明,與以前的工作和我們的基線相比,這兩個資料集都有一緻的改進。

Anomaly Detection in Traffic Scenes via Spatial-aware Motion Reconstruction

Authors Yuan Yuan, Dong Wang, Qi Wang

從駕駛員的角度來看,駕駛時的異常檢測對于自動駕駛車輛來說是重要的。作為進階駕駛員輔助系統ADAS的一部分,它可以及時提醒駕駛員有關危險的資訊。與大學校園和市場監控視訊等傳統研究場景相比,由于錄影機擺動,持續移動背景,車速急劇變化等原因,很難從駕駛員的角度檢測異常事件。為解決這些具體問題,本文提出了一種用于交通場景異常檢測的空間局部限制稀疏編碼方法,首先分别測量運動方向和幅度的異常,然後融合這兩個方面,得到一個魯棒的檢測結果。主要貢獻是三重1這項工作分别以一種新的方式描述了物體的運動方向和大小,這被證明比傳統的運動描述符更好。 2物體的空間定位考慮了稀疏重建架構,該架構利用場景的結構資訊,優于傳統的稀疏編碼方法。 3運動方向和幅度的結果通過貝葉斯模型進行自适應權重和融合,使得該方法更加魯棒,可以處理更多種類的異常事件。通過對我們自己捕獲的九個困難視訊序列進行測試,驗證了所提方法的效率和有效性。從實驗結果觀察,所提出的方法比流行的競争對手更有效和高效,并且産生更高的性能。

Interpretation of Feature Space using Multi-Channel Attentional Sub-Networks

Authors Masanari Kimura, Masayuki Tanaka

卷積神經網絡在各種任務中取得了令人矚目的成果,但解釋内部機制是一個具有挑戰性的問題。為了解決這個問題,我們在特征空間中利用了多通道注意機制。我們的網絡架構允許我們為每個特征獲得注意掩模,而現有的CNN可視化方法僅為所有特征提供共同的注意掩模。我們将提出的多通道關注機制應用于多屬性識别任務。我們可以為每個特征和每個屬性獲得不同的注意掩碼。這些分析使我們更深入地了解CNN的特征空間。基準資料集的實驗結果表明,所提出的方法在準确掌握資料屬性的同時,為人類提供了高度的可解釋性。

SurfelWarp: Efficient Non-Volumetric Single View Dynamic Reconstruction

Authors Wei Gao, Russ Tedrake

我們提供密集的SLAM系統,将深度圖像的實時流作為輸入,并實時重建非剛性變形場景,無需模闆或先前模型。與現有方法相比,我們不維護任何體積資料結構,例如截斷的帶符号距離函數TSDF字段或變形字段,這些都是性能和記憶體密集型的。我們的系統采用基于平點表面的幾何表示,可以直接從商品深度傳感器擷取。标準圖形管線和通用GPU GPGPU計算用于所有中心操作,即最近鄰維護,非剛性變形場估計和深度測量的融合。我們的管道固有地避免了昂貴的體積操作,例如行進立方體,體積融合和密集變形場更新,進而顯着提高了性能。此外,基于顯式和靈活的基于表面的幾何表示能夠有效地處理拓撲變化和跟蹤失敗,這使得我們的重建與更新的深度觀察一緻。我們的系統允許機器人使用非剛性變形的對象維護場景描述,這可能使得能夠與動态工作環境進行互動。

Cross-Modal Message Passing for Two-stream Fusion

Authors Dong Wang, Yuan Yuan, Qi Wang

在多模态之間處理和融合資訊是在許多計算機視覺問題中實作高性能的非常有用的技術。為了更有效地處理多模态資訊,我們引入了一種新的多模态融合架構Cross Modeal Message Passing CMMP。具體地,我們提出了一種交叉模态消息傳遞機制來融合兩個流網絡以進行動作識别,其由外觀模态網絡RGB圖像和運動模态光流圖像網絡組成。該架構中各個網絡的目标是标準分類目标和競争目标的兩倍。分類對象確定每個模态網絡預測真實的行動類别,而競争目标鼓勵每個模态網絡優于另一個模态網絡。我們定量地表明,所提出的CMMP更有效地融合了傳統的雙流網絡,并且優于UCF 101和HMDB 51資料集上現有的兩種流融合方法。

Wearable Travel Aid for Environment Perception and Navigation of Visually Impaired People

Authors Jinqiang Bai, Zhaoxiang Liu, Yimin Lin, Ye Li, Shiguo Lian, Dijun Liu

本文介紹了一種可穿戴式輔助裝置,它具有一副眼鏡的形狀,允許視障人士在陌生的環境中安全快速地導航,以及感覺複雜的環境,自動決定移動的方向。該裝置使用消費者紅色,綠色,藍色和深度RGB D相機和慣性測量單元IMU來檢測障礙物。由于該裝置利用相鄰圖像幀之間的地面高度連續性,是以能夠準确且快速地從障礙物中分割地面。基于檢測到的地面,計算最佳可行走方向,然後通過轉換的蜂鳴聲通知使用者。此外,通過利用深度學習技術,裝置可以在語義上對檢測到的障礙物進行分類,以改善使用者對周圍環境的感覺。它将部署在智能手機上的卷積神經網絡CNN與基于深度圖像的對象檢測相結合,以确定對象類型是什麼以及對象位于何處,然後通過語音通知使用者此類資訊。我們通過不同的實驗評估了裝置的性能,其中20名視障人士被要求佩戴裝置并在辦公室中移動,并且發現他們能夠避免障礙物碰撞并在複雜的情況下找到方法。

Deep Learning Based Robot for Automatically Picking up Garbage on the Grass

Authors Jinqiang Bai, Shiguo Lian, Zhaoxiang Liu, Kai Wang, Dijun Liu

本文介紹了一種在草地上作業的新型垃圾拾取機器人。通過使用深度神經網絡進行垃圾識别,機器人能夠準确,自動地檢測垃圾。此外,利用深度神經網絡進行地面分割,提出了一種新的導航政策來引導機器人四處移動。通過垃圾識别和自動導航功能,機器人可以高效,自主地清理公園或學校等地面上的垃圾。實驗結果表明,垃圾識别精度可高達95,即使沒有路徑規劃,導航政策也可以達到與傳統方法幾乎相同的清潔效率。是以,所提出的機器人可以作為一個很好的幫助,以減輕垃圾清潔任務中的塵土勞工的體力勞動。

Virtual-Blind-Road Following Based Wearable Navigation Device for Blind People

Authors Jinqiang Bai, Shiguo Lian, Zhaoxiang Liu, Kai Wang, Dijun Liu

為了幫助盲人在室内環境中高效安全地到達目的地,本文提出了一種新型的可穿戴導航裝置。定位,尋路,路線跟蹤和避障子產品是導航系統中必不可少的元件,而在路線跟蹤期間考慮避障是一項具有挑戰性的任務,因為室内環境複雜,多變且可能與動态物體相關。為了解決這個問題,我們提出了一種新方案,該方案利用動态子目标選擇政策來引導使用者到達目的地并幫助他們同時繞過障礙物。該方案是部署在一對可穿戴式光學透鏡上的完整導航系統的關鍵部件,以便于盲人日常行走。所提出的導航裝置已經在一組個人身上進行了測試,并證明對室内導航任務有效。嵌入式傳感器成本低,體積小,易于內建,使得眼鏡可以廣泛用作可穿戴的消費裝置。

Curvature: A signature for Action Recognition in Video Sequences

Authors He Chen, Gregory S. Chirikjian

在本文中,介紹了人類動作識别的新穎簽名,即視訊序列的曲率。以這種方式,模組化順序資料的分布,這使得幾乎沒有鏡頭學習。我們的算法不是依賴于識别圖像中的特征,而是将動作視為整個圖像序列中通用時間尺度上的序列。視訊序列(在像素空間中被視為曲線)通過使用像素空間中的曲線的arclength進行重新參數化來對齊。一旦獲得這樣的曲率,就提取統計指數并将其饋送到基于學習的分類器中。總的來說,我們的方法簡單但功能強大。初步實驗結果表明,該方法是有效的,在基于視訊的人體動作識别中達到了最先進的性能。此外,我們看到将這一想法轉移到其他基于序列的識别應用程式(如語音識别,機器翻譯和文本生成)的潛在能力。

A Study on Action Detection in the Wild

Authors Yubo Zhang, Pavel Tokmakov, Martial Hebert, Cordelia Schmid

最近推出的動作檢測AVA資料集引起了人們對這一問題的興趣。最近提出了幾種改進性能的方法。然而,他們都忽略了AVA資料集的主要困難,即其實際分布的訓練和測試執行個體。該資料集是通過在未經準确的視訊中對人類行為的詳盡注釋來收集的。是以,最常見的類别,例如stand或sit,包含成千上萬的例子,其中罕見的例子隻有幾十個。在這項工作中,我們研究了高度不平衡的資料集中的動作檢測問題。與以前處理長尾類别分布的工作不同,我們首先分析測試集中的不平衡。我們證明了标準AP度量标準對于尾部的類别沒有提供資訊,并提出了另一個樣本AP。有了這個新措施,我們研究了将表示從資料豐富的頭部轉移到稀有尾部類别的問題,并提出了一種簡單但有效的方法。

A neural network based on SPD manifold learning for skeleton-based hand gesture recognition

Authors Xuan Son Nguyen, Luc Brun, Olivier L zoray, S bastien Bougleux

本文提出了一種基于SPD流形學習的神經網絡,用于基于骨架的手勢識别。鑒于手的關節位置流,我們的方法分别在空間和時間域上組合了兩個聚合過程。我們的網絡架構的管道包括三個主要階段。第一階段基于卷積層,以增加學習特征的判别力。第二階段依賴于關節特征的空間和時間高斯聚合的不同架構。第三階段從骨架資料中學習最終的SPD矩陣。基于Stiefel流形上随機梯度下降的變量,提出了第三階段的新型層。所提出的網絡在兩個具有挑戰性的資料集上得到驗證,并顯示了兩個資料集的最新精度。

Convolutional nets for reconstructing neural circuits from brain images acquired by serial section electron microscopy

Authors Kisuk Lee, Nicholas Turner, Thomas Macrina, Jingpeng Wu, Ran Lu, H. Sebastian Seung

可以通過連續切片電子顯微鏡獲得的腦圖像重建神經回路。半個世紀以來,人工勞動一直在進行圖像分析,自動化的努力幾乎可以追溯到目前為止。十幾年前卷積網首次應用于神經元邊界檢測,現在已經在清晰圖像上獲得了令人印象深刻的準确度。對圖像缺陷的穩健處理是一項重大的突出挑戰。卷積網也被用于神經回路重建的其他任務,尋找突觸并識别突觸夥伴,擴充或修剪神經元重建,以及對齊連續切片圖像以建立3D圖像堆棧。計算系統正在設計用于處理立方毫米腦容積的petavoxel圖像。

Learning Raw Image Denoising with Bayer Pattern Unification and Bayer Preserving Augmentation

Authors Jiaming Liu, Chi Hao Wu, Yuzhi Wang, Qin Xu, Yuqian Zhou, Haibin Huang, Chuan Wang, Shaofan Cai, Yifan Ding, Haoqiang Fan, Jue Wang

在本文中,我們提出了基于DNN的原始圖像去噪的新資料預處理和增強技術。與傳統的RGB圖像去噪相比,在直接相機傳感器讀數上執行此任務帶來了新的挑戰,例如如何有效地處理來自不同資料源的各種Bayer模式,以及随後如何使用原始圖像執行有效的資料增強。為了解決第一個問題,我們提出了Bayer模式統一BayerUnify方法來統一不同的拜耳模式。這使我們能夠充分利用異構資料集來訓練單個去噪模型,而不是為每個模式訓練一個模型。此外,雖然增加資料集以改進模型泛化和性能是必不可少的,但我們發現通過調整為RGB圖像設計的增強方法來修改原始圖像是容易出錯的。為此,我們提出了一種Bayer保留增強BayerAug方法作為原始圖像增強的有效方法。将這些資料處理技術與改進的U Net相結合,我們的方法在NTIRE 2019 Real Image Deoising Challenge中實作了52.11的PSNR和0.9969的SSIM,展示了最先進的性能。

Learning to Find Common Objects Across Image Collections

Authors Amirreza Shaban, Amir Rahimi, Stephen Gould, Byron Boots, Richard Hartley

我們解決了從圖像提議集合中查找包含共同但未知的對象類别的一組圖像的問題。我們的配方假設我們收到了一系列行李,其中每個行李都是一套圖像提案。我們的目标是從每個包中選擇一個圖像,使得所選圖像具有相同的對象類别。我們将選擇模型化為具有一進制和成對勢函數的能量最小化問題。受最近幾種鏡頭學習算法的啟發,我們提出了一種直接從資料中學習潛在功能的方法。此外,我們提出了一種快速簡單的貪婪推理算法,用于能量最小化。我們評估了我們針對少數鏡頭常見對象識别和對象共定位任務的方法。我們的實驗表明,學習成對和一進制術語大大提高了模型的性能,而不是幾種衆所周知的方法來完成這些任務。所提出的貪婪優化算法實作了與現有技術的結構化推理算法相當的性能,同時快了10倍。該代碼可公開擷取

DiamondGAN: Unified Multi-Modal Generative Adversarial Networks for MRI Sequences Synthesis

Authors Hongwei Li, Johannes C. Paetzold, Anjany Sekuboyina, Florian Kofler, Jianguo Zhang, Jan S. Kirschke, Benedikt Wiestler, Bjoern Menze

最近關于醫學圖像合成的研究報告了使用生成對抗網絡的有希望的結果,主要集中于一對一的交叉模态綜合。當然,這個想法産生了目标模态将受益于多模态輸入。合成MR成像序列對于臨床實踐是非常有吸引力的,因為通常單個序列缺失或品質差,例如由于運動。然而,現有方法無法擴充到具有大量模态和大量非對齊體積的圖像體積,面臨複雜多模态成像序列的共同缺點。為了解決這些局限性,我們提出了一種新穎的,可擴充的多模式方法,稱為DiamondGAN。當給定多個模态或任意任意子集時,我們的模型能夠執行靈活的非對齊交叉模态合成和資料填充。它以端對端方式使用非對齊輸入模式學習結構化資訊。我們合成了兩個具有臨床相關性的MRI序列,即雙反轉恢複DIR和對比增強T1 T1c,它們是從三個常見的MRI序列重建的。此外,我們進行多評估者視覺評估實驗,發現訓練有素的放射科醫師無法将我們的合成DIR圖像與真實的DIR圖像區分開來。

Survey of Computer Vision and Machine Learning in Gastrointestinal Endoscopy

Authors Anant S. Vemuri

本文試圖為讀者提供一個開始研究計算機視覺和機器學習在胃腸道胃腸鏡檢查中應用的場所。它們被分為18類。讀者應該注意,這是一個深度學習時代的評論。本文沒有涉及許多基于深度學習的應用程式。

CT-To-MR Conditional Generative Adversarial Networks for Ischemic Stroke Lesion Segmentation

Authors Jonathan Rubin, S. Mazdak Abulnaga

由急性中風引起的梗塞腦組織很容易在擴散權重磁共振成像DWI中顯示為高信号區域。還提出,計算機斷層掃描灌注CTP可替代地用于對中風患者進行分類,其中考慮到速度和可用性的改進以及降低的成本。然而,與MR相比,CTP具有較低的信噪比。在這項工作中,我們研究是否可以通過生成性對抗網絡學習條件映射,以将CTP輸入映射到生成的MR DWI,更清楚地描繪由缺血性中風引起的高信号區域。我們詳細介紹了發生器和鑒别器的結構,并描述了用于執行從多模态CT灌注圖到擴散權重MR輸出的圖像到圖像轉換的訓練過程。我們通過視覺比較生成的MR與地面實況來定性地評估結果,并且通過訓練完全卷積神經網絡定量地評估結果,所述卷積神經網絡利用生成的MR資料輸入來執行缺血性中風病變分割。與僅使用CT灌注輸入的網絡相比,使用生成的CT到MR輸入訓練的分割網絡導緻用于評估的所有度量的至少一些改善。

Country-wide high-resolution vegetation height mapping with Sentinel-2

Authors Nico Lang, Konrad Schindler, Jan Dirk Wegner

在幾個月的時間内收集的Sentinel 2多光譜圖像用于估算加蓬(瑞士)的植被高度。訓練深度卷積網絡以從反射圖像中提取合适的光譜和紋理特征并回歸每像素植被高度。在加蓬,訓練和驗證的參考高度來自機載LiDAR測量。在瑞士,參考高度取自現有的通過攝影測量表面重建得到的冠層高度模型。得到的地圖在瑞士的平均絕對誤差MAE為1.7m,加蓬的平均絕對誤差為4.3m,并且正确地再現了高達50m的植被高度。它們還與現有植被高度圖顯示出良好的定性一緻性。我們的工作表明,給定适量的參考資料,可以從Sentinel 2圖像中在國家範圍内推導出具有10米地面采樣距離GSD的密集植被高度圖。

Signal2Image Modules in Deep Neural Networks for EEG Classification

Authors Paschalis Bizopoulos, Dimitrios Koutsouris

深度學習利用大資料的增加可用性和圖形處理單元等并行計算單元的強大功能,徹底改變了計算機視覺。絕大多數深度學習研究是使用圖像作為訓練資料進行的,然而生物醫學領域富含生理信号,用于診斷和預測問題。如何最好地利用信号來訓練深度神經網絡仍然是一個開放的研究問題。

Semantic Referee: A Neural-Symbolic Framework for Enhancing Geospatial Semantic Segmentation

Authors Marjan Alirezaie, Martin L ngkvist, Michael Sioutis, Amy Loutfi

了解機器學習算法可能失敗的原因通常是人類專家的任務,它使用領域知識和上下文資訊來發現資料或算法中的系統缺陷。在本文中,我們提出了一種語義裁判,它能夠提取深度機器學習架構中出現的錯誤的定性特征并提出修正建議。語義裁判依賴于關于空間知識的本體論推理,以便根據它們與環境的空間關系來表征錯誤。使用語義,推理器作為主管與學習算法互動。在本文中,提出的神經網絡分類器和語義裁判之間的互動方法顯示了如何提高衛星圖像資料的語義分割性能。

Deep Spectral Clustering using Dual Autoencoder Network

Authors Xu Yang, Cheng Deng, Feng Zheng, Junchi Yan, Wei Liu

聚類方法最近吸收了更多的學習和視覺注意力。深度聚類将嵌入和聚類結合在一起以獲得用于聚類的最佳嵌入子空間,與傳統的聚類方法相比,這可以更有效。在本文中,我們提出了一個用于判别嵌入和譜聚類的聯合學習架構。我們首先設計了一個雙自動編碼器網絡,它對潛在表示及其噪聲版本強制執行重建限制,将輸入嵌入潛在空間進行聚類。是以,所學習的潛在表示對于噪聲可以更穩健。然後利用互資訊估計從輸入提供更多的判别資訊。此外,應用深譜聚類方法将潛在表示嵌入到本征空間中并随後将它們聚類,這可以充分利用輸入之間的關系以實作最佳聚類結果。基準資料集的實驗結果表明,我們的方法可以明顯優于最先進的聚類方法。

Learning Image Information for eCommerce Queries

Authors Utkarsh Porwal

計算查詢和文檔之間的相似性是任何資訊檢索系統的基礎。在搜尋引擎中,計算查詢文檔相似性是檢索和排序階段中必不可少的步驟。在eBay搜尋中,文檔是項目,并且可以通過比較查詢項目對的不同方面來計算查詢項目相似性。查詢文本可以與項目标題的文本進行比較。同樣,可以将對查詢應用的類别限制與項目的清單類别進行比較。但是,圖像是一個通常存在于項目中但在查詢中不存在的信号。圖像是使用者用來确定給定查詢的項目的相關性的最直覺信号之一。在估計查詢項對之間的相似性中包括該信号可能會提高搜尋引擎的相關性。我們提出了一種為查詢導出圖像資訊的新方法。我們嘗試從項目圖像中學習查詢的圖像資訊,而不是生成顯式圖像特征或查詢圖像。我們使用典型相關分析CCA來學習新的子空間,其中投影原始資料将為我們提供新的查詢和項目表示。我們假設這個新的查詢表示還将具有關于查詢的圖像資訊。我們使用向量空間模型估計查詢項目相似性,并在eBay的搜尋資料上報告所提出方法的性能。我們使用接收器操作特性曲線AUROC下的面積作為評估名額,顯示了相對于基線的11.89相關性改進。我們還在精确回憶曲線AUPRC下顯示了相對于基線的3.1相關性改進。

Learning to Index for Nearest Neighbor Search

Authors Chih Yi Chiu, Amorntip Prayoonwong, Yin Chih Liao

在這項研究中,我們提出了一種基于嵌入在索引空間中的學習鄰域關系的新穎排名模型。給定查詢點,傳統的近似最近鄰搜尋在基于距離從近到遠對群集進行排序之前計算到群集質心的距離。檢索在排名最高的叢集中索引的資料并将其視為查詢的最近鄰居候選者。然而,資料和聚類質心之間的量化損失将不可避免地損害搜尋精度。為了解決這個問題,所提出的模型基于它們的最近鄰機率而不是查詢質心距離對聚類進行排序。通過使用神經網絡來表征鄰域關系(即,關于查詢的最近鄰居的密度函數)來估計最近鄰機率。所提出的基于機率的排名可以替換用于查找候選聚類的傳統的基于距離的排名,并且預測的機率可以用于确定要從候選聚類中檢索的資料量。我們的實驗結果表明,所提出的排名模型可以在十億比例的資料集中有效地提高搜尋性能。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩請移步首頁

【今日CV 計算機視覺論文速覽 第109期】Wed, 1 May 2019

pic from pixels.com

繼續閱讀