天天看點

【今日CV 計算機視覺論文速覽 第133期】Wed, 19 Jun 2019

今日CS.CV 計算機視覺論文速覽

Wed, 19 Jun 2019

Totally 39 papers

?上期速覽✈更多精彩請移步首頁

??????

?小嘗試:?留言 郵箱位址及時獲悉論文速覽

【今日CV 計算機視覺論文速覽 第133期】Wed, 19 Jun 2019

Interesting:

?基于人體姿勢生成時尚衣着圖像, 提出了一種将主體的時尚圖像從某個姿勢遷移到新的體态姿勢上去。這一模型包含了兩個判别器和一個生成器。其中生成器包含了姿勢編碼器、圖像編碼器以及對應的解碼器,兩個編碼器得到的特征表達将被用于新圖像合成。與傳統方法不同的是兩個判别器用于指導模型學習,一個用于判别生成圖像與訓練樣本,領域各用于驗證生成圖像與姿勢間的連續性。(from 北卡大學 JD OPPO)

【今日CV 計算機視覺論文速覽 第133期】Wed, 19 Jun 2019

姿勢的編碼器Dp保證了生成圖像姿勢的連續性!

與相關方法的比較:

【今日CV 計算機視覺論文速覽 第133期】Wed, 19 Jun 2019

得到的結果:

【今日CV 計算機視覺論文速覽 第133期】Wed, 19 Jun 2019

dataset: DeepFashion [16] and Market-1501 [37].

ref:時尚相關的圖像任務smart photo editing, movie making, virtual try-on, and fashion display

?合成資料用于預測密集堆疊相似物體的邊界, 邊界方向檢測主要通過預測任一類别執行個體的邊界和對應的遮擋部分來實作,研究人員提出了共享編碼器的兩個解碼器架構,從單張RGB中同時預測出邊界和未遮擋面。研究人員還合成了Mikado資料集來評測物體間互相遮擋的情況(from France ´Universit´e de Lyon)

得到的結果和對應的模型,共享編碼器的兩個解碼器和之間的額調節層共享資訊。

【今日CV 計算機視覺論文速覽 第133期】Wed, 19 Jun 2019

使用的資料集和其中互相遮擋的物體:

【今日CV 計算機視覺論文速覽 第133期】Wed, 19 Jun 2019

建構資料的過程,在邊界處高的設為1低的設為0,得到了上下物體的朝向:

【今日CV 計算機視覺論文速覽 第133期】Wed, 19 Jun 2019

用于合成資料的材質和背景:

【今日CV 計算機視覺論文速覽 第133期】Wed, 19 Jun 2019

各種不同模型的變種:

【今日CV 計算機視覺論文速覽 第133期】Wed, 19 Jun 2019

ref:

Oriented Edge Forests for Boundary Detection

https://github.com/samhallman/oef

edge detection ref:

R. Deng, C. Shen, S. Liu, H. Wang, X. Liu, Learning to Predict Crisp Boundaries, in ECCV 18

Y. Wang, X. Zhao, K. Huang, Deep Crisp Boundaries, in CVPR (IEEE Computer Society, 2017), Convolutional Features for Edge Detection

J. Yang, B.L. Price, S. Cohen, H. Lee, M.H. Yang, Object Contour Detection with a Fully Convolutional EncoderDecoder Network, in CVPR (IEEE Computer Society, 2016),

O. Ronneberger, P. Fischer, T. Brox, U-Net: Convolutional Networks for Biomedical Image Segmentation

S. Xie, Z. Tu, Holistically-Nested Edge Detection, in ICCV15

?DeepView新視角合成方法,基于學習到的梯度下降, 通過稀疏的視點和多平面圖像(multiplane image ,MPI,不同深度的圖像層)),研究人員在學習到的梯度下降方法上提出了新的視角合成方法,可以有效處理物體邊界、遮擋、光反射、薄壁結構、深度複雜等場景。(from 谷歌)

通過重建和梯度下降來得到MPI圖像,最後既可以渲染出不同視角的圖像:

gradients have a particularly intuitive form in that they encode the visibility information between the input views and the MPI layers! MPI render image!

【今日CV 計算機視覺論文速覽 第133期】Wed, 19 Jun 2019

可學習的梯度下降過程,基于初始化的MPI不斷利用相同結構的CNN,根據計算出的梯度來更新MPI:

【今日CV 計算機視覺論文速覽 第133期】Wed, 19 Jun 2019

更新CNN的架構如下:

【今日CV 計算機視覺論文速覽 第133期】Wed, 19 Jun 2019

得到的合成視角結果:

【今日CV 計算機視覺論文速覽 第133期】Wed, 19 Jun 2019

dataset:Spaces

web:https://augmentedperception.github.io/deepview/

ref:learned gradient descent:https://github.com/adler-j/learned_gradient_tomography

++paper:https://arxiv.org/pdf/1704.04058.pdf

?三維幾何隐含模式分析和三維Mesh, 提出了基于mesh的幾何紋理分析,将使用者尺度和3Dmesh作為輸入,并生成基于相似度的紋理聚類,和有意義的分類。不同尺度對于特征的描述和抽取是不同的,通過使用者定義的尺度來分割和抽取并分類幾何紋理。(from Clermont Universit´e, Universit´e d’Auvergne)

【今日CV 計算機視覺論文速覽 第133期】Wed, 19 Jun 2019

code:https://github.com/AliceOTHMANI/3D-Geometric-Texture-Segmentation

Daily Computer Vision Papers

**Weather Influence and Classification with Automotive Lidar Sensors

Authors Robin Heinzler, Philipp Schindler, J rgen Seekircher, Werner Ritter, Wilhelm Stork

雷射雷達傳感器通常用于移動機器人和自動駕駛車輛,以補充錄影機,雷達和超音波傳感器以獲得環境感覺。通常,感覺算法被訓練為僅檢測移動和靜态對象以及地面估計,但故意忽略天氣效應以減少錯誤檢測。在這項工作中,我們對惡劣天氣條件下的汽車雷射雷達性能進行了深入分析,即大雨和濃霧。已經記錄了針對各種霧和雨條件的大量資料集,這是在不斷變化的環境條件下對點雲進行深度分析的基礎。此外,我們介紹了一種僅用雷射雷達傳感器檢測和分類雨或霧的新方法,并在受控環境中實作了資料集97.14的交叉平均聯合。天氣對雷射雷達傳感器性能的影響分析和天氣檢測是提高可靠資訊以适應車輛行為的重要步驟,旨在提高惡劣天氣條件下自動駕駛的安全水準。

***ADA-Tucker: Compressing Deep Neural Networks via Adaptive Dimension Adjustment Tucker Decomposition

Authors Zhisheng Zhong, Fangyin Wei, Zhouchen Lin, Chao Zhang

盡管最近在許多應用中成功地使用了深度學習模型,但是它們在移動裝置上的廣泛使用受到存儲和計算要求的嚴重阻礙。在本文中,我們提出了一種新的網絡壓縮方法,稱為自适應尺寸調整Tucker分解ADA Tucker。借助可學習的核心張量和變換矩陣,ADA Tucker執行任意階數張量的Tucker分解。此外,我們建議在具有适當順序和平衡次元的網絡中的權重張量更容易壓縮。是以,分解選擇的高度靈活性将ADA Tucker與之前的所有低級别模型區分開來。為了壓縮更多,我們通過為所有層定義共享核心張量,進一步将模型擴充到Shared Core ADA Tucker SCADA Tucker。我們的方法不需要記錄非零元素索引的開銷。在不損失準确性的情況下,我們的方法分别以691倍和233倍的比率減少LeNet 5和LeNet 300的存儲,顯着優于現有技術水準。我們的方法的有效性也在其他三個基準CIFAR 10,SVHN,ILSVRC12和現代新深度網絡ResNet,Wide ResNet上進行了評估。

A Weakly Supervised Learning Based Clustering Framework

Authors Mustafa Umit Oner, Hwee Kuan Lee, Wing Kin Sung

本文提出了一種基于弱監督學習的聚類架構。作為該架構的核心,我們引入了一個基于包級别标簽的新型多執行個體學習任務,稱為唯一類計數ucc,它是包中所有執行個體中唯一類的數量。在此任務中,在模型訓練期間不需要對包内的各個執行個體進行注釋。我們在數學上證明了一個完美的ucc分類器,原則上可以用來完美地聚集袋内的個體執行個體。換句話說,即使在訓練期間沒有給出關于個體執行個體的注釋,也可以完美地聚類個體執行個體。我們建構了一個基于神經網絡的ucc分類器,并通過實驗證明我們的ucc分類器架構的聚類性能與完全監督學習模型的聚類性能相當。我們還觀察到,我們的ucc分類器可以潛在地用于零射擊學習,因為他們學習更好的語義特征而不是完全監督的模型用于看不見的類,這些模型在訓練期間從未輸入到模型中。

3D Geometric salient patterns analysis on 3D meshes

Authors Alice Othmani, Fakhri Torkhani, Jean Marie Favreau

模式分析是一個廣泛的領域,在許多領域具有廣泛的适用性。實際上,紋理分析是這些領域之一,因為紋理被定義為一組重複或準重複模式。盡管在分析三維網格物體方面具有重要意義,但幾何處理社群對幾何紋理分析的研究較少。本文提出了一種新的三維三角網格幾何紋理分析的有效方法。所提出的方法是尺度感覺方法,其将3D網格和使用者尺度作為輸入。是以,它提供了基于相似性的有意義類别中的紋素的聚類。所提出的算法的實驗結果被呈現用于各種紋理内的真實世界和合成網格。此外,所提出的方法的效率在網格簡化和網格表面上的噪聲添加下通過實驗證明。在本文中,我們提出了三維幾何突出紋理的語義标注的實際應用。

Learning with Average Precision: Training Image Retrieval with a Listwise Loss

Authors Jerome Revaud, Jon Almazan, Rafael Sampaio de Rezende, Cesar Roberto de Souza

圖像檢索可以被表述為排名問題,其目标是通過減少與查詢的相似性來對資料庫圖像進行排序。最近的深度圖像檢索模型通過利用排序量身定制的損失函數優于傳統方法,但仍然存在重要的理論和實際問題。首先,它們不是直接優化全局排名,而是最小化基本損失的上限,這不一定導緻最佳平均平均精度mAP。其次,這些方法需要大量的工程努力才能很好地工作,例如特殊的預訓練和硬負的采礦。在本文中,我們建議通過利用清單損失公式的最新進展直接優化全球mAP。使用直方圖分級近似,可以區分AP,進而用于端到端學習。與現有損失相比,所提出的方法在每次疊代時同時考慮數千個圖像,并且消除了對特殊技巧的需要。它還在許多标準檢索基準上建立了新的技術水準。模型和評估腳本已在

***稠密人臉檢測Locate, Size and Count: Accurately Resolving People in Dense Crowds via Detection

Authors Deepak Babu Sam, Skand Vishwanath Peri, Mukuntha N. S., Amogh Kamath, R. Venkatesh Babu

我們引入了密集人群計數的檢測架構,并消除了對普遍密度回歸範例的需求。典型的計數模型預測圖像的人群密度,而不是檢測每個人。通常,這些回歸方法無法為除計數以外的大多數應用程式準确地定位人員。是以,我們采用一種架構,定位人群中的每個人,用邊界框對斑點頭進行大小調整然後對其進行計數。與普通物體或面部檢測器相比,在設計這種檢測系統時存在某些獨特的挑戰。其中一些是密集人群中巨大多樣性的直接後果,同時需要連續預測盒子。我們解決了這些問題并開發了我們的LSC CNN模型,該模型可以可靠地檢測稀疏人群中的人群。 LSC CNN采用多列體系結構,具有自上而下的回報處理功能,可以更好地解決人員并在多種分辨率下生成精确的預測。有趣的是,建議的訓練方案僅需要點頭注釋,但可以估計頭部的近似大小資訊。我們表明LSC CNN不僅具有優于現有密度回歸器的定位,而且在計數方面也表現優異。我們的方法代碼可在以下網址找到

Impoved RPN for Single Targets Detection based on the Anchor Mask Net

Authors Mingjie Li, Youqian Feng, Zhonghai Yin, Cheng Zhou, Fanghao Dong

共同目标檢測通常基于單幀圖像,其易受圖像中類似目标的影響而不适用于視訊圖像。本文提出了錨定掩模來增加目标檢測的先驗知識,并設計了錨定掩模網絡,以提高單目标檢測的RPN性能。經過VOT2016測試,該型号表現更佳。

A One-step Pruning-recovery Framework for Acceleration of Convolutional Neural Networks

Authors Dong Wang, Lei Zhou, Xiao Bai, Jun Zhou

在過去的幾年中,卷積神經網絡的加速受到越來越多的關注。在各種加速技術中,濾波器修剪通過有效減少卷積濾波器的數量而具有其固有的優點。然而,大多數過濾器修剪方法采用冗長且耗時的逐層修剪恢複政策以避免顯着的精度下降。在本文中,我們提出了一個有效的過濾器修剪架構來解決這個問題。我們的方法通過一種新穎的優化目标函數以一步修剪恢複方式加速網絡,與現有的修剪方法相比,該方法實作了更高的精度和更低的成本。此外,我們的方法允許使用全局過濾器修剪進行網絡壓縮。給定全局修剪速率,它可以自适應地确定每個單個卷積層的修剪速率,而這些速率通常在先前的方法中被設定為超參數。使用ImageNet對VGG 16和ResNet 50進行評估,我們的方法優于幾種最先進的方法,在相同甚至更少的浮點運算FLOP下,精度下降更少。

Bicameral Structuring and Synthetic Imagery for Jointly Predicting Instance Boundaries and Nearby Occlusions from a Single Image

Authors Matthieu Grard imagine , Liming Chen imagine , Emmanuel Dellandr a imagine

定向邊界檢測是一項具有挑戰性的任務,旨在描繪類别不可知對象執行個體并從單個RGB圖像推斷其空間布局。用于該任務的現有技術深度卷積網絡依賴于分别預測邊界和遮擋的兩個獨立流,盡管兩者都需要類似的局部和全局線索,并且遮擋導緻邊界。是以,我們提出了一種完全卷積的兩室結構,由兩個共享一個深度編碼器的級聯解碼器組成,通過跳過連接配接完全連結以組合局部和全局特征,用于聯合預測執行個體邊界及其未被遮擋的一側。此外,現有技術資料集包含具有少量執行個體和遮擋的真實圖像,這主要是由于遮擋背景的對象,進而在執行個體之間缺少有意義的遮擋。為了評估密集的對象堆的丢失場景,我們引入了合成資料Mikado,其可擴充地包含比PASCAL執行個體遮擋資料集PIOD,COCO Amodal資料集COCOA和密集分段超市Amodal更多的執行個體和每個圖像的執行個體間遮擋。資料集D2SA。我們表明,所提出的網絡設計優于PIOD和Mikado的定向邊界檢測的兩個流基線和替代方案,以及COCOA上的氨基分割方法。我們在D2SA上的實驗也表明,Mikado在某種意義上是合理的,因為它可以學習可轉換為真實資料的性能增強表示,同時大大減少了對微調的手工注釋的需求。

Locality Preserving Joint Transfer for Domain Adaptation

Authors Li Jingjing, Jing Mengmeng, Lu Ke, Zhu Lei, Shen Heng Tao

域适應旨在利用來自良好标記的源域的知識到标記不良的目标域。大多數現有作品在特征級别或樣本級别上傳輸知識。最近的研究表明,兩種範式都非常重要,優化其中一種可以強化另一種範式。受此啟發,我們提出了一種新方法,通過地标選擇共同利用特征适應與分布比對和樣本适應。在知識轉移過程中,我們還考慮了樣本之間的局部一緻性,以便保留樣本的流形結構。最後,我們部署标簽傳播來預測新執行個體的類别。值得注意的是,我們的方法适用于通過學習領域特定預測進行同構和異構域适應。五個開放基準測試(包括标準資料集和大規模資料集)的大量實驗驗證了我們的方法不僅可以顯着優于傳統方法,還可以優于端到端深度模型。實驗還表明,我們可以利用手工制作的功能,通過異構适應來提高深度特征的準确性。

Using colorization as a tool for automatic makeup suggestion

Authors Shreyank Narayana Gowda

着色是将灰階圖像轉換為全彩色圖像的方法。有多種方法可以做到這一點。舊學校方法使用機器學習算法和優化技術來建議可能使用的顔色。随着深度學習領域的進步,着色結果随着深度學習架構的改進而不斷改進。深度學習領域的最新發展是生成對抗性網絡GAN的出現,它用于生成資訊而不僅僅是預測或分類。作為本報告的一部分,最近的論文的2個架構被複制,同時建議用于一般着色的新穎架構。在此之後,我們建議通過在臉上自動生成化妝建議來使用着色。為此,已建立由1000個圖像組成的資料集。當沒有化妝的人的圖像被發送到模型時,模型首先将圖像轉換為灰階,然後将其傳遞給建議的GAN模型。輸出是生成的化妝建議。為了開發這個模型,我們需要調整一般的着色模型,隻處理人臉。

***Neural Illumination: Lighting Prediction for Indoor Environments

Authors Shuran Song, Thomas Funkhouser

本文讨論了估計從所有方向到達在RGB圖像中的所選像素處觀察到的3D點的光的任務。此任務具有挑戰性,因為它需要預測從相機的部分場景觀察到標明位置的完整照明地圖的映射,這取決于選擇的3D位置,未觀察到的光源的分布,由場景引起的遮擋先前的方法試圖使用單個黑盒神經網絡直接學習這種複雜的映射,這通常無法估計具有複雜3D幾何的場景的高頻照明細節。相反,我們提出神經照明一種新方法,将照明預測分解為幾個更簡單的可微分子任務1幾何估計,2場景完成和3 LDR到HDR估計。這種方法的優點是子任務相對容易學習,并且可以通過直接監督進行教育訓練,而整個管道完全可以區分,并且可以通過端到端監督進行微調。實驗表明,我們的方法在數量和品質上都比以前的工作表現得更好。

A sparse annotation strategy based on attention-guided active learning for 3D medical image segmentation

Authors Zhenxi Zhang, Jie Li, Zhusi Zhong, Zhicheng Jiao, Xinbo Gao

三維圖像分割是醫學圖像進行中最重要和最普遍的問題之一。它為準确的疾病診斷,異常檢測和分類提供詳細的定量分析。目前,深度學習算法被廣泛應用于醫學圖像分割,大多數算法訓練具有完全注釋資料集的模型。然而,獲得醫學圖像資料集是非常困難和昂貴的,并且3D醫學圖像的完整注釋是單調且耗時的工作。在3D圖像中部分标記資訊切片将是手動注釋的極大緩解。已經在2D圖像領域中提出了基于主動學習的樣本選擇政策,但是很少有政策關注于3D圖像。在本文中,我們提出了一種基于注意力引導主動學習的三維醫學圖像分割稀疏注釋政策。注意機制用于提高分割準确度并估計每個切片的分割準确度。使用來自開發人類連接配接組項目dHCP的資料集的三種不同政策的對比實驗表明,我們的政策在腦提取任務中僅需要15至20個注釋切片,并且在組織分割任務中需要30至35個注釋切片以實作作為完整注釋的比較結果。

Neural Multi-Scale Self-Supervised Registration for Echocardiogram Dense Tracking

Authors Wentao Zhu, Yufang Huang, Mani A Vannan, Shizhen Liu, Daguang Xu, Wei Fan, Zhen Qian, Xiaohui Xie

超聲心動圖已經正常用于心肌病和心髒血流異常的診斷。然而,手動測量來自超聲心動圖的心肌運動和心髒血流是耗時且容易出錯的。能夠自動跟蹤和量化心肌運動和心髒血流的計算機算法受到高度追捧,但由于噪聲和超聲心動圖的高度可變性而未能取得很大成功。在這項工作中,我們提出了一種神經多尺度自監督登記NMSR方法,用于自動心肌和心髒血流密集跟蹤。 NMSR結合了兩個新穎的元件1,利用深度神經網絡來參數化兩個圖像幀之間的速度場,并且2以連續的多尺度方式優化神經網絡的參數以解決速度場内的大的變化。實驗證明,對于心肌和心髒血流密集跟蹤,NMSR産生比現有技術方法(例如進階标準化工具ANT和VoxelMorph)明顯更好的配準精度。我們的方法有望提供一種全自動的方法,用于快速準确地分析超聲心動圖。

Boosting CNN beyond Label in Inverse Problems

Authors Eunju Cha, Jaeduck Jang, Junho Lee, Eunha Lee, Jong Chul Ye

卷積神經網絡CNN已被廣泛用于逆問題。然而,由于僅使用所選資料訓練神經網絡并且它們的架構主要被認為是黑盒子,是以難以預先估計它們對于看不見的測試資料的預測誤差。這對于無監督學習或超出标簽的改進的神經網絡提出了根本性挑戰。在本文中,我們表明最近的無監督學習方法,如Noise2Noise,Stein s無偏差風險估計器SURE為基礎的降噪器,以及Noise2Void在制定預測誤差的無偏估計時彼此密切相關,但它們中的每一個都是與其自身的局限性有關。基于這些觀察,我們為預測誤差提供了一種新穎的增強估計器。特别地,通過采用編碼器解碼器CNN的組合卷積幀表示并将其與批量歸一化協同地組合,我們提供了用于預測誤差的無偏估計的緊密形式公式,其可以被最小化以用于超出标簽的神經網絡訓練。實驗結果表明,所得到的算法,我們稱之為Noise2Boosting,在監督和非監督學習設定下的各種逆問題中提供了一緻的改進。

DeepView: View Synthesis with Learned Gradient Descent

Authors John Flynn, Michael Broxton, Paul Debevec, Matthew DuVall, Graham Fyffe, Ryan Overbeck, Noah Snavely, Richard Tucker

我們提出了一種使用多平面圖像MPI檢視合成的新方法。基于學習梯度下降的最新進展,我們的算法從一組稀疏相機視點生成MPI。所得到的方法結合了遮擋推理,提高了具有挑戰性的場景特征的性能,例如物體邊界,光照反射,薄結構和具有高深度複雜度的場景。我們展示了我們的方法在Kalantari光場資料集的兩個資料集上實作了高品質,最先進的結果,以及我們公開提供的新的相機陣列資料集Spaces。

**Using Discriminative Methods to Learn Fashion Compatibility Across Datasets

Authors Kedan Li, Chen Liu, Ranjitha Kumar, David Forsyth

确定一對服裝是否彼此相容是一個具有挑戰性的比對問題。過去的作品探索了各種嵌入方法來學習這種關系。本文通過将任務公式化為一個簡單的二進制分類問題,介紹了使用判别方法來學習相容性。我們使用由非專家建立的既定服裝資料集來評估我們的方法,并證明了對現有技術方法的既定名額的改進2.5。我們介紹了三個專業策劃服裝的新資料集,并展示了我們在專家策劃資料集上的一緻性能。為了便于比較各個裝備資料集,我們提出了一個新的度量标準,與以前使用的度量标準不同,它不會受到服裝平均大小的偏差。我們還證明了兩種類型的項之間的相容性可以間接查詢,并且這種查詢政策可以産生改進。

Content-aware Density Map for Crowd Counting and Density Estimation

Authors Mahdi Maktabdar Oghaz, Anish R Khadka, Vasileios Argyriou, Paolo Remagnino

關于人群規模,密度和流量的精确知識可以為安全和安全應用,活動規劃,建築設計和分析消費者行為提供有價值的資訊。建立一個功能強大的機器學習模型,用于此類應用程式需要一個大而高度準确和可靠的資料集。不幸的是,現有的人群計數和密度估計基準資料集不僅在其大小方面受到限制,而且缺乏注釋,通常實施起來太耗時。本文試圖通過内容感覺技術解決這個問題,使用Chan Vese分割算法,二維高斯濾波器和強力最近鄰搜尋的組合。結果表明,通過簡單地用所提出的方法替換常用的密度圖生成器,使用現有技術模型可以實作更高的準确度。

***Pose Guided Fashion Image Synthesis Using Deep Generative Model

Authors Wei Sun, Jawadul H. Bappy, Shanglin Yang, Yi Xu, Tianfu Wu, Hui Zhou

生成具有預期人體姿勢的逼真圖像是許多應用的有前途但具有挑戰性的研究課題,例如智能照片編輯,電影制作,虛拟試穿和時尚顯示。在本文中,我們提出了一種新的深度生成模型,用于将人的圖像從給定姿勢轉移到新姿勢,同時保持時尚項目的一緻性。為了制定架構,我們使用一個發生器和兩個鑒别器進行圖像合成。該生成器包括圖像編碼器,姿勢編碼器和解碼器。兩個編碼器提供視覺和幾何上下文的良好表示,解碼器将利用該上下文來生成照片級真實感圖像。與現有的姿勢引導圖像生成模型不同,我們利用兩個鑒别器來指導合成過程,其中一個鑒别器區分生成的圖像和真實圖像訓練樣本,另一個鑒别器驗證目标姿勢和生成的圖像之間的外觀一緻性。我們進行網絡的端到端訓練,通過給定地面實況圖像的反向傳播來學習參數。所提出的生成模型能夠合成給定目标姿勢的人的照片級真實感圖像。我們通過對兩個資料集進行嚴格的實驗來證明我們的結果,包括定量和定性。

**Hardware Aware Neural Network Architectures using FbNet

Authors Sai Vineeth Kalluru Srinivas, Harideep Nair, Vinay Vidyasagar

我們實施了一個受FBNet啟發的可微分神經架構搜尋NAS方法,用于發現針對特定目标裝置進行了大量優化的神經網絡。 FBNet NAS方法通過優化損失函數來發現來自給定搜尋空間的神經網絡,該函數考慮了準确性和目标裝置延遲。我們通過添加能量項來擴充這種損失函數。這将有可能增強硬體意識,并幫助我們找到在準确性,延遲和能耗方面最佳的神經網絡架構,在我們的案例中給定目标裝置Raspberry Pi。我們将在搜尋過程結束時獲得的訓練有素的兒童架構命名為硬體感覺神經網絡架構HANNA。我們通過将HANNA與針對移動嵌入式應用設計的另外兩個最先進的神經網絡(即MobileNetv2和用于CIFAR 10資料集的CondenseNet)進行基準測試來證明我們的方法的有效性。我們的研究結果表明,與MobileNetv2和CondenseNet相比,HANNA提供了大約2.5倍和1.7倍的加速,并且能耗降低了3.8倍和2倍。 HANNA能夠在最先進的基線上提供如此顯着的加速和能效優勢,其成本是可承受的精度下降4 5。https://github.com/hpnair/18663_Project_FBNet

PolSAR Image Classification based on Polarimetric Scattering Coding and Sparse Support Matrix Machine

Authors Xu Liu, Licheng Jiao, Dan Zhang, Fang Liu

POLSAR圖像優于光學圖像,因為它可以獨立于雲層和太陽能照明而獲得。 PolSAR圖像分類是解釋POLSAR圖像的熱門話題。本文提出了一種基于極化散射編碼和稀疏支援矩陣機的POLSAR圖像分類方法。首先,我們通過極化散射編碼轉換原始POLSAR資料以獲得實數值矩陣,其被稱為極化散射矩陣并且是稀疏矩陣。其次,稀疏支援矩陣機用于對稀疏極化散射矩陣進行分類,得到分類圖。這兩個步驟的結合充分考慮了POLSAR的特點。實驗結果表明,該方法可以取得較好的效果,是一種有效的分類方法。

High Speed and High Dynamic Range Video with an Event Camera

Authors Henri Rebecq, Ren Ranftl, Vladlen Koltun, Davide Scaramuzza

事件相機是新穎的傳感器,它以異步事件流的形式報告亮度變化而不是強度幀。相對于傳統相機,它們具有顯着優勢,具有高時間分辨率,高動态範圍和無運動模糊。雖然事件流原則上編碼完整的視覺信号,但是從事件流中重建強度圖像在實踐中是一個不适當的問題。現有的重建方法基于手工制作的先驗和關于成像過程的強烈假設以及自然圖像的統計。在這項工作中,我們建議學習直接從資料重建事件流的強度圖像,而不是依賴于任何手工制作的先驗。我們提出了一種新穎的循環網絡,用于從事件流中重建視訊,并在大量模拟事件資料上進行訓練。在訓練期間,我們建議使用感覺損失來鼓勵重建遵循自然圖像統計。我們進一步擴充了從顔色事件流合成彩色圖像的方法。我們的網絡在圖像品質方面20大幅度超越了最先進的重建方法,同時實時舒适地運作。我們表明網絡能夠合成高速現象每秒5,000幀的高幀率視訊,例如子彈擊中物體并能夠在具有挑戰性的照明條件下提供高動态範圍重建。我們還證明了我們的重建作為事件資料的中間表示的有效性。我們展示了現成的計算機視覺算法可以應用于我們的重建任務,如對象分類和視覺慣性測距,并且該政策始終優于專為事件資料設計的算法。

Expressing Visual Relationships via Language

Authors Hao Tan, Franck Dernoncourt, Zhe Lin, Trung Bui, Mohit Bansal

用文本描述圖像是視覺語言研究中的基本問題。該領域目前的研究主要集中在單圖像字幕上。然而,在各種實際應用中,例如,圖像編輯,差異解釋和檢索,生成兩個圖像的關系字幕也是非常有用的。由于缺乏資料集和有效模型,這一重要問題尚未得到探索。為了推進這方面的研究,我們首先介紹一種新的語言引導圖像編輯資料集,其中包含大量具有相應編輯指令的真實圖像對。然後,我們提出了一種新的關系說話人模型,該模型基于編碼器解碼器架構,具有靜态關系注意和順序多頭注意。我們還通過動态關系注意擴充模型,計算解碼時的視覺對齊。我們的模型在我們新收集的和兩個公共資料集上進行評估,這些資料集由用關系句注釋的圖像對組成。基于自動和人工評估的實驗結果表明,我們的模型優于所有資料集的所有基線和現有方法。

Multiclass segmentation as multitask learning for drusen segmentation in retinal optical coherence tomography

Authors Rhona Asgari, Jos Ignacio Orlando, Sebastian Waldstein, Ferdinand Schlanitz, Magdalena Baratsits, Ursula Schmidt Erfurth, Hrvoje Bogunovi

視網膜光學相幹斷層掃描中的自動玻璃疣分割OCT掃描與了解年齡相關性黃斑變性AMD風險和進展相關。該任務通常通過分割定義玻璃疣的頂部底部解剖界面,視網膜色素上皮OBRPE的外邊界和布魯赫膜BM來進行。在本文中,我們提出了一種新的多解碼器架構,它将玻璃疣分割作為一個多任務問題來解決。我們不是為OBRPE BM分段訓練多類模型,而是針對每個目标類使用一個解碼器,而針對層之間的區域使用額外的解碼器。我們還引入了每個類特定分支和附加解碼器之間的連接配接,以增加該代理任務的正則化效果。我們分别使用166個早期中間AMD Spectralis,200個AMD和控制Bioptigen OCT卷來驗證我們對私有公共資料集的方法。我們的方法在層和玻璃疣分割評估中始終優于幾個基線。

Differentiable probabilistic models of scientific imaging with the Fourier slice theorem

Authors Karen Ullrich, Rianne van den Berg, Marcus Brubaker, David Fleet, Max Welling

科學成像技術,如光學和電子顯微鏡和計算機斷層掃描CT掃描,用于通過2D觀察研究物體的三維結構。這些觀察通過正交積分投影與原始3D對象相關。對于常見的3D重建算法,計算效率要求通過應用傅立葉切片定理對3D結構進行模組化以在傅立葉空間中進行。目前,尚不清楚如何通過投影算子進行區分,是以目前的學習算法不能依賴基于梯度的方法來優化3D結構模型。在本文中,我們展示了如何通過傅立葉空間中的投影算子實作反向傳播。我們通過蛋白質三維重建實驗證明了該方法的有效性。我們進一步擴充了我們學習3D對象機率模型的方法。這使我們能夠預測低采樣率的區域或估計噪聲。通過利用3D結構的學習不确定性作為模型拟合的無監督估計,可以獲得更高的樣本效率。最後,我們示範了如何使用對象姿态等未知屬性的攤銷推理方案來擴充重建算法。通過實證研究,我們表明,當地面實況對象包含更多對稱性時,3D結構和對象姿勢的聯合推理變得更加困難。由于存在例如近似旋轉對稱性,姿勢估計可能容易陷入局部最優,進而抑制3D結構的細粒度高品質估計。

An Attention-Guided Deep Regression Model for Landmark Detection in Cephalograms

Authors Zhusi Zhong, Jie Li, Zhenxi Zhang, Zhicheng Jiao, Xinbo Gao

頭影測量追蹤法通常用于正畸診斷和治療計劃。在本文中,我們提出了一個基于深度學習的架構,以自動檢測頭部測量X射線圖像中的解剖标志。我們訓練深度編碼器解碼器用于地标檢測,并将全局地标配置與局部高分辨率特征響應相結合。所提出的架構工作基于2階段網絡,回歸用于地标檢測的多通道熱圖。在這個架構中,我們将注意機制與全局階段熱圖嵌入,引導局部推斷,以高分辨率回歸局部熱圖貼片。此外,擴充探索政策在推斷時證明了魯棒性,在不增加模型複雜性的情況下擴充了搜尋範圍。我們已經在最廣泛使用的頭部測量X射線圖像中的地标檢測公共資料集中評估了我們的架構。通過較少的計算和手動調整,我們的架構實作了最先進的結果。

Deep Learning Enhanced Extended Depth-of-Field for Thick Blood-Film Malaria High-Throughput Microscopy

Authors Petru Manescu, Lydia Neary Zajiczek, Michael J. Shaw, Muna Elmi, Remy Claveau, Vijay Pawar, John Shawe Taylor, Iasonas Kokkinos, Mandayam A. Srinivasan, Ikeoluwa Lagunju, Olugbemiro Sodeinde, Biobele J. Brown, Delmiro Fernandez Reyes

快速準确的瘧疾診斷仍然是全球性的健康挑戰,自動化數字病理學方法可以提供适合在中低收入國家部署的可擴充解決方案。在這裡,我們解決了厚血膜顯微鏡中擴充景深EDoF的問題,用于快速自動化瘧疾診斷。通常優選具有大數值孔徑的高放大率油物鏡100x以解決有助于将真實寄生蟲與幹擾物分開的精細結構細節。然而,這樣的物鏡具有非常有限的景深,需要在每個視場FOV的不同焦平面處擷取一系列圖像。基于多尺度分解的目前EDoF技術是耗時的,是以不适合于樣品的高通量分析。為了克服這一挑戰,我們開發了一種基于卷積神經網絡EDoF CNN的新型深度學習方法,該方法能夠快速執行擴充景深,同時還增強了所得融合圖像的空間分辨率。我們使用來自患有惡性瘧原蟲瘧疾的患者的Giemsa染色的厚血塗片的模拟低分辨率z疊層來評估我們的方法。與傳統的多尺度方法相比,EDoF CNN可以加速我們的數字病理采集平台并顯着提高EDoF的品質,适用于較低分辨率的堆棧,對應于采用較少焦平面,大型相機像素分級或較低放大倍率物鏡的采集FOV。我們使用EDoF上深度學習模型的寄生蟲檢測精度作為該方法性能的具體的,任務特定的度量。

Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss

Authors Kaidi Cao, Colin Wei, Adrien Gaidon, Nikos Arechiga, Tengyu Ma

當訓練資料集遭受嚴重的類不平衡時,深度學習算法可能會很差,但測試标準要求對頻率較低的類進行良好的推廣。我們設計了兩種新方法來改善這種情況下的性能。首先,我們提出了一個理論上有原則的标簽分布感覺邊際LDAM損失,其動機是通過最小化基于邊緣的泛化界限。這種損失取代了訓練期間的标準交叉熵目标,并且可以應用于先前的類别不平衡訓練政策,例如重新權重或重新采樣。其次,我們提出了一個簡單但有效的教育訓練計劃,該計劃将重新權重推遲到初始階段之後,允許模型學習初始表示,同時避免與重新權重或重新采樣相關的一些複雜性。我們在幾個基準視覺任務上測試我們的方法,包括真實世界不平衡資料集iNaturalist 2018.我們的實驗表明,這些方法中的任何一個都可以比現有技術有所改進,并且它們的組合可以實作更好的性能提升。

Active Scene Understanding via Online Semantic Reconstruction

Authors Lintao Zheng, Chenyang Zhu, Jiazhao Zhang, Hang Zhao, Hui Huang, Matthias Niessner, Kai Xu

我們提出了一種基于線上RGBD重建和語義分割的機器人操作主動了解未知室内場景的新方法。在我們的方法中,探索性機器人掃描由場景中的語義對象的識别和分割驅動并且以其為目标。我們的算法建立在體積深度融合架構之上,例如KinectFusion,并且在線上重建體積上執行基于實時體素的語義标記。機器人由在2D位置和方位角旋轉的3D空間上參數化的線上估計離散觀察得分場VSF引導。 VSF為每個網格存儲相應視圖的分數,其測量多少減少幾何重建和語義标注的不确定性熵。基于VSF,我們選擇下一個最佳視圖NBV作為每個時間步的目标。然後,我們通過沿路徑和軌迹最大化整體觀察得分資訊增益,共同優化兩個相鄰NBV之間的周遊路徑和錄影機軌迹。通過廣泛的評估,我們證明了我們的方法在探索性掃描過程中實作了高效準确的線上場景解析。

*A Conditional Random Field Model for Context Aware Cloud Detection in Sky Images

Authors Vijai T. Jayadevan, Jeffrey J. Rodriguez, Alexander D. Cronin

提出了一種基于地面天空圖像雲檢測的條件随機場CRF模型。我們表明,通過在CRF架構中組合判别分類器和更高階的集團潛力,可以實作非常高的雲檢測精度。首先使用均值偏移聚類算法将圖像分成均勻區域,然後在這些區域上定義CRF模型。使用訓練資料估計所涉及的各種參數,并且使用疊代條件模式ICM算法來執行推斷。我們示範如何考慮空間背景可以提高準确性。我們提供定性和定量結果,以證明該架構的優越性能與其他應用于雲檢測的最先進方法相比較。

Cardiac Segmentation from LGE MRI Using Deep Neural Network Incorporating Shape and Spatial Priors

Authors Qian Yue, Xinzhe Luo, Qing Ye, Lingchao Xu, Xiahai Zhuang

晚期钆增強MRI的心髒分割是診所中識别和評估心肌梗塞的重要任務。然而,由于圖像中的異質強度分布和模糊邊界,自動分割仍然具有挑戰性。在本文中,我們提出了一種基于深度神經網絡DNN的新方法,用于全自動分割。所提出的網絡,稱為SRSCN,包括形狀重建神經網絡SRNN和空間限制網絡SCN。 SRNN旨在保持所得分割的逼真形狀。它可以通過一組标簽圖像進行預訓練,然後作為正則化術語嵌入到統一的損失函數中。是以,不需要手動設計的功能。此外,SCN結合了2D切片的空間資訊。它通過多任務學習政策與分割網絡一起制定和訓練。我們使用45名患者評估了所提出的方法,并與兩種現有技術的正則化方案(即解剖學限制神經網絡和對抗性神經網絡)進行了比較。結果表明,所提出的SRSCN優于傳統方案,心肌分割的Dice評分為0.758 std 0.227,而觀察者間變異的評分為0.757±0.083。

Learning Personalized Attribute Preference via Multi-task AUC Optimization

Authors Zhiyong Yang, Qianqian Xu, Xiaochun Cao, Qingming Huang

傳統上,大多數現有屬性學習方法是基于從有限數量的注釋器聚合的注釋的一緻性來訓練的。然而,共識可能在設定中失敗,特别是當涉及具有不同興趣和對屬性詞的了解的廣泛的注釋器時。在本文中,我們開發了一種新的多任務方法來了解和預測個性化屬性注釋。關于作為特定任務的每個注釋器的屬性偏好學習,我們首先提出多級任務參數分解以捕獲從大衆的高度流行的觀點到對每個人特殊的高度個性化的選擇的演變。同時,對于個性化學習方法,排名預測比準确分類更重要。這促使我們采用基于ROC曲線AUC的面積損失函數來改進我們的模型。除了基于AUC的損失之外,我們還提出了一種評估損耗和梯度的有效方法。從理論上講,我們為一個非凸子問題提出了一種新的閉合形式解,這導緻了可證明的收斂行為。此外,我們還提供了一個保證合理性能的概括。最後,實證分析一緻地說明了我們提出的方法的有效性。

4D CNN for semantic segmentation of cardiac volumetric sequences

Authors Andriy Myronenko, Dong Yang, Varun Buch, Daguang Xu, Alvin Ihsani, Sean Doyle, Mark Michalski, Neil Tenenholtz, Holger Roth

我們提出了一種4D卷積神經網絡CNN,用于分析回顧性心電門控心髒CT,随時間推移的一系列單通道體積資料。雖然時間序列中隻有一小部分卷被注釋,但我們在可用标簽上定義了稀疏損失函數,以允許網絡在訓練期間利用未标記的圖像并生成完全分段的序列。我們研究了所提出的4D網絡的準确性,以預測時間上一緻的分割,并與傳統的3D分割方法進行比較。我們證明了4D CNN的可行性,并确定了其在心髒4D CCTA上的表現。

*The Cells Out of Sample (COOS) dataset and benchmarks for measuring out-of-sample generalization of image classifiers

Authors Alex X. Lu, Amy X. Lu, Wiebke Schormann, David W. Andrews, Alan M. Moses

了解分類器是否概括為樣本資料集之外是機器學習中的核心問題。顯微鏡圖像提供了一種标準化的方法來測量圖像分類器的泛化能力,因為我們可以在越來越不同但受控制的變化因素下對相同類别的對象進行成像。我們建立了132,209個小鼠細胞圖像的公共資料集,COOS 7 Cells Out Of Sample 7 Class。 COOS 7提供了一種分類設定,其中四個測試資料集具有增加的協變量偏移程度,一些圖像是訓練資料的随機子集,而另一些是來自幾個月後再現的實驗并且由不同儀器成像。我們使用不同的表示來對一系列分類模型進行基準測試,包括轉移的神經網絡特征,具有監督的深度CNN的端到端分類,以及來自自監督的CNN的特征。雖然大多數分類器在類似于訓練資料集的測試資料集上表現良好,但所有分類器都無法将其性能推廣到具有更大協變量偏移的資料集。這些基線強調了圖像資料中協變量變化的挑戰,并建立了用于改善圖像分類器的泛化能力的度量。

An IoT Based Framework For Activity Recognition Using Deep Learning Technique

Authors Ashwin Geet D Sa, B. G. Prasad

活動識别是識别和識别代理的行為或目标的能力。代理可以是執行具有最終目标的操作的任何對象或實體。代理可以是執行動作的一個代理或執行動作或具有一些互動的代理組。人類活動識别因其在娛樂,醫療保健,模拟和監視系統等許多實際應用中的需求而受到歡迎。基于視覺的活動識别正在獲得優勢,因為它不需要任何人為幹預或與人類進行身體接觸。此外,還有一組聯網,其目的是跟蹤和識别代理的活動。跟蹤或識别人類活動所需的傳統應用程式使用了可穿戴裝置。但是,這種應用需要人的身體接觸。為了克服這些挑戰,可以使用基于視覺的活動識别系統,其使用相機來記錄視訊和執行識别任務的處理器。這項工作分兩個階段實施。在第一階段,提出了一種實作活動識别的方法,使用背景減法圖像,然後是3D卷積神經網絡。已經報道了在3D卷積神經網絡之前使用背景減法的影響。在第二階段,工作進一步擴充并在Raspberry Pi上實施,可用于記錄視訊流,然後識别視訊中涉及的活動。是以,提供了使用基于物聯網的小型裝置進行活動識别的概念證明,其可以增強系統并以各種形式擴充其應用,例如,增加便攜性,網絡和裝置的其他能力。

Visual Navigation by Generating Next Expected Observations

Authors Qiaoyun Wu, Dinesh Manocha, Jun Wang, Kai Xu

我們提出了一種在未知環境中進行視覺導航的新方法,其中通過構思下一次最佳動作後期望觀察到的下一個觀察來指導代理。這是通過學習變分貝葉斯模型來實作的,該模型以代理和目标視圖的目前觀察為條件生成下一個預期觀測NEO。我們的方法根據目前觀察和NEO預測下一個最佳行動。我們的生成模型是通過優化包含兩個關鍵設計的變分目标來學習的。首先,潛在分布以目前觀察和目标視圖為條件,支援基于模型的目标驅動導航。其次,潛在空間用高斯混合物模組化,以目前觀察和下一個最佳動作為條件。我們對後驗混合的使用有效地緩解了過度正規化潛在空間的問題,進而促進了新穎場景中的模型推廣。此外,NEO生成模拟了代理環境互動的前向動态,提高了近似推理的品質,進而有利于資料效率。我們對現實世界和綜合基準進行了廣泛的評估,并表明我們的模型在成功率,資料效率和交叉場景概括方面明顯優于基于RL的現有技術。

Equivariant neural networks and equivarification

Authors Erkao Bao, Linqi Song

我們提供了一個将神經網絡修改為等效神經網絡的過程,我們将其稱為em等效。作為一個例子,我們通過對卷積神經網絡進行等效來建構用于圖像分類的等變神經網絡。

Enforcing temporal consistency in Deep Learning segmentation of brain MR images

Authors Malav Bateriwala, Pierrick Bourgeat

縱向分析具有顯示發育軌迹和監測醫學成像中疾病進展的巨大潛力。該過程依賴于一緻且穩健的聯合4D分割。傳統技術取決于圖像随時間的相似性以及使用受試者特定先驗以減少随機變化并改善整體縱向分析的穩健性和靈敏度。然而,這是緩慢且計算密集的,因為每次都需要重建特定于主題的模闆。這項工作的重點是利用深度學習加速這種分析。所提出的方法基于深度CNN并且包含語義分割并且為同一主題提供縱向關系。所提出的方法基于深度CNN并且包含語義分割并且為同一主題提供縱向關系。使用3D更新檔作為修改的Unet的輸入的現有技術提供大約0.91 pm 0.5 Dice的結果并且在CNN中使用多視圖圖譜提供大緻相同的結果。在這項工作中,探索了不同的模型,每個模型提供更好的準确性和快速的結果,同時提高分割品質。這些方法在來自EADC ADNI Harmonized Hippocampus Protocol的135次掃描中進行評估。提出的基于CNN的分割方法示範了如何使用先前切片的2D分割可以提供與3D分割類似的結果,同時保持3D次元的良好連續性和提高的速度。僅使用2D修改的矢狀切片為我們提供了針對特定主題的更好的骰子和縱向分析。對于ADNI資料集,使用簡單的UNet CNN技術得到0.84 pm 0.5,同時在相同輸入上使用修改的CNN技術産生0.89 pm 0.5。使用各種方法計算并分析幾種測試案例的萎縮率和RMS誤差。

Signatures in Shape Analysis: an Efficient Approach to Motion Identification

Authors Elena Celledoni, P l Erik Lystad, Nikolas Tapia

簽名以重新參數化不變的方式提供路徑的某些特征的簡潔描述。我們提出了一種基于簽名對形狀進行分類的方法,并将其與基于SRV變換和動态規劃的目前方法進行比較。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩請移步首頁

【今日CV 計算機視覺論文速覽 第133期】Wed, 19 Jun 2019

pic from pexels.com

繼續閱讀