天天看點

【AI視野·今日CV 計算機視覺論文速覽 第178期】Fri, 17 Jan 2020

AI視野·今日CS.CV 計算機視覺論文速覽

Fri, 17 Jan 2020

Totally 62 papers

👉上期速覽✈更多精彩請移步首頁

【AI視野·今日CV 計算機視覺論文速覽 第178期】Fri, 17 Jan 2020

Interesting:

📚****圖像分割綜述, (from NYU et.al)

【AI視野·今日CV 計算機視覺論文速覽 第178期】Fri, 17 Jan 2020
//作者們:
https://personal.utdallas.edu/~kehtar/ 
http://web.cs.ucla.edu/~dt/
https://www.umbc.edu/rssipl/people/aplaza/
http://www.porikli.com/
segmentation: http://www.csd.uwo.ca/~yuri/index.html
https://sites.google.com/site/shervinminaee/home
           

📚***參數化圖像提升方法, (from Tel Aviv University facebook)

【AI視野·今日CV 計算機視覺論文速覽 第178期】Fri, 17 Jan 2020

📚**MeliusNet二進制神經網絡超過MobileNet, (from 波茨坦大學 阿裡巴巴 )

【AI視野·今日CV 計算機視覺論文速覽 第178期】Fri, 17 Jan 2020
【AI視野·今日CV 計算機視覺論文速覽 第178期】Fri, 17 Jan 2020

📚**Wi2V基于wifi信号生成視訊, (from Amirkabir University of Technology Iran)

【AI視野·今日CV 計算機視覺論文速覽 第178期】Fri, 17 Jan 2020
【AI視野·今日CV 計算機視覺論文速覽 第178期】Fri, 17 Jan 2020
【AI視野·今日CV 計算機視覺論文速覽 第178期】Fri, 17 Jan 2020

📚三維位置估計, (from Technical University of Berlin 柏林)

【AI視野·今日CV 計算機視覺論文速覽 第178期】Fri, 17 Jan 2020

📚自動駕駛中天氣擾動的影響, (from IIT 印度)

【AI視野·今日CV 計算機視覺論文速覽 第178期】Fri, 17 Jan 2020

📚**PDANet基于金字塔的人群計數方法, (from University of Technology Sydney)

【AI視野·今日CV 計算機視覺論文速覽 第178期】Fri, 17 Jan 2020
【AI視野·今日CV 計算機視覺論文速覽 第178期】Fri, 17 Jan 2020
【AI視野·今日CV 計算機視覺論文速覽 第178期】Fri, 17 Jan 2020

📚SketchDesc基于草圖的局域多視角描述子學習, (from 香港城市大學)

【AI視野·今日CV 計算機視覺論文速覽 第178期】Fri, 17 Jan 2020

📚基于殘差注意力的細胞邊緣檢測和分割, (from 哥倫比亞大學)

【AI視野·今日CV 計算機視覺論文速覽 第178期】Fri, 17 Jan 2020

多源資料融合架構

【AI視野·今日CV 計算機視覺論文速覽 第178期】Fri, 17 Jan 2020

逆問題的相關論文:

Learning Inverse Depth Regression

【AI視野·今日CV 計算機視覺論文速覽 第178期】Fri, 17 Jan 2020

Computational Mirrors

【AI視野·今日CV 計算機視覺論文速覽 第178期】Fri, 17 Jan 2020

Inverse Graphics

【AI視野·今日CV 計算機視覺論文速覽 第178期】Fri, 17 Jan 2020

Solving Forward and Inverse Problems Using Autoencoders

Learned SVD: solving inverse problems via hybrid autoencoding

The troublesome kernel: why deep learning for inverse problems is typically unstable

Deep Learning-based Solvability of Underdetermined Inverse Problems

Daily Computer Vision Papers

A Common Operating Picture Framework Leveraging Data Fusion and Deep Learning

Authors Benjamin Ortiz, David Lindenbaum, Joseph Nassar, Brendan Lammers, John Wahl, Robert Mangum, Margaret Smith, Marc Bosch

組織開始意識到資料和資料驅動算法模型的結合功能,以擷取洞察力,态勢感覺并推進其任務。獲得見解的一個常見挑戰是連接配接固有的不同資料集。這些資料集例如地理編碼功能,視訊流,原始文本,社交網絡資料等分别提供了非常狹窄的答案,但是它們可以共同提供新功能。在這項工作中,我們提出了一個資料融合架構,用于加速處理,開發和傳播PED解決方案。我們的平台是一個服務集合,可通過利用深度學習和其他處理方式從多個資料源中分别提取資訊。此資訊由一組分析引擎合并,這些引擎執行資料關聯,搜尋和其他模組化操作,以合并來自不同資料源的資訊。結果,感興趣的事件被檢測,地理定位,記錄并呈現為共同的操作畫面。這種通用的操作畫面使使用者可以實時地可視化所有資料源,每個資料源都是單獨的以及它們的集體協作。此外,法醫活動已經實施并通過該架構提供。使用者可以檢視存檔的結果,并将其與操作環境的最新快照進行比較。在我們的第一次疊代中,我們專注于視覺資料FMV,WAMI,CCTV PTZ錄影機,開源視訊等,以及AIS資料流衛星和地面源。作為概念的證明,在我們的實驗中,我們展示了如何将FMV檢測與來自AIS來源的船隻跟蹤信号相結合,以确認身份,進行提示和提示空中偵察,并監視區域中的船隻活動。

Contextual Sense Making by Fusing Scene Classification, Detections, and Events in Full Motion Video

Authors Marc Bosch, Joseph Nassar, Benjamin Ortiz, Brendan Lammers, David Lindenbaum, John Wahl, Robert Mangum, Margaret Smith

随着成像傳感器的激增,多模式成像的數量遠遠超過了人類分析者充分利用和利用它的能力。全動态視訊FMV面臨的挑戰是包含大量備援時間資料。我們旨在滿足人類分析師使用空中FMV來消費和利用資料的需求。我們已經研究并設計了一種系統,該系統能夠檢測與給定的FMV進給值偏離觀察的基線模式的事件和活動。我們已将問題分為三個任務:上下文感覺,2對象分類和3事件檢測。上下文感覺的目的是限制視訊資料中的視覺搜尋和檢測問題。自定義圖像分類器使用一個或多個标簽對場景進行分類,以辨別操作上下文和環境。此步驟有助于減少下遊任務的語義搜尋空間,以提高其準确性。第二步是對象分類,其中一組對象檢測器定位并标記在場景中發現的人,車輛,船,飛機,建築物等中的任何已知對象。最後,上下文資訊和檢測資訊将發送到事件檢測引擎,以監視某些行為。一系列分析通過跟蹤對象計數和對象互動來監視場景。如果未聲明這些對象互動在目前場景中普遍可見,則系統将報告,地理定位和記錄事件。感興趣的事件包括識别聚會或人群的聚會,在海灘上有船卸下貨物時發出警報,進入建築物的人數增加,人們進出感興趣的車輛的人數等等。已将我們的方法應用于來自不同地理區域的不同分辨率的不同傳感器的資料。

Continual Learning for Domain Adaptation in Chest X-ray Classification

Authors Matthias Lenga, Heinrich Schulz, Axel Saalbach

在過去的幾年中,深度學習已成功應用于廣泛的醫療應用中。尤其是在胸部X射線分類的情況下,已報道的結果與經驗豐富的放射科醫生相當,甚至更高。盡管在受控的實驗環境中取得了成功,但已經注意到,深度學習模型将來自具有潛在不同任務的新域中的資料概括化的能力通常受到限制。為了解決這一挑戰,我們研究了持續學習CL領域的技術,包括聯合訓練JT,彈性重量合并EWC和“學習不忘LWF”。使用ChestX ray14和MIMIC CXR資料集,我們從經驗上證明了這些方法提供了有希望的選擇,以改善目标域上的深度學習模型的性能并有效緩解源域的災難性遺忘。為此,使用JT可獲得最佳的整體性能,而對于LWF,即使不從源域通路資料也可以取得競争性結果。

Assessing Robustness of Deep learning Methods in Dermatological Workflow

Authors Sourav Mishra, Subhajit Chaudhary, Hideaki Imaizumi, Toshihiko Yamasaki

本文旨在評估目前深度學習方法對臨床工作流程的适用性,尤其是關注皮膚病學。盡管嘗試了深度學習方法以在幾種單獨的情況下獲得皮膚科醫生水準的準确性,但尚未針對常見的臨床不适進行嚴格的測試。大多數項目都涉及在良好控制的實驗室條件下擷取的資料。在相應的圖像品質并不總是理想的情況下,這可能無法反映出正常的臨床評估。我們通過在十種疾病的使用者送出圖像上模拟非理想特征來測試深度學習方法的魯棒性。通過模拟條件進行評估,盡管訓練有素,但在許多情況下,我們發現整體準确性下降,并且各個預測都發生了顯着變化。

Show, Recall, and Tell: Image Captioning with Recall Mechanism

Authors Li Wang, Zechen Bai, Yonghua Zhang, Hongtao Lu

在圖像字幕中生成自然而準确的描述一直是一個挑戰。在本文中,我們提出了一種新穎的召回機制,以模仿人類行為字幕的方式。我們的召回機制召回單元包括三個部分:語義指南SG和被召回的單詞槽RWS。召回單元是文字檢索子產品,旨在檢索圖像的召回詞。 SG和RWS的設計旨在最大程度地利用召回的單詞。 SG分支可以生成召回的上下文,這可以指導字幕的生成過程。 RWS分支負責将調用的單詞複制到标題。通過在文本摘要中指出機制的啟發,我們采用了一種軟開關來平衡SG和RWS之間生成的單詞機率。在CIDEr優化步驟中,我們還引入了一個個體化的單詞獎勵WR來增強訓練。我們建議的SG RWS WR方法在MSCOCO Karpathytest分割上實作BLEU 4 CIDEr SPICE得分為36.6 116.9 21.3(具有交叉熵損失)和38.7 129.1 22.4(具有CIDEr優化),這超過了其他方法的結果。

Filter Grafting for Deep Neural Networks

Authors Fanxu Meng, Hao Cheng, Ke Li, Zhixin Xu, Rongrong Ji, Xing Sun, Gaungming Lu

本文提出了一種稱為過濾器嫁接的新學習範例,旨在提高深度神經網絡DNN的表示能力。動機是DNN具有不重要的無效過濾器,例如l1範數接近0。這些過濾器限制了DNN的潛力,因為它們被認為對網絡影響不大。盡管出于效率考慮,過濾器修剪會删除這些無效的過濾器,但從提高精度的角度來看,過濾器嫁接會重新激活它們。通過将外部資訊權重移植到無效過濾器中來處理激活。為了更好地執行嫁接過程,我們開發了一種基于熵的标準來測量過濾器的資訊,并提出了一種自适應權重政策來平衡網絡之間的嫁接資訊。嫁接操作之後,與原始狀态相比,網絡具有很少的無效過濾器,進而為模型提供了更多的表示能力。我們還對分類和識别任務進行了廣泛的實驗,以證明我們方法的優越性。例如,在CIFAR 100資料集上,嫁接的MobileNetV2優于非嫁接的MobileNetV2約7%。

Ensemble based discriminative models for Visual Dialog Challenge 2018

Authors Shubham Agarwal, Raghav Goyal

這份手稿描述了我們為Visual Dialog Challenge 2018設計的方法。在最終送出中,我們使用三個具有差別的編碼器和解碼器的判别模型的集合。我們在測試标準分割上表現最好的模型獲得了NDCG得分55.46和MRR值63.77,在挑戰賽中排名第三。

Weakly Supervised Video Summarization by Hierarchical Reinforcement Learning

Authors Yiyan Chen, Li Tao, Xueting Wang, Toshihiko Yamasaki

傳統的基于強化學習的視訊總結方法存在的問題是,隻有在生成整個總結後才能獲得獎勵。這種獎勵很​​少,并且使強化學習難以融合。另一個問題是标記每個幀很繁瑣且成本高昂,這通常會禁止建構大規模資料集。為了解決這些問題,我們提出了一個弱監督的層次強化學習架構,該架構将整個任務分解為幾個子任務,以提高摘要品質。該架構由管理者網絡和工作者網絡組成。對于每個子任務,管理人員僅通過任務級别的二進制标簽來訓練設定子目标,與正常方法相比,該标簽需要的标簽要少得多。在子目标的指導下,從業人員可以根據全局獎勵和創新的定義子獎勵來通過政策梯度來預測子任務中視訊幀的重要性分數,以克服稀疏問題。在兩個基準資料集上進行的實驗表明,我們的建議取得了最佳性能,甚至優于監督方法。

An Investigation of Feature-based Nonrigid Image Registration using Gaussian Process

Authors Siming Bayer, Ute Spiske, Jie Luo, Tobias Geimer, William M. Wells III, Martin Ostermeier, Rebecca Fahrig, Arya Nabavi, Christoph Bert, Ilker Eyupoglo, Andreas Maier

對于諸如自适應治療計劃或術中圖像更新等廣泛的臨床應用,基于特征的可變形配準FDR方法由于其簡單性和低計算複雜性而被廣泛采用。 FDR算法通過内插稀疏場來估計密集位移場,稀疏場由標明特征之間已建立的對應關系給出。在本文中,我們将變形場視為高斯過程GP,而将所選特征視為有效變形的先驗資訊。使用GP,我們能夠同時估計密集位移場和相應的不确定度圖。此外,我們分别使用合成,幻像和臨床資料評估平方指數核心的不同超參數設定的性能。定量比較表明,基于GP的插值具有與最新的B樣條插值相同的性能。基于GP的插值的最大臨床好處是,它可以可靠地估計所計算的密集位移圖的數學不确定性。

Deep learning achieves perfect anomaly detection on 108,308 retinal images including unlearned diseases

Authors Ayaka Suzuki, Yoshiro Suzuki

光學相幹斷層掃描OCT掃描可用于檢測各種視網膜疾病。但是,在世界許多地方,沒有足夠的眼科醫生可以診斷視網膜OCT圖像。為了廉價且廣泛地提供OCT篩查,自動化診斷系統是必不可少的。盡管已經提出了許多機器學習技術來協助眼科醫生診斷視網膜OCT圖像,但是沒有一種技術可以在不依賴眼科醫生的情況下進行獨立診斷,即沒有一種技術可以不忽視任何異常現象,包括未經學習的疾病。隻要存在使用某種技術忽視疾病的風險,眼科醫生甚至必須仔細檢查該技術分類為正常的圖像。在這裡,我們表明基于深度學習的二進制分類器正常或異常在108,308個二維視網膜OCT圖像上實作了完美分類,即真實正率1.000000和真實負率1.000000,是以ROC曲線下的面積為1.0000000。盡管測試集包括三種類型的疾病,但其中兩種沒有用于訓練。但是,所有測試圖像均已正确分類。此外,我們證明了我們的方案能夠應對患者種族的差異。沒有正常的方法可以達到上述性能。我們的工作有足夠的可能性将視網膜OCT圖像的自動診斷技術從眼科醫生的助手提升到沒有眼科醫生的獨立診斷系統。

The problems with using STNs to align CNN feature maps

Authors Lukas Finnveden, Ylva Jansson, Tony Lindeberg

空間轉換器網絡STN旨在使CNN能夠學習圖像變換的不變性。最初建議使用STN來轉換CNN特征圖以及輸入圖像。這樣可以在預測轉換參數時使用更複雜的功能。但是,由于STN僅執行空間變換,是以通常情況下,它們不具有将變換後的圖像及其原始圖像的特征圖對齊的能力。我們為此提供了一個理論上的論據并調查了實際的含義,表明這種無用性與降低的分類精度相結合。我們主張通過在分類和本地化網絡之間共享參數來利用更深層中更複雜的功能。

The Effect of Data Ordering in Image Classification

Authors Ethem F. Can, Aysu Ezen Can

深度學習模型的成功案例每天都在增加,涉及從圖像分類到自然語言了解的不同任務。随着這些模型的日益普及,科學家們花費越來越多的時間來尋找适合其任務的最佳參數和最佳模型架構。在本文中,我們将重點放在為這些機器提供資料的要素上。我們假設資料排序會影響模型的性能。為此,我們使用ImageNet資料集對圖像分類任務進行了實驗,結果表明,在獲得更高分類精度方面,某些資料排序要優于其他資料排序。實驗結果表明,與模型架構,學習率和批處理大小無關,資料的排序會顯着影響結果。我們使用不同的度量NDCG,準确度1和準确度5顯示這些發現。我們的目标是證明不僅參數和模型架構,而且資料排序在擷取更好的結果方面都有發言權。

Domain Independent Unsupervised Learning to grasp the Novel Objects

Authors Siddhartha Vibhu Pharswan, Mohit Vohra, Ashish Kumar, Laxmidhar Behera

基于視覺的抓握中的主要挑戰之一是在與新穎物體互相作用時選擇可行的抓握區域。最近的方法利用卷積神經網絡CNN的功能來實作準确的掌握,但要付出高計算能力和時間的代價。在本文中,我們提出了一種新穎的基于無監督學習的算法,用于選擇可行的抓握區域。無監督學習可以推斷出資料集中的模式,而無需任何外部标簽。我們在圖像平面上應用k均值聚類以識别抓握區域,然後采用軸配置設定方法。我們定義了“抓握決策指數GDI”的新概念,以選擇圖像平面中的最佳抓握姿勢。我們已經在雜亂或孤立的環境中對Amazon Robotics Challenge 2017和Amazon Picking Challenge 2016的标準對象進行了多次實驗。我們将結果與基于先前學習的方法進行了比較,以驗證我們算法對多種新穎對象的魯棒性和自适應性。不同的域。

Deep Learning Enabled Uncorrelated Space Observation Association

Authors Jacob J Decoto, David RC Dayton

不相關的光學空間觀測協會代表大海撈針問題的經典代表。目的是從所有不相關的觀測值的大得多的人群中找到可能屬于相同駐地空間目标RSO的一小組觀測值。這些觀察可能在時間上以及相對于觀察傳感器位置有很大的不同。通過在大型代表性資料集上進行訓練,本文表明,無需實體或軌道力學編碼知識即可使用深度學習的學習模型可以學習用于識别常見物體觀測的模型。當顯示具有50個比對觀察對的平衡輸入集時,學習的模型能夠正确識别觀察對是否在同一時間的RSO 83.1。然後将所得的學習模型與搜尋算法結合使用,在不平衡的示範集(包含1000個不同的模拟不相關觀察值)上進行展示,并被證明能夠成功識别代表人口總數142個對象中的111個的真實的三個觀察集。在三個觀察三元組中識别大多數對象。這是在僅探索1.66e8可能的唯一三元組組合的搜尋空間的0.06時完成的。

Identifying Table Structure in Documents using Conditional Generative Adversarial Networks

Authors Nataliya Le Vine, Claus Horn, Matthew Zeigenfuse, Mark Rowan

例如,在許多行業以及學術研究中,資訊主要以非結構化文檔的形式傳輸。層次結構相關的資料呈現為表格,而從此類文檔中的表格中提取資訊提出了重大挑戰。許多現有方法采用自下而上的方法,首先将線內建到單元中,然後将單元內建到行或列中,最後從所得的2D布局中推斷出結構。但是這樣的方法忽略了與表結構有關的可用先驗資訊,即表隻是潛在邏輯結構的任意表示。我們提出了一種自上而下的方法,首先使用條件生成對抗網絡将表格圖像映射到表示沒有表格内容的近似行和列邊界的标準化骨架表格形式,然後使用xy切割投影和遺傳算法優化來推導潛在表格結構。該方法很容易适應不同的表配置,并且需要較小的資料集大小進行教育訓練。

TBC-Net: A real-time detector for infrared small target detection using semantic constraint

Authors Mingxin Zhao, Li Cheng, Xu Yang, Peng Feng, Liyuan Liu, Nanjian Wu

紅外小目标檢測是紅外搜尋和跟蹤IRST系統中的一項關鍵技術。盡管近來深度學習已廣泛用于可見光圖像的視覺任務中,但由于難以學習小目标特征,是以很少用于紅外小目标檢測。在本文中,我們提出了一種新型的輕型卷積神經網絡TBC網絡用于紅外小目标檢測。 TBCNet由目标提取子產品TEM和語義限制子產品SCM組成,它們分别用于從紅外圖像中提取小目标并在訓練過程中對提取的目标圖像進行分類。同時,我們提出了關節損失函數和訓練方法。 SCM通過結合進階分類任務對TEM施加語義限制,解決了類不平衡問題導緻的特征學習困難的問題。在訓練期間,從輸入圖像中提取目标,然後由SCM對目标進行分類。在推斷過程中,僅使用TEM來檢測小目标。我們還提出了一種資料綜合方法來生成訓練資料。實驗結果表明,與傳統方法相比,TBC Net可以更好地減少背景複雜造成的虛警,所提出的網絡結構和聯合損失對小目标特征學習有明顯的改善。此外,TBC Net可以在NVIDIA Jetson AGX Xavier開發闆上實作實時檢測,适用于諸如帶有紅外傳感器的無人機的現場研究等應用。

Embedding of FRPN in CNN architecture

Authors Alberto Rossi, Markus Hagenbuchner, Franco Scarselli, Ah Chung Tsoi

本文将用于矢量輸入的完全遞歸感覺器網絡FRPN模型擴充到包括可以接受多元輸入的深度卷積神經網絡CNN。 FRPN由遞歸層組成,遞歸層在給定固定輸入的情況下,疊代計算平衡狀态。通過這種疊代機制實作的展開可以模拟具有任意數量層的深度神經網絡。 FRPN到CNN的擴充形成了一種架構,我們稱之為卷積FRPN C FRPN,其中卷積層是遞歸的。在幾種圖像分類基準上對該方法進行了評估。結果表明,C FRPN始終優于具有相同數量參數的标準CNN。對于小型網絡,性能上的差距特别大,這表明C FRPN是一種非常強大的體系結構,因為與深度CNN相比,它可以用較少的參數獲得等效的性能。

Application of Deep Learning in Generating Desired Design Options: Experiments Using Synthetic Training Dataset

Authors Zohreh Shaghaghian, Wei Yan

大多數設計方法都包含一個前向架構,該架構要求建築物的主要規格以生成輸出或評估其性能。但是,盡管不确定适當的設計參數,但建築師仍要求實作特定目标。深度學習DL算法提供了智能的工作流程,系統可以在其中從順序的訓練實驗中學習。本研究将使用DL算法的方法應用于生成所需的設計選項。在這項研究中,研究對象識别問題以基于包含不同類型的合成2D形狀的訓練資料集初步預測看不見的樣本圖像的标簽,然後将生成的DL算法應用于訓練并為給定标簽生成新形狀。在下一步中,将訓練算法,以基于空間日光自主性sDA度量為所需的光影性能生成窗牆圖案。實驗表明,在預測看不見的樣品形狀和生成新的設計選項方面都具有可喜的結果。

Translating multispectral imagery to nighttime imagery via conditional generative adversarial networks

Authors Xiao Huang, Dong Xu, Zhenlong Li, Cuizhen Wang

夜間衛星圖像已被廣泛應用。但是,我們對觀察到的光強度是如何形成的以及是否可以模拟的了解有限,這極大地阻礙了它的進一步應用。這項研究探索了條件生成對抗網絡cGAN在将多光譜圖像轉換為夜間圖像方面的潛力。采用了流行的cGAN架構pix2pix并對其進行了修改,以使用來自Landsat 8和可見紅外成像輻射計套件VIIRS的網格化訓練圖像對來促進此轉換。這項研究的結果證明了将多光譜圖像轉換為夜間圖像的可能性,并進一步表明,通過附加的社交媒體資料,生成的夜間圖像可能與地面真實圖像非常相似。這項研究填補了了解衛星觀測到的夜間光的空白,并提供了新的範例來解決夜間遙感領域中出現的新問題,包括夜間序列構造,光去飽和和多傳感器校準。

End-to-End Pixel-Based Deep Active Inference for Body Perception and Action

Authors Cansu Sancaktar, Pablo Lanillos

我們提出了一種基于像素的深度主動推理算法PixelAI,該算法啟發了人體感覺并成功地驗證了機器人的人體感覺和動作(作為用例)。我們的算法結合了源于變分推理的神經科學自由能原理和深度卷積解碼器來對算法進行縮放,以直接處理圖像輸入并提供線上自适應推理。該方法使機器人僅使用原始的單眼錄影機圖像即可執行1次手臂的動态人體估計,并自動執行2次操作以達到視覺空間中想象的手臂姿勢。我們對模拟的和真實的Nao機器人的算法性能進行了統計分析。結果表明,相同的算法如何處理兩種感覺到的動作,模組化為推理優化問題。

Does Time-Delay Feedback Matter to Small Target Motion Detection Against Complex Dynamic Environments?

Authors Hongxin Wang, Huatian Wang, Jiannan Zhao, Cheng Hu, Jigen Peng, Shigang Yue

對于通常受限于計算能力的自主微型機器人,在複雜的視覺環境中區分小運動物體是一項重大挑戰。依靠良好發展的視覺系統,盡管目标視野的大小隻有幾個像素,但飛行昆蟲可以毫不費力地檢測到配偶并快速追蹤獵物。這種對小目标運動的靈敏性被稱為“小目标運動檢測器” STMD的一類專門的神經元所支援。現有的基于STMD的模型通常由通過前饋回路互連的四個順序排列的神經層組成,以從原始視覺輸入中提取有關小目标的運動資訊。但是,回報回路是運動感覺的另一個重要調節電路,尚未在STMD通路中進行研究,其在小目标運動檢測中的功能作用尚不清楚。在本文中,我們假設存在回報,并提出了一種基于STMD的視覺系統,該系統具有回報連接配接Feedback STMD,其中系統輸出在時間上有所延遲,然後回報到較低的層以介導神經反應。我們比較了帶有和不帶有延時回報回路的視覺系統的特性,并讨論了其對小目标運動檢測的影響。實驗結果表明,回報STMD更喜歡快速移動的小目标,同時可以顯着抑制那些以較低速度移動的背景特征。

An Analytical Workflow for Clustering Forensic Images

Authors Sara Mousavi, Dylan Lee, Tatianna Griffin, Dawnie Steadman, Audris Mockus

如果精選了大量的圖像,則可以極大地提高許多領域的研究品質。無監督聚類是管理此類資料集的直覺而有效的步驟。在這項工作中,我們提出了一種用于無監督地對大量驗證圖像進行聚類的工作流。除了與領域相關的資料,工作流還利用圖像深度特征表示的經典聚類将它們分組在一起。我們的手動評估顯示所得簇的純度為89。

Adversarial Example Generation using Evolutionary Multi-objective Optimization

Authors Takahiro Suzuki, Shingo Takeshita, Satoshi Ono

本文提出了一種基于進化多目标優化EMO的對抗示例AE設計方法,該方法在黑盒設定下執行。先前的基于梯度的方法通過更改目标圖像的所有像素來生成AE,而先前的基于EC的方法則更改少量像素以生成AE。由于EMO具有基于種群的搜尋特性,是以該方法可生成各種類型的AE,其中包括位于前兩種方法生成的AE之間的AE,這有助于了解目标模型的特征或了解未知的攻擊模式。實驗結果表明了該方法的潛力,例如,它可以生成魯棒的AE,并且借助基于DCT的擾動圖生成,可以生成高分辨率圖像的AE。

Supervised and Unsupervised Learning of Parameterized Color Enhancement

Authors Yoav Chai, Raja Giryes, Lior Wolf

我們将色彩增強問題視為圖像翻譯任務,我們使用監督學習和無監督學習來解決。與傳統圖像到圖像生成器不同,我們的翻譯是使用全局參數化顔色轉換執行的,而不是學習直接映射圖像資訊。在監督的情況下,每個訓練圖像都與所需的目标圖像配對,而卷積神經網絡CNN從專家修飾的圖像中學習變換的參數。在不成對的情況下,我們采用兩種方式的生成對抗網絡GAN來學習這些參數并應用圓度限制。與MIT Adob​​e FiveK基準上的監督配對資料和非監督非配對資料圖像增強方法相比,我們獲得了最先進的結果。此外,通過将其應用于20世紀初的照片和深色視訊幀,我們展示了該方法的泛化能力。

Wi2Vi: Generating Video Frames from WiFi CSI Samples

Authors Mohammad Hadi Kefayati, Vahid Pourahmadi, Hassan Aghaeinia

環境中的物體會影響電磁波。盡管此影響随頻率而變化,但它們之間存在相關性,并且具有足夠容量的模型可以捕獲不同頻率下的測量之間的這種相關性。在本文中,我們提出了Wi2Vi模型,用于将WiFi通道狀态資訊的變化與視訊幀相關聯。提出的Wi2Vi系統可以完全使用CSI測量來生成視訊幀。 Wi2Vi産生的視訊幀在緊急情況下為正常監視系統提供了輔助資訊。我們對Wi2Vi系統的實施證明了建構能夠推導不同頻譜中的測量之間的相關性的系統的可行性。

Predicting population neural activity in the Algonauts challenge using end-to-end trained Siamese networks and group convolutions

Authors Georgin Jacob, Harish Katti

Algonauts面臨的挑戰是關于以來自視覺大腦區域的代表性相異矩陣RDMS的形式預測對象表示。我們使用暹羅網絡和群卷積的概念使用了定制的深度學習模型,以預測與一對圖像相對應的神經距離。訓練資料最好通過最後一層計算出的距離來解釋。

Multi-Layer Content Interaction Through Quaternion Product For Visual Question Answering

Authors Lei Shi, Shijie Geng, Kai Shuang, Chiori Hori, Songxiang Liu, Peng Gao, Sen Su

近年來,多模态融合技術極大地提高了基于神經網絡的視訊描述字幕,視覺問答VQA和視聽場景感覺對話框AVSD的性能。先前的大多數方法僅探索多層特征融合的最後一層,而忽略了中間層的重要性。為了解決中間層的問題,我們提出了一種有效的四元數塊網絡QBN,不僅可以學習最後一層的互動,還可以同時學習所有中間層的互動。在我們提出的QBN中,我們使用整體文本功能來指導視覺功能的更新。同時,漢密爾頓四元數産品可以有效地執行從高層到較低層的視覺和文本形式的資訊流。評估結果表明,即使使用了超過大規模BERT或可視BERT預先訓練的模型,我們的QBN仍改進了VQA 2.0的性能。已經進行了廣泛的消融研究,以證明本研究中每個提出的子產品的影響。

Discoverability in Satellite Imagery: A Good Sentence is Worth a Thousand Pictures

Authors David Noever, Wes Regian, Matt Ciolino, Josh Kalin, Dom Hambrick, Kaye Blankenship

小型衛星星座每天提供對地球陸地的全球覆寫,但是圖像豐富化依賴于自動化關鍵任務(例如變化檢測或特征搜尋)。例如,要從原始像素提取文本注釋,需要兩個相關的機器學習模型,一個用于分析開銷圖像,另一個用于生成描述性字幕。我們根據以前最大的衛星圖像字幕基準評估了七個模型。我們将标記的圖像樣本擴充五倍,然後增加,校正和修剪詞彙表以達到大緻的最小最大最小單詞,最大描述。與以前使用大型預先訓練的圖像模型進行的工作相比,此結果是有利的,但是當使用對數熵損失進行測量時,模型尺寸減小了一百倍,而不會犧牲整體精度。這些較小的模型提供了新的部署機會,尤其是當推到邊緣處理器,人造衛星或分布式地面站時。為了量化字幕的描述性,我們引入了一種新穎的多類混淆或錯誤矩陣來對人類标記的測試資料和從未标記的圖像(包括邊界框檢測但缺少完整的句子标題)進行評分。這項工作提出了未來的字幕政策,尤其是那些可以使班級覆寫面擴充到土地用途應用之外的政策,并且可以減輕顔色居中和鄰接形容詞“綠色”,“附近”,“之間”等的使用。許多現代語言轉換器通過其龐大的線上語料庫中的訓練,提供了具有世界知識的新穎且可利用的模型。一個有趣但簡單的示例可能學習風與浪之間的關聯,進而使海灘場景不僅具有顔色描述,而且可以從原始像素通路而無需文本注釋,進而豐富了顔色描述。

Self-Learning AI Framework for Skin Lesion Image Segmentation and Classification

Authors Anandhanarayanan Kamalakannan, Shiva Shankar Ganesan, Govindaraj Rajamanickam

圖像分割和分類是模式識别的兩個主要基本步驟。要使用深度學習模型執行醫學圖像分割或分類,需要對帶有注釋的大型圖像資料集進行訓練。為這項工作考慮的皮膚鏡檢查影像ISIC檔案沒有病竈分割的地面真相資訊。在此資料集上執行手動标記非常耗時。為了解決這個問題,在兩階段深度學習算法中提出了自學習注釋方案。兩階段深度學習算法由帶有注釋方案的U Net分割模型和CNN分類器模型組成。注釋方案使用K均值聚類算法和合并條件來獲得用于訓練U Net模型的初始标記資訊。分類器模型ResNet 50和LeNet 5在圖像資料集上進行了訓練和測試,無需進行分割以進行比較,而使用U Net進行分割以實作建議的自學習人工智能AI架構。與直接在輸入圖像上訓練的兩個分類器模型相比,所提出的AI架構的分類結果實作了93.8的訓練精度和82.42的測試精度。

Human Action Recognition and Assessment via Deep Neural Network Self-Organization

Authors German I. Parisi

在人類機器人互動HRI領域中,對人類行為的強大識别和評估至關重要。盡管最先進的動作感覺模型在大規模動作資料集中顯示出顯著成果,但它們大多缺乏在自然HRI場景中運作所需的靈活性,魯棒性和可擴充性,而這些場景需要不斷擷取感官資訊以及進行分類或評估實時檢測人體模式。在本章中,我介紹了一組分層模型,用于通過使用神經網絡自組織來學習和識别深度圖和RGB圖像中的動作。這些模型的特殊性是使用不斷壯大的自組織網絡,這些網絡可以快速适應非平穩分布并實作專用機制,以便從時間相關的輸入中持續學習。

Short-Term Temporal Convolutional Networks for Dynamic Hand Gesture Recognition

Authors Yi Zhang, Chong Wang, Ye Zheng, Jieyu Zhao, Yuqi Li, Xijiong Xie

手勢識别的目的是識别人體有意義的運動,而手勢識别是計算機視覺中的重要問題。在本文中,我們提出了一種基于3D密集卷積網絡3D DenseNets和改進的時間卷積網絡TCN的多模式手勢識别方法。我們方法的關鍵思想是找到一種緊湊而有效的空間和時間特征表示,将手勢視訊分析的任務有序且分别地分為空間分析和時間分析兩個部分。在空間分析中,我們采用3D DenseNets有效地學習短期時空時态特征。随後,在時間分析中,我們使用TCN提取時間特征,并使用改進的擠壓和激勵網絡SENet來增強每個TCN層的時間特征的表示能力。該方法已在VIVA和NVIDIA Gesture動态手勢資料集上進行了評估。我們的方法在分類精度為91.54的VIVA基準上獲得了非常有競争力的性能,并在NVIDIA基準上以86.37的精度實作了最先進的性能。

A Two-Stream Meticulous Processing Network for Retinal Vessel Segmentation

Authors Shaoming Zheng, Tianyang Zhang, Jiawei Zhuang, Hao Wang, Jiang Liu

眼底血管分割是眼科的關鍵診斷能力,這項基本任務仍然面臨着各種挑戰。早期方法表明,由于具有不同厚度級别的血管像素的不平衡,通常難以在細血管和邊界區域上獲得理想的分割性能。在本文中,我們提出了一種新穎的兩流精細處理網絡MP Net來解決這個問題。為了更加關注細血管和邊界區域,我們首先提出了一個有效的分層模型,該模型自動将地面真光掩模分層為不同的厚度級别。然後,引入一種新穎的兩流對抗網絡,利用具有平衡損失函數的分層結果和積分運算來獲得更好的性能,特别是在細血管和邊界區域檢測中。實踐證明,我們的模型優于DRIVE,STARE和CHASE DB1資料集上的最新方法。

ScaIL: Classifier Weights Scaling for Class Incremental Learning

Authors Eden Belouadah, Adrian Popescu

如果AI代理需要內建流中的資料,則增量學習很有用。如果代理程式在有限的計算預算上運作并且對過去的資料進行有限的存儲,那麼問題就不小了。在深度學習方法中,恒定的計算預算要求所有增量狀态都使用固定的體系結構。有界記憶體會産生有利于新類的資料不平衡,并且出現對新類的預測偏差。通常,除了基本的網絡訓練外,還通過引入資料平衡步驟來消除這種偏見。我們偏離了這種方法,并建議對過去的分類器權重進行簡單而有效的縮放,以使其與新類别的權重更具可比性。縮放利用增量狀态級别統計資訊,并将其應用于在類的初始狀态中學習的分類器,以便從其所有可用資料中獲利。通過将其與有限記憶體存在下的香草精調進行比較,我們還質疑了增量學習算法中廣泛使用的蒸餾損失分量的實用性。使用四個公共資料集,根據競争基準進行評估。結果表明,分級器的重量定标和蒸餾的去除都是有益的。

SketchDesc: Learning Local Sketch Descriptors for Multi-view Correspondence

Authors Deng Yu, Lei Li, Youyi Zheng, Manfred Lau, Yi Zhe Song, Chew Lan Tai, Hongbo Fu

在本文中,我們研究了多視圖草圖對應的問題,我們将多個具有相同對象的不同視圖的徒手草圖作為輸入,并預測草圖之間的語義對應。這個問題具有挑戰性,因為在不同視圖中相應點的視覺特征可能會非常不同。為此,我們采用了一種深度學習方法,并從資料中學習了一種新穎的局部草圖描述符。我們通過為從3D形狀合成的多視圖線圖生成像素級别對應關系來貢獻訓練資料集。為了處理草圖的稀疏性和歧義性,我們設計了一種新穎的多分支神經網絡,該網絡內建了基于更新檔的表示形式和多尺度政策,以學習多視圖草圖之間的pixelLevel對應關系。我們通過對手繪草圖進行的大量實驗以及從多個3D形狀資料集渲染的多視圖線圖來證明我們提出的方法的有效性。

A Markerless Deep Learning-based 6 Degrees of Freedom PoseEstimation for with Mobile Robots using RGB Data

Authors Linh K stner, Daniel Dimitrov, Jens Lambrecht

增強現實技術具有增強人機互動和了解的能力,是以在行業内需要進行各種內建工作。神經網絡在計算機視覺領域取得了顯著成果,具有巨大的潛力來協助和促進增強現實體驗。但是,大多數神經網絡的計算量很大,是以需要巨大的處理能力,是以不适合在增強現實裝置上進行部署。在這項工作中,我們提出了一種在增強現實裝置上部署用于實時3D對象定位的先進神經網絡的方法。是以,我們提供了一種使用移動機器人系統校準AR裝置的更加自動化的方法。為了加快校準過程并增強使用者體驗,我們專注于快速2D檢測方法,該方法僅使用2D輸入即可快速,準确地提取對象的3D姿态。結果将實作到增強現實應用程式中,以實作直覺的機器人控制和傳感器資料可視化。對于2D圖像的6D注釋,我們開發了注釋工具,據我們所知,這是第一個可用的開源工具。我們獲得了可行的結果,該結果通常适用于任何AR裝置,是以使這項工作有望在将高要求的神經網絡與物聯網裝置相結合的基礎上進行進一步的研究。

Learning Spatiotemporal Features via Video and Text Pair Discrimination

Authors Tianhao Li, Limin Wang

目前的視訊表示形式嚴重依賴于從手動注釋的視訊資料集中學習。但是,擷取大規模的,帶有标簽的視訊資料集既昂貴又耗時。我們注意到,視訊自然伴随着豐富的文本資訊,例如YouTube标題和電影腳本。在本文中,我們利用這種視覺文本連接配接以有效的弱監督方式學習有效的時空特征。我們提出了一個通用的交叉模态對判别CPD架構,以捕獲剪輯及其關聯文本之間的這種相關性,并采用噪聲對比估計技術來解決由大量對執行個體類所施加的計算問題。具體來說,我們從兩個視訊文本對來源調查了CPD架構,并設計了一種實用的課程學習政策來教育訓練CPD。無需進行進一步的微調,學習的模型就可以根據通用的線性分類協定在Kinetics資料集上進行動作分類,進而獲得有競争力的結果。此外,我們的視覺模型提供了非常有效的初始化,可以對下遊任務資料集進行微調。實驗結果表明,與最新的自我監督訓練方法相比,我們的弱監督預訓練在UCF101和HMDB51資料集上的動作識别方面具有顯着的性能提升。此外,我們的CPD模型通過直接利用學習到的可視文本嵌入,為UCF101上的零擊動作識别提供了一種最新的技術。

Probabilistic 3D Multi-Object Tracking for Autonomous Driving

Authors Hsu kuang Chiu, Antonio Prioletti, Jie Li, Jeannette Bohg

3D多對象跟蹤是自動駕駛應用程式中的關鍵子產品,可為計劃子產品提供可靠的世界動态表示。在本文中,我們介紹了線上跟蹤方法,該方法在NeurIPS 2019的AI駕駛奧林匹克研讨會上舉行的NuScenes跟蹤挑戰賽中名列第一。我們的方法通過采用卡爾曼濾波器來估計對象狀态。我們使用訓練集中的統計資料初始化狀态協方差以及過程和觀察噪聲的協方差。我們還通過測量預測對象狀态和目前對象檢測之間的Mahalanobis距離,在資料關聯步驟中使用來自Kalman濾波器的随機資訊。我們在NuScenes驗證和測試集上的實驗結果表明,在平均多對象跟蹤精度AMOTA名額中,我們的方法比AB3DMOT基線方法要大得多。

Rethinking Motion Representation: Residual Frames with 3D ConvNets for Better Action Recognition

Authors Li Tao, Xueting Wang, Toshihiko Yamasaki

最近,3D卷積網絡在動作識别方面表現出良好的性能。然而,仍然需要光流來確定更好的性能,其成本非常高。在本文中,我們提出了一種快速而有效的方法,該方法利用殘留幀作為3D ConvNets中的輸入資料從視訊中提取運動特征。通過用殘差幀替換傳統的堆疊RGB幀,從頭開始訓練時,UCF101和HMDB51資料集的精度最高可提高10.5和20.5。由于殘差幀包含的對象外觀資訊很少,是以我們進一步使用2D卷積網絡來提取外觀特征,并将其與殘差幀的結果組合起來以形成兩條路徑的解決方案。在三個基準資料集中,我們的兩條路徑解決方案取得了比使用其他光流方法更好或更可比的性能,尤其是優于Mini動力學資料集上的最新模型。進一步的分析表明,使用帶有3D ConvNets的殘差幀可以提取更好的運動特征,并且我們的殘差幀輸入路徑是現有RGB幀輸入模型的良好補充。

LE-HGR: A Lightweight and Efficient RGB-based Online Gesture Recognition Network for Embedded AR Devices

Authors Hongwei Xie, Jiafang Wang, Baitao Shao, Jian Gu, Mingyang Li

線上手勢識别HGR技術在增強現實AR應用程式中至關重要,可實作自然的人機互動和通信。近年來,低成本AR裝置的消費市場一直在迅速增長,而該領域的技術成熟度仍然有限​​。這些裝置通常價格低廉,記憶體有限以及資源受限的計算單元,這使得線上HGR成為一個具有挑戰性的問題。為解決此問題,我們提出了一種輕量級且計算效率高的HGR架構,即LE HGR,以實作具有低計算能力的嵌入式裝置上的實時手勢識别。我們還表明,提出的方法具有很高的準确性和魯棒性,能夠在各種複雜的互動環境中達到高端性能。為了實作我們的目标,我們首先提出了一個級聯的多任務卷積神經網絡CNN,以同時預測線上進行手部檢測和手部關鍵點位置回歸的機率。我們表明,通過提出的級聯體系結構設計,可以大大消除誤報估計。另外,引入了關聯的映射方法以經由預測位置跟蹤手迹,這解決了多手性的幹擾。随後,我們提出了跟蹤序列神經網絡TraceSeqNN,以通過利用跟蹤軌迹的運動特征來識别手勢。最後,我們提供了各種實驗結果,表明所提出的架構能夠以顯着降低的計算成本來實作最新的準确性,這是在低成本商用裝置(例如移動裝置和移動裝置)中實作實時應用的關鍵特性AR VR耳機。

PDANet: Pyramid Density-aware Attention Net for Accurate Crowd Counting

Authors Saeed Amirgholipour, Xiangjian He, Wenjing Jia, Dadong Wang, Lei Liu

人群計數,即估計擁擠區域的人數,引起了研究界的極大興趣。盡管已進行了許多嘗試,但由于感興趣區域内人群密度的巨大規模變化以及人群之間的嚴重遮擋,人群計數仍然是一個開放的現實世界問題。在本文中,我們提出了一個新穎的基于金字塔密度感覺注意的網絡,簡稱為PDANet,該網絡利用注意力,金字塔尺度特征和兩個分支解碼器子產品來進行密度感覺人群計數。 PDANet利用這些子產品來提取不同的比例尺特征,關注相關資訊并消除誤導性資訊。我們還使用專用的密度感覺解碼器DAD解決了不同圖像之間擁擠程度的變化。為此,分類器評估輸入要素的密度級别,然後将其傳遞給相應的擁擠的DAD子產品。最後,我們通過将低擁擠密度圖和高擁擠密度圖的總和視為空間注意力來生成總體密度圖。同時,我們使用兩個損失為輸入場景建立精确的密度圖。在具有挑戰性的基準資料集上進行的廣泛評估很好地證明了所提出的PDANet在計數和生成的密度圖的準确性方面優于衆所周知的現有技術的優越性能。

Self-supervised visual feature learning with curriculum

Authors Vishal Keshav, Fabien Delattre

自我監督學習技術已經顯示出學習有意義的特征表示的能力。通過在僅需查找輸入或輸入部分之間的相關性的借口任務上訓練模型就可以實作這一點。但是,需要仔細手動選擇此類前置任務,以避免可能使這些前置任務變得微不足道的低電平信号。此外,删除這些快捷方式通常會導緻一些語義上有價值的資訊丢失。我們表明,它直接影響下遊任務學習的速度。在本文中,我們從課程學習中汲取了靈感,逐漸消除了低水準的信号,并表明它顯着提高了下遊任務的收斂速度。

Delving Deeper into the Decoder for Video Captioning

Authors Haoran Chen, Jianmin Li, Xiaolin Hu

視訊字幕是一項進階的多模式任務,旨在使用自然語言句子描述視訊剪輯。編碼器解碼器架構是近年來用于此任務的最流行的範例。但是,在視訊字幕模型的解碼器中仍然存在一些不可忽略的問題。我們對解碼器進行了深入研究,并采用了三種技術來改善模型的性能。首先,将變差辍學和圖層歸一化的組合嵌入到循環單元中,以緩解過度拟合的問題。其次,提出了一種在驗證集上評估模型性能的新方法,以便選擇最佳的檢查點進行測試。最後,提出了一種稱為文本專業學習的新教育訓練政策,該政策可以開發字幕模型的優點,而可以克服其缺點。在Microsoft Research Video Description Corpus MSVD和MSR Video to Text MSR VTT資料集上的實驗中證明,我們的模型獲得了由BLEU,CIDEr,METEOR和ROUGE L名額評估的最佳結果,在MSVD和與之前的最新模型相比,MSR VTT的排名為5。

Synergetic Reconstruction from 2D Pose and 3D Motion for Wide-Space Multi-Person Video Motion Capture in the Wild

Authors Takuya Ohashi, Yosuke Ikegami, Yoshihiko Nakamura

盡管已經對無标記運動捕捉進行了許多研究,但尚未将其應用于真實的運動或音樂會。在本文中,我們提出了一種無标記運動捕獲方法,即使在寬廣的多人環境中,該方法也可以從多個錄影機獲得時空精度和平滑度。關鍵思想是預測每個人的3D姿勢并确定足夠小的多錄影機圖像的邊界框。這種基于人體骨骼結構的預測和時空過濾可簡化人的3D重建并産生準确性。然後,将準确的3D重建用于預測下一幀中每個錄影機圖像的邊界框。這是從3D運動到2D姿勢的回報,并為視訊運動捕獲的總體性能提供了協同作用。我們使用各種資料集和一個真實的運動場示範了該方法。實驗結果表明,在五個人動态運動的情況下,每個關節位置的平均誤差為31.6mm,正确部位的百分比為99.3,滿足運動範圍。視訊示範,資料集和其他資料已釋出在我們的項目頁面上。

VSEC-LDA: Boosting Topic Modeling with Embedded Vocabulary Selection

Authors Yuzhen Ding, Baoxin Li

主題模組化已在許多問題中得到了廣泛應用,在這些問題中,資料的潛在結構對于典型的推理任務至關重要。當應用主題模型時,相對标準的預處理步驟是首先建構常用單詞的詞彙表。這樣的一般預處理步驟通常與主題模組化階段無關,是以不能保證預先生成的詞彙表可以支援适用于給定任務的某些最佳甚至有意義的主題模型的推斷,尤其是涉及以下内容的計算機視覺應用程式:視覺詞。在本文中,我們提出了一種新的主​​題模組化方法,稱為詞彙選擇嵌入式對應LDA VSEC LDA,它可以在學習潛在模型的同時選擇最相關的單詞。單詞的選擇由基于熵的度量來驅動,該度量測量單詞對基礎模型的相對貢獻,并在學習模型時動态進行。我們介紹了VSEC LDA的三種變體,并通過對來自不同應用程式的合成資料庫和真實資料庫進行實驗,評估了提出的方法。結果證明了内置詞彙選擇的有效性及其在改善主題模組化性能方面的重要性。

Image Segmentation Using Deep Learning: A Survey

Authors Shervin Minaee, Yuri Boykov, Fatih Porikli, Antonio Plaza, Nasser Kehtarnavaz, Demetri Terzopoulos

圖像分割是圖像處理和計算機視覺中的關鍵主題,其應用包括場景了解,醫學圖像分析,機器人感覺,視訊監視,增強現實和圖像壓縮等。在文獻中已經開發了用于圖像分割的各種算法。最近,由于深度學習模型在各種視覺應用中的成功,已經有大量旨在利用深度學習模型開發圖像分割方法的工作。在本次調查中,我們在撰寫本文時提供了對文獻的全面回顧,涵蓋了語義和執行個體級别分割的各種開創性作品,包括全卷積像素标記網絡,編碼器-解碼器體系結構,基于多尺度和金字塔的方法,對抗網絡中的循環網絡,視覺注意模型和生成模型。我們研究了這些深度學習模型的相似性,優勢和挑戰,研究了使用最廣泛的資料集,報告了性能,并讨論了該領域有希望的未來研究方向。

A "Network Pruning Network" Approach to Deep Model Compression

Authors Vinay Kumar Verma, Pravendra Singh, Vinay P. Namboodiri, Piyush Rai

我們提出了使用多任務網絡進行深度模型壓縮的過濾修剪方法。我們的方法基于學習修剪器網絡以修剪經過預先訓練的目标網絡。修剪器本質上是一個具有二進制輸出的多任務深度神經網絡,可幫助識别原始網絡各層中對模型沒有重大貢獻的過濾器,是以可以對其進行修剪。修剪器網絡具有與原始網絡相同的體系結構,不同之處在于它具有多任務多輸出最後一層,其中每個過濾器包含二進制值輸出,該層訓示必須修剪哪些過濾器。修剪器的目标是通過将零權重配置設定給相應的輸出特征圖來最大程度地減少原始網絡中的濾波器數量。與大多數現有方法相比,我們的方法無需依賴疊代修剪,而可以一次性修剪網絡原始網絡,而且不需要指定每一層的修剪程度,而是可以學習它。我們的方法産生的壓縮模型是通用的,不需要任何特殊的硬體軟體支援。此外,使用其他方法(例如知識蒸餾,量化和連接配接修剪)進行擴充可以增加所提出方法的壓縮程度。我們展示了我們提出的方法用于分類和對象檢測任務的功效。

CDGAN: Cyclic Discriminative Generative Adversarial Networks for Image-to-Image Transformation

Authors Kancharagunta Kishan Babu, Shiv Ram Dubey

圖像到圖像的轉換是一種問題,其中一個視覺表示的輸入圖像被轉換為​​另一視覺表示的輸出圖像。自2014年以來,Generative Adversarial Networks GAN通過在其架構中引入生成器和鑒别器網絡,為解決該問題提供了新的方向。 Pix2Pix,CycleGAN,DualGAN,PS2MAN和CSGAN等許多最近的工作通過所需的生成器和鑒别器網絡以及目标函數中使用的不同損耗的選擇來解決了這個問題。盡管進行了這些工作,但在生成的圖像的品質方面仍然存在差距,這些品質看起來應該更加逼真并且盡可能接近地面真實圖像。在這項工作中,我們引入了一個新的圖像到圖像轉換網絡,稱為循環判别式生成對抗網絡CDGAN,它填補了上述空白。拟議的CDGAN通過添加除CycleGAN原始體系結構之外的其他循環圖像鑒别器網絡來生成高品質和更逼真的圖像。為了證明所提出的CDGAN的性能,在三個不同的基準圖像到圖像轉換資料集上進行了測試。諸如像素逐點相似度,結構水準相似度和感覺水準相似度之類的量化名額可用來判斷性能。此外,還對定性結果進行了分析,并與現有方法進行了比較。在三個基準圖像到圖像轉換資料集上進行比較時,所提出的CDGAN方法明顯優于所有現有技術。

MeliusNet: Can Binary Neural Networks Achieve MobileNet-level Accuracy?

Authors Joseph Bethge, Christian Bartz, Haojin Yang, Ying Chen, Christoph Meinel

二進制神經網絡BNN是使用二進制權重和激活而不是典型的32位浮點值的神經網絡。它們減小了模型尺寸,并允許在功率和計算資源有限的情況下在移動或嵌入式裝置上進行有效推斷。但是,權重和激活的二值化導緻特征圖的品質和容量較低,是以與傳統網絡相比,準确性下降。先前的工作增加了通道的數量,或使用多個二進制庫來緩解這些問題。相反,在本文中,我們提出了由交替的兩個子產品設計組成的MeliusNet,該設計連續增加了特征的數量,然後提高了這些特征的品質。另外,我們建議對先前方法中使用32位值的那些層進行重新設計,以減少所需的操作數。在ImageNet資料集上進行的實驗證明,在節省計算和準确性方面,我們的MeliusNet優于各種流行的二進制體系結構。此外,通過我們的方法,我們訓練了BNN模型,該模型首次可以在模型大小和準确性上與流行的緊湊型網絡MobileNet的準确性相比對。我們的代碼線上釋出

MixPath: A Unified Approach for One-shot Neural Architecture Search

Authors Xiangxiang Chu, Xudong Li, Yi Lu, Bo Zhang, Jixiang Li

搜尋空間的表達是神經體系結構搜尋NAS的關鍵問題。先前的塊級方法主要集中于搜尋網絡,這些網絡将一個操作與另一個操作連結在一起。将多路徑搜尋空間與一槍理論相結合仍然是有待解決的。在本文中,我們研究了多路徑設定(稱為MixPath)下的超級網絡行為。對于采樣訓練,簡單地打開和關閉多個路徑會導緻嚴重的特征不一緻,進而惡化收斂性。為了糾正這種影響,我們采用稱為“影子陰影批處理規範化” SBN來遵循各種路徑模式。在CIFAR 10上進行的實驗表明,無論允許路徑的數量如何,我們的方法都是有效的。在ImageNet上進行了進一步的實驗,以與最新的NAS方法進行合理的比較。我們的代碼将可用

A Little Fog for a Large Turn

Authors Harshitha Machiraju, Vineeth N Balasubramanian

精心制作的小擾動稱為對抗擾動,很容易使神經網絡蒙昧。但是,這些幹擾在很大程度上是累加的,并非自然而然地發現。我們将注意力轉向自動導航領域,其中不利的天氣條件(例如霧)會對這些系統的預測産生重大影響。這些天氣條件能夠像自然對手一樣發揮作用,有助于測試模型。為此,我們引入了對抗性攝動的一般概念,可以使用生成模型來建立對抗性攝動,并提供一種方法,該方法受周期一緻的生成對抗性網絡啟發,為給定圖像生成對抗性天氣條件。我們的公式和結果表明,這些圖像為自主導航模型中使用的轉向模型提供了合适的測試平台。我們的工作還基于感覺相似性提出了更自然,更籠統的對抗性擾動定義。

Run-time Deep Model Multiplexing

Authors Amir Erfan Eshratifar, Massoud Pedram

我們提出了一個架構來設計輕型神經多路複用器,該架構在給定輸入和資源預算的情況下,決定要進行推理的适當模型。移動裝置可以使用此架構将硬輸入解除安裝到雲中,同時在本地推斷簡單的輸入。此外,在基于雲的大規模智能應用程式中,不必複制最精确的模型,而是可以根據輸入的複雜性和資源預算來複用一系列大小模型。我們的實驗結果表明,該架構對移動使用者和雲提供商均有益。

Diabetic Retinopathy detection by retinal image recognizing

Authors Gilberto Luis De Conto Junior

全球許多人都患有糖尿病。該疾病可能具有1型和2型。糖尿病會帶來多種并發症,包括糖尿病性視網膜病,如果不正确治療,該疾病會導緻患者視力不可逆轉的損害。檢測到越早,患者不會失去視力的機會就越好。目前有手動程式自動化的方法,而視網膜病變的診斷過程是由醫生在螢幕上分析患者視網膜的手動過程。圖像識别的實踐可以通過識别糖尿病性視網膜病變模式并将其與患者視網膜進行診斷相比較,來幫助進行這種檢測。此方法還可以幫助進行遠端醫療,在這種情況下,無法通路檢查的人可以從應用程式提供的診斷中受益。應用程式開發是通過卷積神經網絡進行的,該系統對每個圖像像素進行數字圖像處理。使用VGG 16作為應用程式的預訓練模型非常有用,最終模型的準确性為82。

Spinal Metastases Segmentation in MR Imaging using Deep Convolutional Neural Networks

Authors Georg Hille, Johannes Steffen, Max D nnwald, Mathias Becker, Sylvia Saalfeld, Klaus T nnies

這項研究的目的是使用基于深度學習的方法在診斷性MR圖像中分割脊柱轉移。此類病變的分割可成為朝着增強治療計劃和驗證以及在微創和影像引導手術(如射頻消融)期間提供幹預支援的關鍵步驟。為此,我們使用了類似于U Net的體系結構,對40例臨床案例進行了教育訓練,包括溶解性和硬化性病變類型以及各種MR序列。我們針對各種影響分割品質的因素(例如,使用的MR序列和輸入維。我們使用Dice系數,敏感性和特異性率定量評估了我們的實驗。與專業注釋的病變分割相比,實驗産生了令人鼓舞的結果,平均Dice得分高達77.6,平均敏感度高達78.9。據我們所知,我們提出的研究是解決這一特定問題的第一個研究,該研究限制了與相關作品的直接可比性。對于類似的基于深度學習的病變分割,例如在肝髒MR圖像或脊柱CT圖像中,我們的實驗顯示出相似的或在某些方面更高的分割品質。總體而言,我們的自動方法可以在這項具有挑戰性和雄心勃勃的任務中提供幾乎專家級的細分精度。

Probabilistic 3D Multilabel Real-time Mapping for Multi-object Manipulation

Authors Kentaro Wada, Kei Okada, Masayuki Inaba

機率3D映射已應用于具有多個相機視點的對象分割,但是,正常方法缺乏實時效率和多标簽對象映射的功能。在本文中,我們提出了一種實時生成具有多标簽占用的三維地圖的方法。擴充了以前僅映射目标标簽占用率的工作,我們通過一次環顧四周的操作即可實作多标簽對象細分。我們通過測試39個不同對象的分割精度并将其應用于實驗中多個對象的處理任務來評估我們的方法。我們的基于映射的方法比傳統的基于投影的方法優越40 96相對12.6均值IU 3d,并且機器人在嚴重遮擋的環境中成功識别了86.9并操縱了多個對象60.7。

A Technology-aided Multi-modal Training Approach to Assist Abdominal Palpation Training and its Assessment in Medical Education

Authors A. Asadipour, K. Debattista, V. Patel, A. Chalmers

計算機輔助多模式訓練是學習各種應用中複雜運動技能的有效方法。在特定的學科,例如。醫療保健在執行檢查時手法靈巧,臨床觸診可能會導緻錯誤的症狀診斷,嚴重的傷害甚至死亡。此外,高品質的臨床檢查可以消除不必要的醫學影像,進而有助于排除重大病理,并減少診斷時間和成本。在全球範圍内,正常使用觸診作為一種有效的初步診斷方法,但目前需要多年的教育訓練才能獲得勝任力。本文着重于多模式觸診訓練系統,以教授和改善與腹部相關的臨床檢查技能。我們的目标是通過增加彩排的頻率來顯着縮短觸診訓練的時間,并就如何執行各種腹部觸診技術提供必要的增強回報,該技術已從醫學專家那裡擷取并模組化。邀請23名一年級醫學生分為對照組n 8,半視覺訓練的n 8和完全視覺訓練的n 7,以執行三個觸診任務,分别是淺層,深層和肝髒。使用基于計算機的方法和基于人的方法對醫學生的表現進行了評估,其中所産生的得分之間呈正相關,r.62,p尾标為.05。視力訓練的小組明顯優于對照組,在每次觸診檢查中,他們均向學生提供了施加力及其手掌位置的抽象可視化p .05。此外,當呈現視覺回報時,在各組之間觀察到正趨勢,J 132,z 2.62,r 0.55。

Adaptive Direction-Guided Structure Tensor Total Variation

Authors Ezgi Demircan Tureyen, Mustafa E. Kamasak

方向引導的結構張量總變化量DSTV是最近提出的正則化術語,其目的是提高結構張量總變化量STV對朝向預定方向的變化的敏感性。盡管在單向圖像上獲得了合理的結果,但DSTV模型不适用于現實世界的多方向圖像。在這項研究中,我們建立了一個兩階段架構,為DSTV帶來了适應性。我們設計了STV的替代方案,該方案在空間變化的方向描述符(即方向和各向異性劑量)的指導下對本地鄰域内的一階資訊進行編碼。為了估計這些描述符,我們提出了一種有效的預處理器,該預處理器基于結構張量捕獲局部幾何形狀。通過廣泛的實驗,通過将所提出的方法與基于最新分析的降噪模型進行比較,我們在還原品質和計算效率方面證明了方向資訊在STV中的參與是多麼有益。

Combining Progressive Rethinking and Collaborative Learning: A Deep Framework for In-Loop Filtering

Authors Dezhao Wang, Sifeng Xia, Wenhan Yang, Jiaying Liu

本文旨在基于現代編解碼器的環路濾波器解決深度學習中的兩個關鍵問題1如何在編碼場景中更有效地模組化空間和時間備援2可以從編解碼器推斷出哪些輔助資訊輔助資訊有利于環路濾波器模型以及如何注入此輔助資訊。對于第一個問題,我們設計了具有漸進式重新思考和協作學習機制的深度網絡,以分别提高重構的幀内和幀間的品質。對于幀内編碼,設計了漸進式重新思考塊PRB及其堆疊的漸進式重新思考網絡PRN,以模拟用于有效空間模組化的人工決策機制。典型的級聯深度網絡在每個塊的末尾使用瓶頸子產品來減小特征的尺寸大小,以生成對過去經驗的總結。我們設計的積木逐漸進行反思,即引入附加的積木内部連接配接,以繞過積木中的高維資訊功能,以回顧過去完整的記憶經驗。對于幀間編碼,該模型可以協作學習時間模組化。目前重建的幀與參考幀的峰值品質幀以及最近的相鄰幀在特征級别上逐漸互相作用。對于第二個問題,邊資訊使用率,我們提取了幀内和幀間邊資訊,以進行更好的上下文模組化。基于HEVC分區樹的粗略精細分區圖被建構為幀内邊資訊。此外,提供參考幀的扭曲特征作為幀間邊資訊。得益于我們的精巧設計,在全幀内AI,低延遲B LDB,低延遲P LDP和随機通路RA配置下,我們的PRN分别平均降低了9.0,9.0,10.6和8.0 BD速率。

Predicting Target Feature Configuration of Non-stationary Objects for Grasping with Image-Based Visual Servoing

Authors Jesse Haviland, Feras Dayoub, Peter Corke

在本文中,我們考慮了閉環抓取的最後進近階段的問題,其中RGB D錄影機不再能夠提供有效的深度資訊。這對于在目前的機器人抓握控制器出現故障的情況下抓握非靜止物體至關重要。我們預測最終抓握姿勢下觀察到的圖像特征的圖像平面坐标,并使用基于圖像的視覺伺服将機器人引導到該姿勢。基于圖像的視覺伺服是一種完善的控制技術,可以在3D空間中移動相機,以将圖像平面特征配置驅動到某些目标狀态。在先前的工作中,假設目标特征配置是已知的,但是對于某些應用,如果例如相對于場景第一次執行運動,則這可能不可行。我們提出的方法針對抓握最後階段的場景運動以及機器人運動控制中的錯誤提供了魯棒性。我們在動态閉環把握的背景下提供實驗結果。

Substituting Gadolinium in Brain MRI Using DeepContrast

Authors Haoran Sun, Xueqing Liu, Xinyang Feng, Chen Liu, Nanyan Zhu, Sabrina J. Gjerswold Selleck, Hong Jian Wei, Pavan S. Upadhyayula, Angeliki Mela, Cheng Chia Wu, Peter D. Canoll, Andrew F. Laine, J. Thomas Vaughan, Scott A. Small, Jia Guo

腦血容量CBV與氧代謝的血流動力學相關,反映了大腦的活動和功能。可以使用穩态g增強MRI技術生成高分辨率CBV圖。這種技術需要靜脈注射基于外源g的造影劑GBCA,最近的研究表明,GBCA在頻繁使用後會積聚在大腦中。我們假設,最正常和最常用的結構MRI中可能存在内源性對比源,進而可能消除了對外源性對比的需求。在這裡,我們通過開發和優化小鼠中的深度學習算法(稱為DeepContrast)來檢驗該假設。我們發現DeepContrast在繪制正常大腦組織的CBV和增強膠質母細胞瘤方面表現與外源性GBCA一樣好。總之,這些研究證明了我們的假設,即深度學習方法可以替代腦部MRI中對GBCA的需求。

Supervised Segmentation of Retinal Vessel Structures Using ANN

Authors Esra Kaya, smail Sar ta , Ilker Ali Ozkan

在這項研究中,使用人工神經網絡ANN在RGB圖像的綠色通道上執行了有監督的視網膜血管分割過程。優選綠色通道,因為可以最清楚地将視網膜血管結構與RGB圖像的綠色通道區分開。該研究是使用DRIVE資料集中的20張圖像進行的,DRIVE資料集是已知的最常見的視網膜資料集之一。圖像經過一些預處理階段,例如對比度受限的自适應直方圖均衡化CLAHE,顔色強度調整,形态學運算以及中值和高斯濾波,以獲得良好的分割效果。視網膜血管結構通過高頂禮帽和自動禮帽形态學操作突出顯示,并通過全局門檻值轉換為二進制圖像。然後,通過在資料集中指定為訓練圖像的圖像的二進制版本來訓練網絡,而目标是由專家手動分割的圖像。發現20幅圖像的平均分割精度為0.9492。

Segmentation with Residual Attention U-Net and an Edge-Enhancement Approach Preserves Cell Shape Features

Authors Nanyan Zhu, Chen Liu, Zakary S. Singer, Tal Danino, Andrew F. Laine, Jia Guo

在活的單細胞中外推基因表達動态的能力需要魯棒的細胞分裂,而挑戰之一是無定形或不規則形狀的細胞邊界。為了解決此問題,我們修改了U Net架構,以在熒光寬視場顯微鏡圖像中分割細胞并定量評估其性能。我們還提出了一種新穎的損失函數方法,該方法強調了細胞邊界上的分割精度并鼓勵了形狀特征的保留。我們的方法具有97的靈敏度,93的特異性,91的Jaccard相似度和95的Dice系數,我們提出的具有邊緣增強功能的殘餘注意力U Net在分割性能方面已超過了傳統的U Net(通過傳統名額評估)。更值得注意的是,在保留寶貴的形狀特征(即面積,偏心率,主軸長度,堅固性和方向性)方面,同一候選人也表現最好。形狀特征保留的這些改進可以用作有用的資産,用于下遊單元跟蹤和量化單元統計量或特征随時間的變化。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩請移步首頁

【AI視野·今日CV 計算機視覺論文速覽 第178期】Fri, 17 Jan 2020
【AI視野·今日CV 計算機視覺論文速覽 第178期】Fri, 17 Jan 2020

pic from pexels.com

繼續閱讀