【AI視野·今日CV 計算機視覺論文速覽第172期】Tue, 10 Dec 2019

AI視野·今日CS.CV 計算機視覺論文速覽

Tue, 10 Dec 2019

Totally 77 papers

👉上期速覽✈更多精彩請移步首頁

Interesting:

📚***WeatherNet用于惡劣天氣點雲去噪的網絡模型, (from 奔馳 KIT 德國)

基于[31]的LiLaBlock子產品，通過擴張卷積來放大：

【AI視野·今日CV 計算機視覺論文速覽第172期】Tue, 10 Dec 2019

模型的網絡結構：

【AI視野·今日CV 計算機視覺論文速覽第172期】Tue, 10 Dec 2019

去噪結果，大幅降低了雨霧的幹擾：

【AI視野·今日CV 計算機視覺論文速覽第172期】Tue, 10 Dec 2019

code：https://github.com/rheinzler/PointCloudDeNoising

datset31:Boosting LIDAR-based ¨ semantic labeling by cross-modal training data generation,CEREMA,dataset

📚***SampleNet可差分的點雲采樣方法,提出了一種可差分的方法來簡化點雲，根據下遊任務來對點雲抽取方法進行訓練，利用軟投影操作來從原始點雲中抽取，通過溫度參數和正則項來控制近似 (from Tel-Aviv University)

基于可差分網絡的采樣方法samplenet：

【AI視野·今日CV 計算機視覺論文速覽第172期】Tue, 10 Dec 2019

采樣網絡的近似過程和軟投影操作：

【AI視野·今日CV 計算機視覺論文速覽第172期】Tue, 10 Dec 2019

code:https://github.com/itailang/SampleNet

📚****SABL能意識到邊緣的目标檢測方法, 提出了一種通過定位bbox的四邊與邊緣距離的方法來進行目标檢測。(from 香港中文南洋理工浙大中科大商湯)

【AI視野·今日CV 計算機視覺論文速覽第172期】Tue, 10 Dec 2019

基于邊緣的邊界預測定位方法：

【AI視野·今日CV 計算機視覺論文速覽第172期】Tue, 10 Dec 2019

粗定位和和特征比對優化：

【AI視野·今日CV 計算機視覺論文速覽第172期】Tue, 10 Dec 2019

code:https://github.com/open-mmlab/mmdetection

📚***Face Beautification人臉美化方法, 将目标參考人臉的妝容遷移到輸入人臉上進行化妝美顔(from Oben, Inc 西弗吉尼亞大學)

網絡遷移架構和精調網絡：

【AI視野·今日CV 計算機視覺論文速覽第172期】Tue, 10 Dec 2019

📚ICDAR2019總結及資料集, (from ICDAR)

【AI視野·今日CV 計算機視覺論文速覽第172期】Tue, 10 Dec 2019

dataset:https://doi.org/10.5281/zenodo.3262372

1https://bvmm.irht.cnrs.fr/includes/php/rotation.php?vueId=1672647&niveauZoom=grand
2http://monasterium.net/mom/AT-HHStA/LindauCan/AUR 839 IV 21/charter
3https://nbn-resolving.org/urn:nbn:de:bvb:29-bv043513635-8
4http://doi.org/10.7891/e-manuscripta-18277
5https://bvmm.irht.cnrs.fr/
6https://gallica.bnf.fr
7http://digital.bib-bvb.de/R/5AL3NBRJYJV14LG6YC7RDNG4VHURY7SGHC4KASKKMDAH1LATRS-00090?func=collections-result&collection id=2397
8https://www.unibas.ch
9https://www.monasterium.net/mom/home
10https://www.bodleian.ox.ac.uk/
11https://bvmm.irht.cnrs.fr/
12Paris, Beaune, Angers, Metz, Auxerre, Versailles, Arras, Fecamp, Douai,etc.
13http://cudl.lib.cam.ac.uk/
14https://www.e-codices.unifr.ch
15https://gallica.bnf.fr
16Besanc¸on, Bourges, Angers, Rouen, Louviers
17https://library.harvard.edu/
18http://library.stanford.edu/
19https://www.monasterium.net/mom/home
20https://github.com/anguelos/wi19 evaluate/tree/master/srslbp
21https://github.com/masyagin1998/robin

📚Bundle Adjustment Revisited, 對于BA方法的回顧的改進，包括提高效率的分布式計算方法。(from 北大圖形互動實驗室)

📚SolarNet,檢測衛星圖像中的太陽能電池闆 (from 微衆銀行)

太陽能發電廠檢測以及全國太陽能電場分布：

【AI視野·今日CV 計算機視覺論文速覽第172期】Tue, 10 Dec 2019

datset：our dataset deepsolar dataset our+deepsolar dataset

📚從視訊中估計運動和深度的自監督方法, (from ETH Zurich)

【AI視野·今日CV 計算機視覺論文速覽第172期】Tue, 10 Dec 2019

📚基于張量訓練解耦的3DCNN的模型壓縮方法, (from 西安交大 )

【AI視野·今日CV 計算機視覺論文速覽第172期】Tue, 10 Dec 2019

📚**Deep Reflection Prior, 基于反射的統計先驗來進行圖像中的反射去除。(from 斯坦福)

【AI視野·今日CV 計算機視覺論文速覽第172期】Tue, 10 Dec 2019

📚從二維圖像抽取三維紋理,利用生成模型從二維圖像種抽取出紋理編碼，并在三維形狀中解碼、合成與插值。 (from 倫敦大學學院 adobe)

【AI視野·今日CV 計算機視覺論文速覽第172期】Tue, 10 Dec 2019

Project website: geometry.cs.ucl.ac.uk/projects/2019/neuraltexture

📚FaultNet, 檢測鐵路上的各種閥門(from A*STAR, Singapore)

【AI視野·今日CV 計算機視覺論文速覽第172期】Tue, 10 Dec 2019

dataset：Singapore Mass Rapid Transit (SMRT) dataset

📚檢測X光安檢機中的危險品, (from Center for Cyber-Physical Systems (C2PS))

【AI視野·今日CV 計算機視覺論文速覽第172期】Tue, 10 Dec 2019

dataset：GDXray dataset

📚相機參數對網絡泛化性影響, (from 斯坦福)

📚用于點雲表示的膠囊網絡,(from apple)

【AI視野·今日CV 計算機視覺論文速覽第172期】Tue, 10 Dec 2019

Daily Computer Vision Papers

Side-Aware Boundary Localization for More Precise Object Detection

Authors Jiaqi Wang, Wenwei Zhang, Yuhang Cao, Kai Chen, Jiangmiao Pang, Tao Gong, Jianping Shi, Chen Change Loy, Dahua Lin

目前的對象檢測架構主要依靠邊界框回歸來定位對象。盡管近年來取得了長足的進步，但包圍盒回歸的精度仍然不能令人滿意，是以限制了對象檢測的性能。我們觀察到精确定位需要仔細放置邊界框的每一側。但是，專注于預測中心和大小的主流方法并不是完成此任務的最有效方法，尤其是當錨點和錨杆之間存在較大差異的位移時。

An Empirical Study on Position of the Batch Normalization Layer in Convolutional Neural Networks

Authors Moein Hasani, Hassan Khotanlou

在本文中，我們研究了如何通過更改批歸一化BN層的位置來影響卷積神經網絡CNN的訓練。我們的實驗選擇了三種不同的卷積神經網絡。這些網絡是AlexNet，VGG 16和ResNet20。我們證明，通過将BN層使用其他位置而不是原始論文建議的位置，可以提高BN算法提供的訓練速度。此外，我們讨論了處于特定位置的BN層如何幫助訓練一個網絡而不是另一個網絡。在這項研究中已經研究了BN層的三個不同位置。這些位置是在卷積層和非線性激活函數之間的BN層，在非線性激活函數之後的BN層，最後是在每個卷積層之前的BN層。

Deep CMST Framework for the Autonomous Recognition of Heavily Occluded and Cluttered Baggage Items from Multivendor Security Radiographs

Authors Taimur Hassan, Salman H. Khan, Samet Akcay, Mohammed Bennamoun, Naoufel Werghi

自過去的二十年以來，行李掃描已成為全球首要的航空安全問題之一。手動檢查行李物品是一個繁瑣，主觀且效率低下的過程，許多研究人員為此目的開發了基于X射線圖像的自主系統。但是，據我們所知，到目前為止，還沒有一種架構能夠識别X射線掃描中嚴重堵塞和混亂的行李物品，而與采集裝置或掃描方式無關。本文提出了一個基于深層級聯多尺度結構張量的架構，該架構可以自動提取和識别正常項目以及可疑項目，無論它們來自多廠商X射線掃描的位置和方向如何。所提出的架構是獨一無二的，因為它通過疊代地選擇來自不同方向的基于輪廓的過渡資訊來智能地提取每個對象，并且僅使用單個前饋卷積神經網絡進行識别。所提出的架構已經在兩個公開可用的資料集上進行了嚴格的測試，該資料集包含1,067,381個x射線掃描的累積資料，通過達到0.9689的平均工會交集，其曲線下的面積最大為，大大優于現有的現有解決方案。 0.9950，精度高達0.9955，平均平均精度得分高達0.9453，可檢測正常和可疑行李物品。此外，與流行的物體檢測器相比，所提出的架構已經實作了15.78更好的時間性能。

Self-supervised Object Motion and Depth Estimation from Video

Authors Qi Dai, Vaishakh Patil, Simon Hecker, Dengxin Dai, Luc Van Gool, Konrad Schindler

我們提出了一個自我監督的學習架構，以估計視訊中單個物體的運動和單眼深度。我們将物體運動模組化為6自由度剛體變換。執行個體分割掩碼用于引入對象資訊。與預測像素級光流圖以模拟運動的方法相比，我們的方法顯着減少了要估計的值的數量。此外，我們的系統通過采用預先計算的相機自我運動和左右光度一緻性，消除了預測的比例模糊性。在KITTI駕駛資料集上進行的實驗表明，我們的系統無需外部注釋即可捕獲物體運動，并有助于動态區域中的深度預測。我們的系統在3D場景流預測方面優于早期的自我監督方法，并在光流估計方面産生可比的結果。

DCIL: Deep Contextual Internal Learning for Image Restoration and Image Retargeting

Authors Indra Deep Mastan, Shanmuganathan Raman

最近，人們對開發獨立于訓練樣本的方法産生了極大的興趣，例如深層圖像先驗，零鏡頭學習和内部學習。盡管固有的技術多樣性，以上方法基于最大化從單個圖像學習圖像特征的共同目标。在這項工作中，我們彌合了上述各種無監督方法之間的差距，并提出了圖像恢複和圖像重新定向的通用架構。我們使用上下文特征學習和内部學習來改進源圖像和目标圖像之間的結構相似性。我們在以下設定中執行圖像調整大小的應用程式：使用超分辨率的經典圖像調整大小，低分辨率圖像包含噪點的具有挑戰性的圖像調整大小，以及使用圖像重新定向的内容感覺圖像調整大小。我們還提供了與相關技術水準的比較。

FaultNet: Faulty Rail-Valves Detection using Deep Learning and Computer Vision

Authors Ramanpreet Singh Pahwa, Jin Chao, Jestine Paul, Yiqun Li, Ma Tin Lay Nwe, Shudong Xie, Ashish James, Arulmurugan Ambikapathi, Zeng Zeng, Vijay Ramaseshan Chandrasekhar

定期檢查鐵路閥門和發動機是確定全球鐵路網絡安全和高效的重要任務。在過去的十年中，基于計算機視覺和模式識别的技術已被廣泛應用于此類檢查和缺陷檢測任務。自動化的端到端教育訓練系統可以潛在地提供低成本，高吞吐量和廉價替代這些元件的手動外觀檢查的方法。但是，這樣的系統需要大量的缺陷圖像以供網絡了解複雜缺陷。在本文中，提出了一種基于多階段深度學習的技術來對軌道閥進行準确的故障檢測。我們的方法使用兩步法對軌道閥進行高精度圖像分割，進而實作了像素級的精确分割。此後，使用計算機視覺技術來識别故障閥門。我們證明，與用于故障檢測的最新技術現狀相比，所提出的方法可提高檢測性能。

Shared Visual Abstractions

Authors Tom White

本文介紹了由神經網絡建立的抽象藝術，該抽象藝術在各種計算機視覺系統中得到廣泛認可。觸發特定标簽的抽象形式獨立于神經體系結構或訓練集而存在，表明卷積神經網絡為它們了解的類别建立共享的視覺表示。遇到這些圖紙的計算機視覺分類器在極端情況下對特定标簽的響應通常要強于來自驗證集中的所有示例。通過調查人類對象，我們确認這些抽象作品也可以被人們廣泛識别，這表明由這些圖形觸發的視覺表示在人類和計算機視覺系統之間是共享的。

Learning a Neural 3D Texture Space from 2D Exemplars

Authors Philipp Henzler, Niloy J. Mitra, Tobias Ritschel

我們提出了具有多樣性，視覺逼真度和高計算效率的2D和3D自然紋理生成模型。這可以通過一系列方法實作，這些方法将思想從經典的随機過程紋理化Perlin噪聲擴充到學習的，深度的，非線性的。關鍵思想是一個寫死，可調諧和可微分的步驟，該步驟将多個轉換後的随機2D或3D字段饋送到可以在無限域中采樣的MLP。我們的模型對來自不同紋理集的所有樣本進行編碼，而無需為每個樣本進行重新訓練。應用包括紋理插值和從2D示例中學習3D紋理。

Estimation of Muscle Fascicle Orientation in Ultrasonic Images

Authors Regina Pohle Fr hlich, Christoph Dalitz, Charlotte Richter, Benjamin St udle, Kirsten Albracht

我們比較了四種不同的算法，這些算法可根據超聲圖像自動估計肌肉束角度，包括血管分布濾波器，Radon變換，投影輪廓法和灰階共生矩陣GLCM。将算法結果與三位不同專家在不同運動類型下錄制的兩個視訊的425個圖像幀上生成的地面真實資料進行比較。與地面真相資料的最佳一緻性是通過結合使用容器過濾器進行預處理并使用投影輪廓法測量角度來實作的。通過将算法應用于具有高梯度的子區域并通過這些估計執行LOESS拟合，可以提高估計的魯棒性。

DeepFuse: An IMU-Aware Network for Real-Time 3D Human Pose Estimation from Multi-View Image

Authors Fuyang Huang, Ailing Zeng, Minhao Liu, Qiuxia Lai, Qiang Xu

在本文中，我們提出了一個兩階段的全3D網絡，即textbf DeepFuse，通過融合人體穿戴的慣性測量單元IMU資料和多視圖圖像來估計3D空間中的人體姿勢。第一階段設計用于純視覺估計。為了保留多視圖輸入的資料原始性，視覺階段使用多通道體積作為資料表示，并使用3D soft argmax作為激活層。第二個階段是IMU改進階段，該階段引入了IMU骨層，以便在資料級别更早地融合IMU和視覺資料。無需先驗地給出給定的骨架模型，在協定1下，我們在TotalCapture資料集上的平均關節誤差為28.9 mm，在Human3.6M資料集上的平均關節誤差為13.4 mm，進而大大提高了SOTA結果。最後，我們通過實驗讨論了完全3D網絡對3D姿态估計的有效性，這可能會有益于未來的研究。

Synthetic Humans for Action Recognition from Unseen Viewpoints

Authors G l Varol, Ivan Laptev, Cordelia Schmid, Andrew Zisserman

我們在這項工作中的目标是通過使用綜合訓練資料來提高訓練過程中看不見的觀點的人類動作識别性能。盡管已顯示合成資料對諸如人體姿勢估計之類的任務是有益的，但相對來說，尚未開發将其用于RGB人體動作識别。我們利用單眼3D人體重構的最新進展，從真實動作序列中自動生成動作标簽的合成訓練視訊。

ShadingNet: Image Intrinsics by Fine-Grained Shading Decomposition

Authors Anil S. Baslamisli, Partha Das, Hoang An Le, Sezer Karaoglu, Theo Gevers

通常，固有圖像分解算法将陰影解釋為一個統一的元件，包括所有光度效應。由于陰影過渡通常比反照率變化更平滑，是以這些方法可能無法将強投射陰影與反照率變化區分開。反過來，這可能會洩漏到反照率地圖預測中。是以，在本文中，我們建議将陰影分量分解為直接照明和間接陰影環境光和陰影。目的是從反射率變化中區分出強烈的陰影。提出了兩個端到端監督的CNN模型ShadingNets，它們利用了細粒度的着色模型。此外，表面的法線特征是由提出的CNN網絡共同學習的。表面法線有望協助分解任務。室外自然環境的場景級别合成圖像的大規模資料集提供了固有圖像地面真相。大規模實驗表明，我們使用細粒度陰影分解的CNN方法優于使用統一陰影的最新技術。

Deep Neural Network for Fast and Accurate Single Image Super-Resolution via Channel-Attention-based Fusion of Orientation-aware Features

Authors Du Chen, Zewei He, Yanpeng Cao, Jiangxin Yang, Yanlong Cao, Michael Ying Yang, Siliang Tang, Yueting Zhuang

近年來，卷積神經網絡CNN已成功地用于解決不适定單圖像超分辨率SISR問題。提高基于CNN的SISR模型性能的常用政策是部署非常深的網絡，這不可避免地會帶來許多明顯的缺點，例如，大量的網絡參數，繁重的計算量以及難以進行的模型訓練。在本文中，我們旨在通過開發性能更好的特征提取和融合技術來建構更準确，更快的SISR模型。首先，我們提出了一種新穎的定向感覺特征提取和融合子產品OAM，其中包含1D和2D卷積核的混合物，即5 x 1，1 x 5和3 x 3，用于提取定向感覺特征。其次，我們采用信道注意機制作為一種有效的技術，以自适應地融合從不同方向提取的特征以及在分層堆疊的卷積階段中提取的特征。基于這兩個重要的改進，我們通過基于信道注意的定向感覺功能SISR CA OA的融合，提出了一個基于緊湊但功能強大的CNN的高品質SISR模型。大量的實驗結果驗證了所提出的SISR CA OA模型的優越性，在恢複精度和計算效率方面均優于最先進的SISR模型。源代碼将公開提供。

Environment reconstruction on depth images using Generative Adversarial Networks

Authors Lucas P. N. Matias, Jefferson R. Souza, Denis F. Wolf

強大的感覺系統對于自動駕駛汽車的安全至關重要。為了在複雜的城市環境中導航，需要具有可靠資料的精密傳感器。對于智能車輛而言，了解周圍環境的任務本身很困難，由于車輛的高速行駛，這一任務尤為重要。為了在城市環境中成功導航，感覺系統必須快速接收，處理和執行動作，以確定乘客和行人的安全。立體聲相機收集許多級别的環境資訊，例如深度，顔色，紋理，形狀，這些資訊可以確定您對周圍環境有足夠的了解。即便如此，當與人類相比時，計算方法仍缺乏處理缺失資訊即遮擋的能力。對于許多感覺任務，由于環境資訊不完整，資料的缺乏可能會成為障礙。在本文中，我們解決了這個問題并讨論了處理遮擋區域推斷的最新方法。然後，我們介紹一個專注于視差和環境深度資料重建的損失函數，以及一個能夠處理被遮擋的資訊推斷的創生對抗網絡GAN架構。我們的結果提出了深度圖上的連貫重建，估計了被不同障礙物遮擋的區域。我們的最終貢獻是針對視差資料的損失函數，以及能夠通過修補視差圖像來提取深度特征并估算深度資料的GAN。

Efficient Object Detection in Large Images using Deep Reinforcement Learning

Authors Burak Uzkent, Christopher Yeh, Stefano Ermon

傳統上，将對象檢測器應用于感興趣場景的每個部分，并且其精度和計算成本随着高分辨率圖像的增加而增加。然而，在諸如遙感的某些應用領域中，購買高空間分辨率圖像是昂貴的。為了減少與使用高空間分辨率圖像相關的大量計算和金錢成本，我們提出了一種增強學習代理，該學習代理自适應地選擇提供給檢測器的每個圖像的空間分辨率。特别是，我們在雙重獎勵設定中訓練代理，以選擇當圖像被大物體支配時要通過粗略檢測器運作的低空間分辨率圖像，而當圖像是由大物體支配時選擇要通過精細檢測器運作的高空間分辨率圖像由小物體主導。這減少了對建構堅固的檢測器的高空間分辨率圖像的依賴性，并提高了運作時間效率。我們對包含大型圖像的xView資料集進行了實驗，将運作時間效率提高了50倍，僅使用了30次高分辨率圖像，同時保持了與僅使用高分辨率圖像的檢測器相似的準确性。

Bi-Semantic Reconstructing Generative Network for Zero-shot Learning

Authors Xu Shibing, Gao Zishu

零射擊學習ZSL的許多最新方法試圖利用生成模型從語義描述和随機噪聲中生成看不見的視覺樣本。是以，ZSL問題成為傳統的監督分類問題。然而，大多數基于生成模型的現有方法僅關注訓練階段合成樣本的品質，而忽略了零鏡頭識别階段的重要性。在本文中，我們考慮了以上兩點，并提出了一種新穎的方法。特别是，我們選擇“生成對抗網絡” GAN作為我們的生成模型。為了提高合成樣本的品質，考慮語義空間中語義描述的内部關系以及可見和不可見的視覺資訊屬于不同領域這一事實，我們提出了一個雙向語義重構BSR元件，其中包含兩個不同的語義重建回歸器來上司GAN的訓練。由于語義描述在訓練階段可用，為了進一步提高分類器的能力，我們結合視覺樣本和語義描述來訓練分類器。在識别階段，我們自然地利用BSR元件來傳遞視覺特征和語義描述，并将它們連接配接起來進行分類。實驗結果表明，在一些ZSL基準資料集上，我們的方法優于最新技術，并且有明顯的改進。

CNN-based Lidar Point Cloud De-Noising in Adverse Weather

Authors Robin Heinzler, Florian Piewak, Philipp Schindler, Wilhelm Stork

雷射雷達傳感器常用于自動駕駛汽車和移動機器人的環境感覺，以補充攝像頭，雷達和超聲傳感器。不利的天氣條件會引起不希望的測量點，進而影響缺失的檢測和誤報，進而嚴重影響基于雷射雷達的場景了解性能。在大雨或濃霧中，水滴可能被誤解為車輛前方的物體，進而使移動機器人停下來。在本文中，我們提出了第一個基于CNN的方法來了解和過濾點雲資料中的這種不利天氣影響。使用在受控天氣環境中獲得的大資料集，我們證明了我們的方法相對于涉及幾何過濾的最新技術的顯着性能改進。資料位于

Learning a Layout Transfer Network for Context Aware Object Detection

Authors Tao Wang, Xuming He, Yuanzheng Cai, Guobao Xiao

我們提出一種基于上下文的對象檢測方法，該方法基于檢索和變換場景布局模型。給定一個輸入圖像，我們的方法首先從典型布局模闆的代碼本中檢索出粗糙的場景布局。為了處理較大的布局變化，我們使用空間轉換器網絡的變體來變換和完善檢索到的布局，進而生成一組可解釋且語義上有意義的對象位置和比例尺特征圖。上面的步驟被實作為布局傳輸網絡，我們将其內建到Faster RCNN中，以實作對象檢測和場景布局估計的聯合推理。在三個公共資料集上進行的大量實驗證明，我們的方法可對交通監控和自動駕駛領域中各種挑戰性任務的最新對象檢測基準提供一緻的性能改進。

Bundle Adjustment Revisited

Authors Yu Chen, Yisong Chen, Guoping Wang

從中型到中型再到大規模，這20年一直在發展3D重建。衆所周知，束調整在3D重建中起着重要作用，主要在Motion SfM的結構以及同時定位和映射SLAM中發揮作用。雖然捆綁調整是優化相機參數和3D點的最終步驟，但最終步驟卻是不可忽略的，但它在大型重建中會遇到記憶體和效率方面的要求。在本文中，我們詳細研究了正常方法和分布式方法中束調節的發展。本文還給出了詳細的推導和僞代碼。

Shape-Aware Organ Segmentation by Predicting Signed Distance Maps

Authors Yuan Xue, Hui Tang, Zhi Qiao, Guanzhong Gong, Yong Yin, Zhen Qian, Chao Huang, Wei Fan, Xiaolei Huang

在這項工作中，我們建議解決目前基于深度學習的器官分割系統中存在的問題，即它們經常産生的結果無法捕獲目标器官的整體形狀，并且常常缺乏平滑度。由于從對象邊界輪廓計算出的符号距離圖SDM與二進制分割圖之間存在嚴格的映射，是以我們利用了直接從醫學掃描中學習SDM的可行性。通過将分割任務轉換為預測SDM，我們證明了我們提出的方法保留了出色的分割性能，并具有更好的平滑度和形狀連續性。為了在傳統的分割訓練中利用補充資訊，我們引入了近似的Heaviside函數通過同時預測SDM和分割圖來訓練模型。我們通過對海馬分割資料集和公開的具有多個器官的MICCAI 2015頭頸自動分割挑戰資料集進行廣泛的實驗，驗證了我們提出的模型。盡管我們精心設計的骨幹3D分割網絡與目前技術水準相比将Dice系數提高了5倍以上，但所建議的SDM學習模型可産生更平滑的分割結果，且Hausdorff距離和平均表面距離更小，進而證明了我們方法的有效性。

Learning Structure-Appearance Joint Embedding for Indoor Scene Image Synthesis

Authors Yuan Xue, Zihan Zhou, Xiaolei Huang

先進的圖像合成方法可以為人臉，鳥類，卧室等生成逼真的照片。但是，這些方法沒有明确地模組化和保留基本的結構限制，例如結，平行線和平面。在本文中，我們研究了用于設計應用的結構化室内圖像生成問題。我們利用一個小規模的資料集，其中包含各種室内場景的圖像及其對應的地面真相線框注釋。雖然在資料集上訓練的現有圖像合成模型不足以保持結構完整性，但我們提出了一種基于從圖像和線框中學習到的結構外觀關節嵌入的新型模型。在我們的模型中，通過學習共享編碼器網絡中的聯合嵌入來明确實施結構限制，該編碼器必須支援圖像和線框的生成。我們證明了聯合嵌入學習方案在室内場景線框上進行圖像翻譯任務的有效性。雖然線框作為輸入包含的語義資訊少于其他傳統圖像翻譯任務的輸入，但是我們的模型可以生成高保真度的室内場景渲染，這些渲染與輸入線框非常比對。線上框場景資料集上的實驗表明，我們提出的轉換模型在生成圖像的視覺品質和結構完整性方面均明顯優于現有的現有方法。

Selective Synthetic Augmentation with Quality Assurance

Authors Yuan Xue, Jiarong Ye, Rodney Long, Sameer Antani, Zhiyun Xue, Xiaolei Huang

在自動化醫學圖像分析系統的監督訓練中，通常需要大量難以收集的專家注釋。此外，對于罕見疾病，跨不同類别的可用資料比例可能高度不平衡。為了緩解這些問題，我們研究了一種新穎的資料增強管道，該管道有選擇地添加了由條件對抗網絡cGAN生成的新合成圖像，而不是直接使用合成圖像擴充訓練集。我們引入到合成增強管道的選擇機制是出于以下觀察的動機：盡管cGAN生成的圖像可以在視覺上吸引人，但不能保證它們包含用于改進分類性能的基本功能。通過基于合成圖像的配置設定标簽的置信度以及它們與真實标記圖像的特征相似度來選擇合成圖像，我們的架構通過確定将所選合成圖像添加到訓練集中将改善性能，進而為合成增強提供品質保證。我們在醫學組織病理學資料集和兩個自然圖像分類基準CIFAR10和SVHN上評估我們的模型。這些資料集上的結果表明，通過利用cGAN生成的圖像進行選擇性增強，可以分别以6.8、3.9、1.6的更高準确度顯着提高分類性能。

Amora: Black-box Adversarial Morphing Attack

Authors Run Wang, Felix Juefei Xu, Xiaofei Xie, Lei Ma, Yihao Huang, Yang Liu

如今，随着生成的對抗網絡GAN在圖像合成中取得空前的成功，數字面部内容操縱已變得無處不在和現實。不幸的是，由于面部圖像操縱，面部識别FR系統遭受嚴重的安全問題。在本文中，我們研究并介紹了一種通過操縱面部内容來逃避FR系統的新型對抗攻擊，即對抗變形攻擊（又名Amora）。與通過添加人類不可察覺的噪聲來擾動像素強度值的對抗性噪聲攻擊相反，我們提出的對抗性變态攻擊是一種以連貫的方式在空間上擾動像素的語義攻擊。為了解決黑匣子攻擊問題，我們設計了一種簡單而有效的學習管道來為每次攻擊擷取專有的光流場。我們已經定量和定性地證明了在兩個流行的FR系統中，在具有微笑的面部表情操縱的情況下，不同形态強度下的對抗性形态進攻的有效性。實驗結果表明，基于局部變形的新型黑匣子對抗攻擊是可能的，這與基于加性噪聲的攻擊有很大的不同。這項工作的發現可能為更深入地了解和調查基于圖像的對抗性攻擊和防禦方式鋪平了新的研究方向。

Patch Aggregator for Scene Text Script Identification

Authors Changxu Cheng, Qiuhui Huang, Xiang Bai, Bin Feng, Wenyu Liu

在多語言的健壯閱讀系統中，野外腳本識别非常重要。源自同一語言家族的腳本共享大量字元，這使得腳本辨別成為細粒度的分類問題。現有的大多數方法都努力通過制作權重平均或其他聚類方法來學習結合局部特征的單個表示，這可能會降低每個腳本中一些重要部分對備援特征的幹擾的辨識力。在本文中，我們提出了一個名為Patch Aggregator PA的新穎子產品，該子產品通過考慮局部更新檔的預測得分來學習更具區分性的腳本識别表示。具體來說，我們設計了一個基于CNN的方法，該方法由标準CNN分類器和PA子產品組成。實驗表明，所提出的PA子產品相對于基準CNN模型帶來了顯着的性能提升，在三個基準資料集上實作了腳本識别SIW 13，CVSI 2015和RRC MLT 2017的最新結果。

Universal Material Translator: Towards Spoof Fingerprint Generalization

Authors Rohit Gajawada, Additya Popli, Tarang Chugh, Anoop Namboodiri, Anil K. Jain

欺騙檢測器是經過訓練的分類器，用于區分欺騙指紋和真實指紋。但是，最新的欺騙檢測器不能很好地推廣到看不見的欺騙材料上。這項研究提出了一種基于樣式轉移的增強包裝器，該包裝器可以在任何現有的欺騙檢測器上使用，并且可以動态地提高我們對資料非常低的欺騙材料的欺騙檢測系統的魯棒性。我們的方法是一種從一些欺騙示例中合成新的欺騙圖像的方法，該示例将欺騙示例的樣式或材質屬性轉換為真實指紋的内容，以生成大量示例以訓練分類器。我們在公開可用的LivDet 2015資料集中證明了我們的方法對材料的有效性，并表明了所提出的方法對目标材料的指紋欺騙具有魯棒性。

Dually Supervised Feature Pyramid for Object Detection and Segmentation

Authors Fan Yang, Cheng Lv, Yandong Guo, Longin Jan Latecki, Haibin Ling

特征金字塔體系結構已廣泛應用于對象檢測和分割中，以解決多尺度問題。但是，在本文中，我們表明由于監管資訊的利用不足，是以尚未充分探索該體系結構的功能。這種不充分的利用是由于反向傳播中的監視信号劣化引起的。是以，我們提出了一種雙重監督方法，稱為雙重監督FPN DSFPN，以增強訓練特征金字塔網絡FPN時的監督信号。特别是，DSFPN是通過将額外的預測（即檢測頭或分段頭）附加到FPN的自底向上子網來構造的。是以，在轉發到後續網絡之前，可以通過其他頭對功能進行優化。此外，輔助頭可以用作正則項以促進模型訓練。另外，為了增強DSFPN中的檢測頭處理兩個不均勻任務即分類和回歸的能力，通過解耦分類和回歸子網來分隔最初共享的隐藏特征空間。為了證明所提出方法的通用性，有效性和效率，将DSFPN內建到四個具有代表性的檢測器中：Faster RCNN，Mask RCNN，Cascade RCNN和Cascade Mask RCNN并在MS COCO資料集上進行了評估。通過廣泛的實驗證明了有希望的精度提高，先進的性能以及可忽略的額外計算成本。将提供代碼。

Adversarial Pyramid Network for Video Domain Generalization

Authors Zhiyu Yao, Yunbo Wang, Xingqiang Du, Mingsheng Long, Jianmin Wang

本文介紹了視訊域泛化視訊DG的一個新研究問題，其中由于缺乏對發散分布的目标域的暴露，大多數最先進的動作識别網絡都在退化。雖然視訊了解的最新進展集中于捕獲長期視訊上下文的時間關系，但我們觀察到全局時間特征在視訊DG設定中的通用性較低。原因是來自其他看不見的域的視訊可能會出現時間關系的意外缺失，未對齊或比例轉換，這被稱為時域移位。是以，視訊DG比圖像DG更具挑戰性，由于空間和時間域偏移的纏結，圖像DG也正在探索中。

ICDAR 2019 Competition on Image Retrieval for Historical Handwritten Documents

Authors Vincent Christlein, Anguelos Nicolaou, Mathias Seuret, Dominique Stutzmann, Andreas Maier

這項比賽調查了根據寫作風格對曆史文獻圖像進行大規模檢索的性能。基于文化遺産機構和數字圖書館提供的大圖像資料集，總共提供了約20000張文檔圖像，代表約10000名作家，分為i手稿，ii信，iii憲章和法律檔案三種類型的作家。我們專注于自動圖像檢索的任務，以模拟人文研究的常見場景，例如作者檢索。大多數團隊送出了不使用深度學習技術的傳統方法。競争結果表明，方法的組合優于單個方法。此外，字母比手稿難找得多。

SolarNet: A Deep Learning Framework to Map Solar Power Plants In China From Satellite Imagery

Authors Xin Hou, Biao Wang, Lei Yin, Haishan Wu

太陽能等可再生能源對于應對日益嚴重的氣候變化至關重要。中國是全球領先的太陽能電池闆安裝商，并且建造了許多太陽能發電廠。在本文中，我們提出了一個名為SolarNet的深度學習架構，該架構旨在對大規模衛星圖像資料執行語義分割以檢測太陽能場。 SolarNet已成功在中國測繪了439個太陽能發電場，覆寫了近2000平方公裡，相當于整個深圳市或紐約市的兩個半。據我們所知，這是我們第一次使用深度學習來揭示中國太陽能發電場的位置和規模，這可以為太陽能發電公司，市場分析師和政府提供見識。

VM-Net: Mesh Modeling to Assist Segmentation in Volumetric Data

Authors Udaranga Wickramasinghe, Graham Knott, Pascal Fua

現在，基于CNN的用于标記單個體素的體積方法在生物醫學分割領域占據主導地位。在本文中，我們證明了同時執行分割和恢複對表面進行模組化的3D網格可以提高性能。

Domain-adaptive Crowd Counting via Inter-domain Features Segregation and Gaussian-prior Reconstruction

Authors Junyu Gao, Tao Han, Qi Wang, Yuan Yuan

最近，使用監督學習進行人群計數取得了顯着進步。盡管如此，大多數計數器仍依賴大量手動标記的資料。随着合成人群資料的釋出，一種潛在的替代方案是無需任何人工标簽即可将知識從它們轉移到真實資料。但是，沒有方法可以有效地抑制轉移過程中的疇隙和輸出精細的密度圖。為了解決上述問題，本文提出了一種域自适應人群計數DACC架構，該架構由域間特征分離IFS和高斯先驗重建GPR組成。具體來說，IFS将合成資料轉換為逼真的圖像，其中包含域共享特征提取和獨立于域的特征修飾。然後，對粗略計數器進行翻譯後資料的訓練，并将其應用于現實世界。此外，根據粗略的預測，GPR生成僞标記以提高實際資料的預測品質。接下來，我們使用這些僞标簽重新訓練最終計數器。對六個現實世界資料集的适應性實驗表明，所提出的方法優于最新方法。此外，代碼和預先訓練的模型将盡快釋出。

Detection of False Positive and False Negative Samples in Semantic Segmentation

Authors Matthias Rottmann, Kira Maag, Robin Chan, Fabian H ger, Peter Schlicht, Hanno Gottschalk

近年來，深度學習方法在圖像識别方面已經勝過其他方法。這激發了人們對深度學習技術潛在應用的想象力，其中包括安全相關的應用，例如醫學圖像的解釋或自動駕駛。從人類決策者的協助到越來越多的自動化系統的轉變，增加了正确處理深度學習子產品的故障模式的需求。在此貢獻中，我們回顧了一組基于不确定性量化的機器學習算法自我監控技術。特别地，我們将其應用于語義分割任務，其中機器學習算法根據語義類别分解圖像。我們在執行個體級别讨論了錯誤肯定和錯誤否定錯誤模式，并回顧了作者最近提出的用于檢測此類錯誤的技術。我們還對未來的研究方向進行了展望。

Feature-aware Adaptation and Structured Density Alignment for Crowd Counting in Video Surveillance

Authors Junyu Gao, Qi Wang, Yuan Yuan

随着深度神經網絡的發展，人群計數和逐像素密度估計的性能不斷得到更新。盡管如此，該領域仍然存在兩個具有挑戰性的問題1目前的監督學習需要大量的訓練資料，但是很難對其進行收集和注釋2現有的方法不能很好地推廣到看不見的領域。最近釋出的綜合人群資料集緩解了這兩個問題。但是，現實世界的資料與合成圖像之間的領域差距降低了模型的性能。為了縮小差距，本文提出了一種領域适應風格的人群計數方法，該方法可以有效地将模型從合成資料适應特定的現實世界場景。它由多級特征感覺适應MFA和結構化密度圖對齊SDA組成。具體來說，MFA增強了模型以從多層提取域不變特征。 SDA保證網絡在實際域上輸出合理分布的精細密度圖。最後，我們在四個主要的監視人群資料集上評估了所提出的方法，這些資料集包括：上海技術B部分，WorldExpo 10，Mall和UCSD。大量實驗證明，對于相同的跨域計數問題，我們的方法優于最新方法。

SampleNet: Differentiable Point Cloud Sampling

Authors Itai Lang, Asaf Manor, Shai Avidan

直接在點雲上運作的任務越來越多。随着點雲大小的增加，這些任務的計算需求也随之增加。一種可能的解決方案是先對點雲進行采樣。經典采樣方法（例如，最遠點采樣FPS）不考慮下遊任務。最近的一項工作表明，學習任務特定的采樣可以顯着改善結果。但是，提出的技術并未處理采樣操作的不可微性，而是提供了一種解決方法。

Bidirectional Scene Text Recognition with a Single Decoder

Authors Maurits Bleeker, Maarten de Rijke

場景文本識别STR是在裁剪的單詞圖像中識别正确的單詞或字元序列的問題。為了獲得更魯棒的輸出序列，已經引入了雙向STR的概念。到目前為止，已經通過使用兩個單獨的解碼器來實作雙向STR，一個用于左至右解碼，一個用于右至左解碼器。從計算和優化的角度來看，具有兩個單獨的解碼器來完成幾乎相同的任務且具有相同的輸出空間是不希望的。我們介紹了雙向場景文本變壓器Bi STET，這是一種新穎的帶有單個解碼器的雙向STR方法，用于雙向文本解碼。通過其單個解碼器，Bi STET優于使用兩個單獨的解碼器進行雙向解碼的方法，同時還比那些方法更有效。此外，我們在Bi STET的所有STR基準測試中都達到或超越了最新的SOTA方法。最後，我們提供有關Bi STET性能的分析和見解。

ILS-SUMM: Iterated Local Search for Unsupervised Video Summarization

Authors Yair Shemer, Daniel Rotman, Nahum Shimkin

近年來，人們對建構視訊摘要工具的興趣日益濃厚，其目的是自動建立可正确代表原始内容的輸入視訊的簡短摘要。我們考慮基于鏡頭的視訊摘要，其中摘要由可以不同長度的視訊鏡頭的子集組成。使鏡頭子集的代表性最大化的一種直接方法是最小化鏡頭與其最近選擇的鏡頭之間的總距離。我們将視訊彙總的任務表述為一個優化問題，該問題具有對總彙總持續時間的背包式限制。先前的研究提出了貪婪算法來近似解決該問題，但是沒有實驗可以衡量這些方法獲得總距離短的解決方案的能力。确實，我們在視訊彙總資料集上的實驗表明，目前方法在獲得總距離較小的結果方面的成功仍然有很大的改進空間。在本文中，我們開發了ILS SUMM，這是一種新穎的視訊彙總算法，用于解決背包限制下的子集選擇問題。我們的算法基于衆所周知的元啟發式優化架構Iterated Local Search ILS（疊代局部搜尋ILS），以避免弱局部最小值并獲得良好的近似全局最小值的能力而聞名。大量實驗表明，我們的方法找到的解決方案比以前的方法具有更好的總距離。此外，為了表明ILS SUMM的高度可擴充性，我們引入了一個新的資料集，其中包含各種長度的視訊。

Lossless Compression for 3DCNNs Based on Tensor Train Decomposition

Authors Dingheng Wang, Guangshe Zhao, Guoqi Li, Lei Deng, Yang Wu

三維卷積神經網絡3DCNN已應用于視訊或3D點雲識别的許多任務。但是，由于卷積核的維數較大，是以3DCNN的空間複雜度通常大于傳統的二維卷積神經網絡2DCNN的空間複雜度。為了使3DCNN小型化以在受限環境（例如嵌入式裝置）中進行部署，神經網絡壓縮是一種有前途的方法。在這項工作中，我們采用張量訓練TT分解（一種最緊湊和最簡單的Emph原位訓練壓縮方法）來縮小3DCNN模型。我們給出TT格式的3D卷積核的張量，并研究如何為TT格式的張量選擇合适的秩。根據基于VIVA挑戰和UCF11資料集的多次對比實驗，我們得出結論，TT分解可以以高達121倍的比率壓縮備援3DCNN，而準确性幾乎沒有提高。此外，我們在VIVA挑戰資料集81.83上獲得了TT 3DCNN的最新結果。

SaLite : A light-weight model for salient object detection

Authors Kitty Varghese, Sauradip Nag

突出對象檢測是一種普遍的計算機視覺任務，其應用範圍從異常檢測到異常處理。上下文模組化是顯着性檢測領域中的重要标準。全局上下文通過對比場景的全局視圖中的其他對象來幫助确定給定圖像中的顯着對象。但是，局部上下文特征可以在給定區域中以更高的精度檢測顯着對象的邊界。為了融合兩個方面的優勢，我們提出的SaLite模型同時使用了全局和局部上下文特征。它是基于編碼器解碼器的體系結構，其中編碼器使用輕量級的SqueezeNet，解碼器使用卷積層模組化。有權進行顯着性檢測的現代深度模型基于大量參數，很難在嵌入式系統上進行部署。本文嘗試使用SaLite解決上述問題，這是一種在不影響性能的情況下顯着檢測目标物體的較輕方法。我們的方法在DUTS，MSRA10K和SOC這三個可公開獲得的資料集上得到了廣泛評估。實驗結果表明，我們提出的SaLite在現有技術方法方面具有顯着而一緻的改進。

Capsule-Based Persian/Arabic Robust Handwritten Digit Recognition Using EM Routing

Authors Ali Ghofrani, Rahil Mahdian Toroghi

本文解決了手寫數字識别的問題。但是，基礎語言是波斯阿拉伯語，與此任務相關的系統是膠囊網絡CapsNet的出現比其祖先CNN卷積神經網絡更先進。使用Hoda資料集對體系結構進行教育訓練，該資料集已為波斯語阿拉伯手寫數字提供。該系統的輸出明顯優于其祖先以及其他先前提出的識别算法所獲得的結果。

View-invariant Deep Architecture for Human Action Recognition using late fusion

Authors Chhavi Dhiman, Dinesh Kumar Vishwakarma

人類行為識别未知的觀點是一項艱巨的任務。我們提出了一種視圖不變的深度人類動作識别架構，該架構是兩個重要的動作線索運動和形狀時态動力學STD的新穎內建。運動流将動作的運動内容封裝為RGB動态圖像RGB DI，這些RGB DI由微調的InceptionV3模型處理。 STD流使用基于人體姿勢模型HPM的視圖不變特征來學習動作的長期視圖不變形狀動力學，該觀點不變特征是從基于結構相似性名額矩陣SSIM的關鍵深度人類姿勢幀中提取的。為了預測測試樣品的分數，将三種後期融合最大值，平均值和乘積技術應用于各個流分數。為了驗證所提出的新穎架構的性能，在三個公共基準NUCLA多視圖資料集，UWA3D II活動資料集和NTU RGB D活動資料集上，使用跨主題和跨視圖驗證方案進行了實驗。我們的算法在準确性，接收器工作特性ROC曲線和曲線AUC下面積方面均表現出明顯優于現有技術的優勢。

Face Beautification: Beyond Makeup Transfer

Authors Xudong Liu, Ruizhe Wang, Chih Fan Chen, Minglei Yin, Hao Peng, Shukhan Ng, Xin Li

面部表情在我們的社交生活中起着重要作用。對女性美麗的主觀感覺取決于與面部相關的各種因素，例如皮膚，形狀，頭發和環境，例如化妝，照明，角度因素。類似于實體世界中的整容手術，虛拟面部美化是一個新興領域，有許多未解決的問題需要解決。受到基于樣式的合成和面部美容預測的最新進展的啟發，我們提出了面部美化的新穎架構。對于具有較高美容分數的給定參考臉部，我們基于GAN的體系結構能夠将查詢的面部轉換為具有參考美容風格和目标美容分數值的一系列美化面部圖像。為了實作這一目标，我們建議将從參考臉部提取的基于樣式的美容表示與在SCUT FBP資料庫上訓練的美容分數預測內建到美化過程中。與化妝轉移不同，我們的方法針對的是多對多翻譯，而不是一對一翻譯，在這種翻譯中，可以通過不同的參考文獻或不同的美容分數來定義多個輸出。據報道，大量的實驗結果證明了所提出的面部美化架構的有效性和靈活性。

VoronoiNet: General Functional Approximators with Local Support

Authors Francis Williams, Daniele Panozzo, Kwang Moo Yi, Andrea Tagliasacchi

Voronoi圖是用于各種圖形應用程式的高度緊湊的表示形式。在這項工作中，我們将展示如何通過新穎的深度架構将其不同版本嵌入到生成性深度網絡中。通過這樣做，我們實作了高度緊湊的潛在嵌入，能夠為各種形狀在2D和3D中提供更詳細的重建。在此技術報告中，我們介紹了我們的表示形式，并提供了一組初步結果，将其與最近提出的隐式占用網絡進行了比較。

Deep Reflection Prior

Authors Qingnan Fan, Yingda Yin, Dongdong Chen, Yujie Wang, Angelica Aviles Rivero, Ruoteng Li, Carola Bibiane Schnlieb, Dani Lischinski, Baoquan Chen

反射是我們日常攝影中非常普遍的現象，它使人們的注意力從玻璃後面的場景中轉移開。去除反射僞像的問題很重要，但由于其不适性而具有挑戰性。最近的基于學習的方法已證明在消除反射方面有重大改進。但是，這些方法受到限制，因為它們需要大量的合成反射清潔圖像對進行監控，但存在過度拟合合成圖像域的風險。在本文中，我們提出了一種基于學習的方法，該方法先捕獲反射統計資訊，然後再去除單個圖像反射。我們的算法是通過在訓練階段通過在多個輸入圖像之間增強聯合限制來優化目标來驅動的，但是能夠消除僅來自單個輸入的反射以進行評估。我們的架構允許通過一個分支的深度神經網絡來預測背景和反射，該神經網絡由訓示背景或反射輸出的可控潛在代碼實作。我們在各種真實世界的圖像上展示了優于最新方法的性能。我們還将在學到的潛在代碼後面提供有見地的分析，這可能會激發更多的未來工作。

Zero-shot Recognition of Complex Action Sequences

Authors Jonathan D. Jones, Tae Soo Kim, Michael Peven, Jin Bai, Zihao Xiao, Yi Zhang, Weichao Qiu, Alan Yuille, Gregory D. Hager

使用類似于基于圖像的對應方法的方法，即通過定義用于區分類别的圖像派生屬性，已在很大程度上探索了用于細粒度活動識别的零鏡頭視訊分類。但是，這樣的方法不能捕獲活動的基本動态，是以僅限于僅靜态圖像内容就足以對活動進行分類的情況。例如，諸如進出汽車之類的可逆動作通常是無法區分的。

Learning Sparse 2D Temporal Adjacent Networks for Temporal Action Localization

Authors Songyang Zhang, Houwen Peng, Le Yang, Jianlong Fu, Jiebo Luo

在此報告中，我們介紹了HACS 2019臨時行動本地化挑戰賽的獲勝者方法。臨時行動本地化具有挑戰性，因為目标提案可能與未整理視訊中的其他幾個候選提案相關。現有的方法不能很好地解決這一挑戰，因為臨時提議被單獨考慮并且它們的臨時相關性被忽略了。為了解決這個問題，我們提出了稀疏的2D時間相鄰網絡來對候選提議之間的時間關系進行模組化。該方法基于最近提出的2D TAN方法。 2D TAN中的采樣政策引入了不平衡的上下文問題，與長提案相比，短提案可以感覺更多的上下文。是以，我們進一步提出了一個稀疏的2D時間相鄰網絡S 2D TAN。它可以為長期建議包含更多上下文資訊，并可以從中進一步學習區分功能。通過将我們的S 2D TAN與簡單的動作分類器相結合，我們的方法在測試集上的mAP達到了23.49，這在HACS挑戰賽中獲得了第一名。

Individual predictions matter: Assessing the effect of data ordering in training fine-tuned CNNs for medical imaging

Authors John R. Zech, Jessica Zosa Forde, Michael L. Littman

我們用固定的超參數和50個不同的随機種子再現了CheXNet的結果，以确定在X線胸片中發現14個發現。由于CheXNet會微調預訓練的DenseNet，是以随機種子會影響訓練資料批次的排序，但不會影響初始化的模型權重。我們發現，在整個模型運作中，同一張X射線片的預測中存在很大的變異性，即均值ln最大機率最小機率2.45，變異系數0.543。在大型測試集上，這種個體射線照相水準的變異性并未完全反映在AUC的變異性中。 10個模型的平均預測将變異性降低了近70個，平均變異系數從0.543降低至0.169，t檢驗為15.96，p值為0.0001。我們鼓勵研究人員注意CNN的潛在變異性以及來自多個模型的整體預測，以最大程度地減少這種變異性在臨床上部署後可能對個别患者的護理産生的影響。

Neural Network Generalization: The impact of camera parameters

Authors Zhenyi Liu, Trisha Lian, Joyce Farrell, Brian Wandell

我們對經過訓練以識别汽車的卷積神經網絡CNN的推廣進行量化。首先，我們進行了一系列實驗，使用一個合成的圖像資料或來自相機的圖像資料集訓練網絡，然後在另一個圖像資料集上進行測試。我們表明，使用不同相機獲得的圖像之間的概括與來自相機的圖像與光線跟蹤的多光譜合成圖像之間的概括大緻相同。其次，我們使用ISETAuto（一種軟原型工具），該工具可以建立光線跟蹤的相機圖像多光譜模拟，以模拟具有一系列像素大小，濾色器，采集和采集後處理的傳感器圖像。這些實驗揭示了特定相機參數和圖像處理操作的變化如何影響CNN泛化。我們發現像素大小會影響一般性，b去馬賽克會嚴重影響淺8位深的深度的性能和泛化，但不會影響10位深的深度，并且c使用10位像素的未去馬賽克的原始傳感器資料，網絡性能會很好。

Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language

Authors Songyang Zhang, Houwen Peng, Jianlong Fu, Jiebo Luo

我們解決了通過查詢語句從未修剪的視訊中檢索特定時刻的問題。這是一個具有挑戰性的問題，因為目标時刻可能與未修剪視訊中的其他瞬時時刻有關。現有方法無法很好地解決這一挑戰，因為它們會單獨考慮時間矩，而忽略了時間依賴性。在本文中，我們通過二維映射對視訊時刻之間的時間關系進行模組化，其中一維訓示時刻的開始時間，另一維訓示結束時間。該2D時間圖可以代表不同的視訊時長，同時代表它們的相鄰關系。基于2D地圖，我們提出了時間相鄰網絡2D TAN，這是一個用于矩定位的單發架構。它能夠對相鄰的時間關系進行編碼，同時學習區分特征，以使視訊時刻與參考表達相比對。我們在三個具有挑戰性的基準上評估了拟議的2D TAN，即Charades STA，ActivityNet Captions和TACoS，其中我們的2D TAN優于最新技術。

Feature Augmentation Improves Anomalous Change Detection for Human Activity Identification in Synthetic Aperture Radar Imagery

Authors Hannah J. Murphy, Christopher X. Ren, Matthew T. Calef

異常變化檢測ACD方法将常見的，無趣的變化與在不同時間點收集的共同注冊圖像的罕見，顯着變化分開。在本文中，我們評估了以戶外音樂節為目标，以提高ACD在SAR圖像中檢測人類活動的性能的方法。我們的結果表明，與較簡單的方法（例如圖像差分）相比，SAR資料的低維性導緻ACD的性能較差，但通過合并局部空間資訊來增強輸入特征空間的維數會導緻性能提高。

Long Term Temporal Context for Per-Camera Object Detection

Authors Sara Beery, Guanhang Wu, Vivek Rathod, Ronny Votel, Jonathan Huang

在靜态監控錄影機中，有用的上下文資訊可能會遠遠超出典型的視訊了解模型可能會看到的對象在數天之内表現出相似行為且背景對象保持靜态的幾秒鐘之内。但是，由于功率和存儲的限制，采樣頻率很低，通常不快于每秒一幀，并且有時由于使用運動觸發而不規則。為了在此設定下表現良好，模型必須對不規則采樣率具有魯棒性。在本文中，我們提出了一種基于注意力的方法，該模型可使我們的模型索引到基于每個錄影機建構的長期存儲庫中，并彙總來自其他幀的上下文特征，以提高目前幀的對象檢測性能。我們将模型應用于以下兩種設定：1使用錄影機陷阱資料進行物種檢測，該資料基于運動觸發以低的可變幀速率進行采樣并用于研究所學生物多樣性； 2在交通錄影機中進行車輛檢測，幀速率同樣較低。我們表明，在所有設定中，我們的模型都可以使性能名額超過嚴格的基準。此外，我們表明，增加存儲庫的時間範圍可以改善結果。當應用于Snapshot Serengeti資料集中的相機陷阱資料時，我們的最佳模型可以利用長達一個月的圖像的上下文在0.5 IOU時的性能優于單幀基線17.9 mAP，并且比S3D的11.2 mAP性能優于基于3d卷積的基線。

A Real-time Global Inference Network for One-stage Referring Expression Comprehension

Authors Yiyi Zhou, Rongrong Ji, Gen Luo, Xiaoshuai Sun, Jinsong Su, Xinghao Ding, Chia wen Lin, Qi Tian

引用表達了解REC是計算機視覺中一個新興的研究熱點，它指的是在給定文本描述的情況下檢測圖像中的目标區域。大多數現有的REC方法遵循多級流水線，這在計算上是昂貴的，并且極大地限制了REC的應用。在本文中，我們提出了一種針對實時REC的單階段模型，稱為實時全球推斷網絡RealGIN。 RealGIN通過兩種創新設計，即自适應特征選擇AFS和全球關注解決方案部門GARAN，解決了REC中的多樣性和複雜性問題。 AFS自适應融合不同語義級别的功能，以處理表達式的各種内容。 GARAN使用文本功能作為樞紐，從所有區域收集與表達相關的視覺資訊，然後有選擇地将這些資訊傳播回所有區域，這為模組化表達中的複雜語言條件提供了足夠的上下文。在五個基準資料集（即RefCOCO，RefCOCO，RefCOCOg，ReferIt和Flickr30k）上，拟議的RealGIN優于大多數以前的工作，并且與最先進的方法（即MAttNet）相比具有非常有競争力的性能。最重要的是，在相同的硬體下，RealGIN可以将處理速度提高到現有方法的約10倍。

Dynamic Convolution: Attention over Convolution Kernels

Authors Yinpeng Chen, Xiyang Dai, Mengchen Liu, Dongdong Chen, Lu Yuan, Zicheng Liu

輕量級卷積神經網絡的CNN性能低下，因為它們的低計算預算限制了CNN的卷積層深度和通道寬度數量，進而限制了表示能力。為了解決這個問題，我們提出了動态卷積，一種新的設計，可以在不增加網絡深度或寬度的情況下增加模型的複雜性。動态卷積不是基于每層使用單個卷積核心，而是根據它們的注意力動态聚合多個并行卷積核心，這些依賴于輸入。組裝多個核心不僅由于核心尺寸小而在計算上很有效，而且由于這些核心通過注意力以非線性方式聚合，是以具有更大的表示能力。通過簡單地将動态卷積用于最先進的MobilenetV3 Small體系結構，ImageNet分類的前1個精度僅增加了4個額外的FLOP即可提高2.3，而在COCO關鍵點檢測上可實作2.9 AP增益。

Digital Twin: Acquiring High-Fidelity 3D Avatar from a Single Image

Authors Ruizhe Wang, Chih Fan Chen, Hao Peng, Xudong Liu, Oliver Liu, Xin Li

我們提出一種從單個圖像生成具有高分辨率UV紋理貼圖的高保真3D面部頭像的方法。為了估計人臉的幾何形狀，我們使用深度神經網絡直接根據給定圖像預測3D人臉模型的頂點坐标。通過非剛性變形過程進一步完善了3D臉部幾何形狀，以便在紋理投影之前更準确地捕獲臉部界标。我們方法的一個關鍵新穎之處是，在使用高品質渲染引擎綜合生成的面部圖像上訓練形狀回歸網絡。此外，我們的形狀估算器充分利用了從數百萬張臉部圖像中獲悉的深層臉部識别特征的判别能力。我們進行了廣泛的實驗，以證明我們優化的2D到3D渲染方法的優越性，尤其是其在現實世界中自拍圖像上的出色泛化特性。我們提出的從2D圖像渲染3D化身的系統具有廣泛的應用，從虛拟增強現實VR AR和遠端精神病學到人機互動和社交網絡。

DAVID: Dual-Attentional Video Deblurring

Authors Junru Wu, Xiang Yu, Ding Liu, Manmohan Chandraker, Zhangyang Wang

盲視訊去模糊可以從模糊序列中恢複清晰的幀，而無需任何先驗。這是一項具有挑戰性的任務，因為由于相機抖動，物體移動和散焦造成的模糊在時間和空間次元上都是異質的。傳統方法在具有單一模糊水準的合成資料集上進行訓練，是以無法在各個模糊水準上很好地概括。為了解決這一挑戰，我們提出了一種雙重注意機制，以動态聚合時間線索以進行端到端可訓練網絡結構的去模糊處理。具體而言，内部注意子產品自适應地選擇最佳時間尺度以恢複清晰的中心幀。外部注意子產品從幾個針對不同模糊級别設計的内部注意子產品中，自适應地聚合和優化多個清晰的幀估計。為了訓練和評估更多不同的模糊嚴重性級别，我們提出了一個具有挑戰性的DVD資料集，該資料集是通過合并具有不同時間視窗的幀從原始DVD視訊集生成的。我們的架構在這個更具挑戰性的資料集上始終獲得了更好的性能，同時在原始DVD基準上獲得了具有競争力的結果。廣泛的燒蝕研究和定性可視化進一步證明了我們的方法在處理真實視訊模糊方面的優勢。

Spatio-Temporal Pyramid Graph Convolutions for Human Action Recognition and Postural Assessment

Authors Behnoosh Parsa, Athma Narayanan, Behzad Dariush

識别人類行為以及與對象和環境的關聯互動是計算機視覺中的一個重要問題，因為它在各種領域中都有潛在的應用。最通用的方法可以推廣到各種環境，并處理混亂的背景，遮擋和視點變化。其中，基于圖卷積網絡的從骨架中提取特征的方法表現出了令人鼓舞的性能。在本文中，我們提出了一種新穎的時空金字塔圖卷積網絡ST PGN，用于人體工學風險評估的線上動作識别，可以使用骨架特征層次中所有級别的特征。所提出的算法優于在兩個通常用于姿勢評估TUM和UW IOM的公共基準資料集中測試的最新動作識别算法。我們還介紹了通過線上動作識别技術增強姿勢評估方法的管道。最後，所提出的算法與傳統的人體工學風險指數REBA內建在一起，以證明其在職業安全中評估肌肉骨骼疾病的潛在價值。

Improved Few-Shot Visual Classification

Authors Peyman Bateni, Raghav Goyal, Vaden Masrani, Frank Wood, Leonid Sigal

很少有鏡頭學習是計算機視覺中的一項基本任務，它有望減輕對詳盡标記資料的需求。迄今為止，大多數鏡頭學習方法都集中在逐漸複雜的神經特征提取器和分類器适應政策上，以及對任務定義本身的改進。在本文中，我們探索一種假設，即基于簡單類協方差的距離度量（即Mahalanobis距離）已被應用到最先進的鏡頭學習方法中，而CNAPS本身可以帶來顯着的性能改善。我們還發現，有可能學習自适應特征提取器，該提取器允許從令人驚訝的少量樣本中對該度量所需的高維特征協方差進行有用的估計。我們工作的結果是新的簡單CNAPS體系結構，其可訓練參數比CNAPS少多達9.2，并且在标準的少量鏡頭圖像分類基準資料集上的性能比最新技術好6.1。

Self-Supervised 3D Keypoint Learning for Ego-motion Estimation

Authors Jiexiong Tang, Rares Ambrus, Vitor Guizilini, Sudeep Pillai, Hanme Kim, Adrien Gaidon

對于基于特征的SLAM和SfM，生成可靠的照明和視點不變關鍵點至關重要。基于現有技術的學習方法通常依賴于通過采用單應性适配來建立2D合成視圖的方式生成訓練樣本。盡管這樣的方法瑣碎地解決了視圖之間的資料關聯，但是它們無法有效地從真實照明和非平面3D場景中學習。在這項工作中，我們提出了一種完全自我監督的方法，通過結合可差別的姿勢估計子產品來完全從未标記的視訊中學習深度感覺關鍵點文本，該子產品聯合優化了關鍵點及其在“運動結構”設定中的深度。我們介紹了3D多視圖自适應，這是一種利用視訊中的時間上下文以點對點可區分方式自我監控關鍵點檢測和比對的技術。最後，我們展示了如何将完全自我監督的關鍵點檢測和描述網絡作為前端簡單地合并到強大而準确的最新視覺裡程表架構中。

Deep Distance Transform for Tubular Structure Segmentation in CT Scans

Authors Yan Wang, Xu Wei, Fengze Liu, Jieneng Chen, Yuyin Zhou, Wei Shen, Elliot K. Fishman, Alan L. Yuille

醫學圖像中的管狀結構分割，例如在CT掃描中分割血管，是使用計算機協助篩查相關疾病早期階段的重要步驟。但是由于對比度差，噪聲和背景複雜等問題，CT掃描中的自動管狀結構分割是一個具有挑戰性的問題。管狀結構通常具有圓柱狀的形狀，可以通過其骨架半徑和橫截面半徑刻度很好地表示。受此啟發，我們提出了一種幾何感覺的管狀結構分割方法“深距離變換DDT”，該方法結合了用于骨架化的經典距離變換和現代深度分割網絡的直覺。 DDT首先學習多任務網絡，以預測管狀結構和距離圖的分割蒙版。圖中的每個值表示從每個管狀結構體素到管狀結構表面的距離。然後，通過利用從距離圖重新構造的形狀來細化分割蒙版。我們将DDT應用于六個醫學圖像資料集。實驗表明，1 DDT可以顯着提高管狀結構的分割性能，例如，通過DSC進行的胰管分割可改善13倍以上的改善，而2 DDT還可提供管狀結構的幾何尺寸，這對于臨床診斷非常重要，例如橫截面胰管的規模可能是胰腺癌的名額。

Sparse and redundant signal representations for x-ray computed tomography

Authors Davood Karimi

圖像模型是所有圖像處理任務的核心。沒有強大的模型，數字圖像處理的巨大進步将無法實作，而模型本身會随着時間而發展。在過去的十年中，基于更新檔的模型已經成為自然圖像最有效的模型之一。在許多圖像處理任務中，基于更新檔的方法優于其他競争方法。這些發展之時正值強大的計算資源的日益普及和對電離輻射對健康風險的日益關注促使對計算機斷層CT CT圖像處理算法進行研究的時候。本文的目的是解釋基于更新檔的方法的原理，并回顧它們在CT中的最新應用。我們回顧了基于更新檔的圖像進行中的核心概念，并解釋了一些最新的算法，重點是與CT更相關的方面。然後，我們回顧一些基于更新檔的方法在CT中的最新應用。

Bilinear Models for Machine Learning

Authors Tayssir Doghri, Leszek Szczecinski, Jacob Benesty, Amar Mitiche

在這項工作中，我們定義并分析了雙線性模型，該模型替代了許多機器學習ML建構塊中使用的正常線性運算。主要思想是設計适合其所處理對象的ML算法。在單色圖像的情況下，我們表明雙線性運算比忽略像素之間空間關系的正常線性運算更好地利用了圖像的結構。這轉化為産生相同性能所需的參數數量明顯減少。我們在MNIST資料集中顯示了分類的數值示例。

ClusterFit: Improving Generalization of Visual Representations

Authors Xueting Yan, Ishan Misra, Abhinav Gupta, Deepti Ghadiyaram, Dhruv Mahajan

在一些計算機視覺任務中，具有弱監督和自我監督政策的預訓練卷積神經網絡正變得越來越流行。然而，由于缺乏強的判别信号，這些學習的表示可能過度适合于預訓練目标，例如，标簽預測，并且不能很好地推廣到下遊任務。在這項工作中，我們提出了一個簡單的政策ClusterFit CF，以提高訓練前學習的視覺表示的魯棒性。給定一個資料集，我們使用k均值從預先訓練的網絡中提取其特征進行聚類，然後使用聚類配置設定作為僞标簽從該資料集的頭開始重新訓練新的網絡。我們根據經驗表明，聚類有助于從提取的特征中減少訓練前任務的特定資訊，進而最大程度地減少對其的過度拟合。我們的方法可以擴充到弱和自我監督的不同預訓練架構，模态圖像和視訊以及預訓練任務的對象和動作分類。通過對11個不同詞彙和粒度的不同目标資料集進行的廣泛遷移學習實驗，我們證明，與最先進的大規模億萬億弱監督圖像和視訊模型以及自我監督圖像模型相比，ClusterFit顯着提高了表示品質。

A Neural Network Based on the Johnson $S_\mathrm{U}$ Translation System and Related Application to Electromyogram Classification

Authors Hideaki Hayashi, Taro Shibanoki, Toshio Tsuji

肌電圖肌電圖分類是基于肌電圖的控制系統中的一項關鍵技術。現有的EMG分類方法未考慮分布具有偏斜度和峰度的EMG特征的特征，進而導緻諸如需要超參數調整的缺點。在本文中，我們提出了一種基于Johnson S mathrm U翻譯系統的神經網絡，該系統能夠表示偏度和峰度的分布。 Johnson系統是一種規範化轉換，可将非正态資料轉換為正态分布，進而能夠表示各種分布。在這項研究中，基于對數Johnson Johnson S mathrm U翻譯系統的判别模型使用對數線性化轉換為系數和輸入向量的線性組合。然後将其合并到神經網絡結構中，進而允許計算每個類别的輸入向量的後驗機率，并确定模型參數作為網絡的權重系數。從理論上保證了網絡學習融合的唯一性。在實驗中，使用人工生成的資料評估了所建議網絡對包括偏度和峰度的分布的适用性。還通過EMG分類實驗評估了其對實際生物學資料的适用性。結果表明，所提出的網絡無需超參數優化即可實作較高的分類性能。

cGANs with Multi-Hinge Loss

Authors Ilya Kavalerov, Wojciech Czaja, Rama Chellappa

我們提出了一種新的算法，通過對常用鉸鍊損失的多類歸納将類條件資訊納入GAN的判别器中。我們的方法與大多數GAN架構形成對比，因為我們針對具有1個損失函數的K 1類訓練單個分類器，而不是真正的假鑒别器或鑒别器分類器對。我們表明，在監督和半監督的環境中，同時學習單個好的分類器和最新的生成器狀态是可能的。通過我們對多鉸鍊損耗的修改，我們能夠将最新的CIFAR10 IS FID提升至9.58 6.40，将CIFAR100 IS FID提升至14.36 13.32，将STL10 IS FID提升至12.16 17.44。用PyTorch編寫的代碼可在以下位置獲得

Parallel Total Variation Distance Estimation with Neural Networks for Merging Over-Clusterings

Authors Christian Reiser, J rg Schl tterer, Michael Granitzer

我們考慮資料集被過度劃分為k個聚類的初始情況，并尋求一種獨立于域的方式來合并這些初始聚類。我們确定總變化距離TVD适合此目标。通過利用TVD與貝葉斯精度的關系，我們展示了如何使用神經網絡并行估計所有成對叢集之間的TVD。至關重要的是，通過将所需的輸出神經元數量從k 2減少到k，減少了所需的存儲空間。通過對ImageNet子集的聚類進行實際獲得的結果表明，與依賴于最新的無監督表示形式獲得的合并決策相比，我們的TVD估計得出的合并決策更好。通過在點雲資料集上對其進行評估，可以驗證該方法的通用性。

Naive Gabor Networks

Authors Chenying Liu, Jun Li, Lin He, Antonio J. Plaza, Shutao Li, Bo Li

在本文中，我們介紹了樸素的Gabor網絡或Gabor網絡，這在文獻中是第一次以Gabor濾波器的形式嚴格設計和學習卷積核，旨在減少參數數量并限制卷積神經的解空間。網絡CNN。與其他基于Gabor的方法相比，Gabor Nets利用正弦諧波的相位偏移來控制Gabor核的頻率特性，進而能夠根據頻率角度的資料調整卷積核。此外，還實作了Gabor核的快速一維分解，進而使二維卷積的原始二次計算複雜度變為線性。我們在兩個遙感高光譜基準上評估了我們最新開發的Gabor網絡，表明我們的模型架構可以顯着提高CNN的收斂速度和性能，尤其是在訓練樣本非常有限的情況下。

InfoCNF: An Efficient Conditional Continuous Normalizing Flow with Adaptive Solvers

Authors Tan M. Nguyen, Animesh Garg, Richard G. Baraniuk, Anima Anandkumar

連續歸一化流由于CNF具有可逆性和精确的似然估計能力，是以它們已成為有前景的深度生成模型，可用于各種任務。但是，由于模型生成的高維潛碼（需要與輸入資料具有相同的大小），是以根據條件信号生成和下遊預測任務對目标信号進行CNF調整效率很低。在本文中，我們提出了InfoCNF，這是一種有效的條件CNF，它将潛在空間劃分為特定于類的監督代碼和在所有類之間共享的無監督代碼，以有效利用标記資訊。由于劃分政策略微增加了功能評估NFE的數量，是以InfoCNF還采用門控網絡來學習其常微分方程ODE求解器的容錯能力，以提高速度和性能。我們憑經驗表明，InfoCNF可以提高基準測試的準确性，同時産生可比的可能性評分并減少CIFAR10上的NFE。此外，在InfoCNF中對時間序列資料應用相同的分區政策有助于提高外推性能。

Video Motion Capture from the Part Confidence Maps of Multi-Camera Images by Spatiotemporal Filtering Using the Human Skeletal Model

Authors Takuya Ohashi, Yosuke Ikegami, Kazuki Yamamoto, Wataru Takano, Yoshihiko Nakamura

本文讨論了視訊運動捕獲，即從多錄影機圖像對人體運動進行3D重建。從每個錄影機圖像計算出零件置信度圖後，将所提出的時空濾波器應用于為人體運動分析提供準确且平滑的人體運動資料。時空濾波器使用人體骨骼，并在兩個時間逆運動學計算中混合了時間平滑。實驗結果表明，正常運動的平均每個關節位置誤差為26.1mm，反向運動的平均為38.8mm。

AI2D-RST: A multimodal corpus of 1000 primary school science diagrams

Authors Tuomo Hiippala, Malihe Alikhani, Jonas Haverinen, Timo Kalliokoski, Evanfiya Logacheva, Serafina Orekhova, Aino Tuomainen, Matthew Stone, John A. Bateman

本文介紹AI2D RST，這是一個包含1000種英語圖表的多模式語料庫，代表了國小自然科學中的主題，例如食物網，生命周期，月相和人類生理學。該語料庫基于Allen Institute for AI人工智能圖AI2D資料集，該圖是帶有人群來源描述的圖的集合，其最初是為諸如自動圖了解和視覺問題解答之類的計算任務而開發的。 AI2D RST語料庫以AI2D中的圖布局分割為基礎，提供了一個新的多層注釋模式，該模式提供了對其多峰結構的豐富描述。由受過訓練的專家注釋，這些層描述1将圖元素劃分為感覺單元，2将由圖元素（如箭頭和線條）建立的連接配接，以及3用修辭結構理論RST描述的圖元素之間的話語關系。 AI2D RST中的每個注釋層均使用圖形表示。該語料庫可免費用于研究和教學。

Less Confusion More Transferable: Minimum Class Confusion for Versatile Domain Adaptation

Authors Ying Jin, Ximei Wang, Mingsheng Long, Jianmin Wang

域自适應DA将學習模型從标記的源域轉移到遵循不同分布的未标記的目标域。存在多種受标簽集和域配置限制的DA方案，包括封閉集和部分集DA以及多源和多目标DA。值得注意的是，現有的DA方法通常僅針對特定方案而設計，而對于不适合它們的方案可能表現不佳。朝着一種通用的DA方法，應該探索除域對準以外的更通用的電感偏置。在本文中，我們深入研究了現有方法類混淆的缺失部分，即分類器混淆了目标示例正确和歧義類之間的預測的趨勢。我們揭露，在所有上述情況下，更少的類混淆明确表明更多的類可區分性，并隐含更多的域可轉讓性。

6-DOF Grasping for Target-driven Object Manipulation in Clutter

Authors Adithyavairavan Murali, Arsalan Mousavian, Clemens Eppner, Chris Paxton, Dieter Fox

在混亂的環境中抓握是一項基本但具有挑戰性的機器人技能。它既需要對看不見的物體部分進行推理，又需要與機械手潛在的碰撞。大多數現有的資料驅動方法通過将自己限制為自上而下的平面抓取來避免此問題，這對于許多實際場景來說是不夠的，并且極大地限制了可能的抓取。我們提出了一種從局部點雲觀測中為雜亂場景中的任何所需對象計劃6自由度抓取的方法。我們的方法獲得了80.3的成功抓取成功，性能比基線方法高17.6，并且在一個真實的機器人平台上清除了9個混亂的桌子場景，這些場景包含23個未知對象和51個拾取項。通過使用學習到的沖突檢查子產品，我們甚至可以推理出有效的抓取順序來檢索無法立即通路的對象。補充視訊可以在下面找到

Deep Learning-Based Feature-Aware Data Modeling for Complex Physics Simulations

Authors Qun Liu, Subhashis Hazarika, John M. Patchett, James Paul Ahrens, Ayan Biswas

資料模組化和現場還原非常重要。用于原位資料分析和歸納的特征驅動方法是未來百億億次計算機的優先事項，因為此類方法目前很少。我們研究了基于深度學習的工作流，該工作流使用自動編碼器來針對原位資料處理。我們提出了在殘差密集塊RRDB中內建殘差自動編碼器以獲得更好的性能。我們提出的架構将測試資料從每3D體積時間2.1 MB壓縮到66 KB。

Privacy-Preserving Inference in Machine Learning Services Using Trusted Execution Environments

Authors Krishna Giri Narra, Zhifeng Lin, Yongqin Wang, Keshav Balasubramaniam, Murali Annavaram

這項工作提出了Origami，它通過結合安全區執行，加密盲法和散布基于加速器的計算，為大型深度神經網絡DNN模型提供了隐私保護推斷。折紙将ML模型劃分為多個分區。第一分區在SGX安全區域内接收加密的使用者輸入。安全區對輸入解密，然後對輸入資料和模型參數應用加密盲法。加密盲是一種增加噪聲以混淆資料的技術。折紙會将混淆後的資料發送到不受信任的GPU CPU進行計算。 SGX飛地将盲目性和去盲目性因素保持私有狀态，進而在計算被解除安裝到GPU CPU時，可以防止任何對手對資料進行消噪處理。計算出的輸出傳回到飛地，飛地使用專用于SGX記憶體儲的非緻盲因子對噪聲資料進行解碼。像在先前的工作Slalom中所做的那樣，可以為每個DNN層重複此過程。

Comparison of Neuronal Attention Models

Authors Mohamed Karim Belaid

用于圖像處理的最新模型使用卷積神經網絡CNN，該網絡需要對輸入圖像進行逐像素分析。此方法效果很好。但是，如果我們有大圖像，那會很費時間。為了提高性能，通過改善訓練時間或準确性，我們需要一種尺寸無關的方法。作為解決方案，我們可以添加神經元注意力模型NAM。這種新方法的強大之處在于它可以有效地從初始圖像中選擇幾個小區域進行聚焦。本文的目的是解釋和測試NAM的每個參數。

Temporal Wasserstein non-negative matrix factorization for non-rigid motion segmentation and spatiotemporal deconvolution

Authors Erdem Varol, Amin Nejatbakhsh, Conor McGrory

自然圖像的運動分割通常依賴于密集的光流來産生屈服點軌迹，這些屈服點軌迹可以通過包括光譜聚類或最低成本的多次切割在内的各種方式歸為一組。但是，在諸如熒光顯微鏡或鈣成像的生物成像場景中，信噪比受到損害并且強度發生波動，光流可能難以估算。為此，我們提出了一種基于最佳傳輸的運動分割方法，該方法将視訊幀模組化為表示為直方圖的時變品質。是以，我們将運動分割作為具有Wasserstein度量損失的時間非線性矩陣分解問題。該分解的字典元素可将運動分割為相幹對象，而加載系數允許捕獲運動對象随時間變化的強度信号。我們證明了拟議的範式在模拟的多電極漂移情況下的使用，以及線蟲秀麗隐杆線蟲C.elegans的鈣訓示熒光顯微鏡視訊。後者的應用具有在自由進行的行為中提取動物神經活動的附加效用。

Cascaded Deep Neural Networks for Retinal Layer Segmentation of Optical Coherence Tomography with Fluid Presence

Authors Donghuan Lu, Morgan Heisler, Da Ma, Setareh Dabiri, Sieun Lee, Gavin Weiguang Ding, Marinko V. Sarunic, Mirza Faisal Beg

光學相幹斷層掃描OCT是一種非侵入性成像技術，可以提供眼睛内部結構的微米分辨率橫截面圖像。它被廣泛用于診斷具有視網膜改變的眼科疾病，例如層變形和積液。在本文中，提出了一種新穎的架構來分割存在液體的視網膜層。這項研究的主要貢獻有兩個方面1我們開發了一個級聯網絡架構以合并現有的結構知識2我們提出了一種基于U Net和完全卷積網絡的新型深度神經網絡，稱為LF UNet。交叉驗證明驗證明，與現有方法相比，所提出的LF UNet具有更好的性能，并且不管網絡如何，結合相對距離圖結構先驗資訊都可以進一步提高性能。

Principal Component Properties of Adversarial Samples

Authors Malhar Jere, Sandro Herbig, Christine Lind, Farinaz Koushanfar

已經發現，用于圖像分類的深度神經網絡容易受到對抗性樣本的攻擊，對抗性樣本包括添加到良性圖像中的次知覺噪聲，這些噪聲容易使愚弄訓練有素的神經網絡，進而對其商業部署構成重大風險。在這項工作中，我們通過鏡頭分析對抗性樣本對每個圖像主要成分的貢獻，這與以前的作者在整個資料集中執行PCA的工作不同。我們研究了在ImageNet上訓練的許多最先進的深度神經網絡，以及針對每個網絡的幾種攻擊。我們的結果從經驗上證明，幾次攻擊中的對抗性樣本對神經網絡輸入的主要成分的貢獻具有相似的屬性。我們提出了一種用于神經網絡的新度量，以衡量其對對抗性樣本的魯棒性，稱為k，p點。對于在ImageNet上訓練的模型，我們利用此名額在檢測對抗樣本時達到93.36的準确性，而與結構和攻擊類型無關。

Geometric Capsule Autoencoders for 3D Point Clouds

Authors Nitish Srivastava, Hanlin Goh, Ruslan Salakhutdinov

我們提出了一種使用3D點雲學習對象表示的方法，該方法使用幾何可解釋的隐藏單元束（稱為幾何膠囊）來進行學習。每個幾何囊表示一個視覺實體，例如一個對象或一個零件，并由一個姿勢和一個特征兩個部分組成。姿勢編碼實體的位置，而特征編碼實體的位置。我們使用這些膠囊來構造幾何膠囊自動編碼器，該編碼器學會以無監督的方式将3D點分組為局部小的局部曲面，然後将這些局部分組為整個對象。我們新穎的多視圖協定投票機制用于發現對象的規範姿勢及其姿勢不變特征向量。使用ShapeNet和ModelNet40資料集，我們分析了所獲學習表示的屬性，并顯示了獲得多張選票同意的好處。我們對任意旋轉的對象執行對齊和檢索，以評估模型的對象識别和規範的姿态恢複能力，并獲得有見地的結果。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩請移步首頁

【AI視野·今日CV 計算機視覺論文速覽第172期】Tue, 10 Dec 2019

pic from pexels.com

【AI視野·今日CV 計算機視覺論文速覽第172期】Tue, 10 Dec 2019

Interesting:

Daily Computer Vision Papers

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

【AI視野·今日CV 計算機視覺論文速覽 第172期】Tue, 10 Dec 2019

Interesting:

Daily Computer Vision Papers

繼續閱讀

【AI視野·今日CV 計算機視覺論文速覽第172期】Tue, 10 Dec 2019