【今日CV 計算機視覺論文速覽第132期】Tue, 18 Jun 2019

今日CS.CV 計算機視覺論文速覽

Tue, 18 Jun 2019

Totally 64 papers

?上期速覽✈更多精彩請移步首頁

Interesting:

?****MMDetection, 一個目标檢測模型工具箱和代碼庫，包含了常見的目标檢測模型，标準子產品和高效的實作。可以為研究人員提供高效靈活的目标檢測實作工具。還包含了多GPU的分布式訓練實作。(from 港中文、浙大、悉尼大學、商湯、微軟亞研、北理理工、南大、華中科技、北大、港科技、中山大學、西北大學(us)、南洋理工)

工具箱支援的模型庫與其他代碼庫比較：

【今日CV 計算機視覺論文速覽第132期】Tue, 18 Jun 2019

通用的架構和訓練流程：

【今日CV 計算機視覺論文速覽第132期】Tue, 18 Jun 2019

code:https://github.com/open-mmlab/mmdetection

?****Image-based 3D Object Reconstruction基于圖像的三維重建深度學習實作綜述, 從輸入資料類型、輸出表示、網絡架構和訓練過程對整個基于圖像的三維重建進行了深入的分析，并對100多個模型進行了分析和比較。是一篇較好的單圖像三維重建綜述文章。(from 天津大學)

【今日CV 計算機視覺論文速覽第132期】Tue, 18 Jun 2019

?基于對抗網絡的水下圖像增強算法, 首先提出了U45水下資料集，同時設計了針對圖像和特征的融合特征的損失函數。實作的模型參數較少，速度較快效果較好。(from 南京資訊工程大學)

【今日CV 計算機視覺論文速覽第132期】Tue, 18 Jun 2019

u45 dataset:https://github.com/IPNUISTlegal/underwater-test-dataset-U45-

rar:https://github.com/IPNUISTlegal/underwater-test-dataset-U45-/blob/master/U45.rar

Daily Computer Vision Papers

MMDetection: Open MMLab Detection Toolbox and Benchmark

Authors Kai Chen, Jiaqi Wang, Jiangmiao Pang, Yuhang Cao, Yu Xiong, Xiaoxiao Li, Shuyang Sun, Wansen Feng, Ziwei Liu, Jiarui Xu, Zheng Zhang, Dazhi Cheng, Chenchen Zhu, Tianheng Cheng, Qijie Zhao, Buyu Li, Xin Lu, Rui Zhu, Yue Wu, Jifeng Dai, Jingdong Wang, Jianping Shi, Wanli Ouyang, Chen Change Loy, Dahua Lin

我們提供MMDetection，這是一個對象檢測工具箱，包含豐富的對象檢測和執行個體分割方法以及相關的元件和子產品。該工具箱從MMDet團隊的代碼庫開始，他們赢得了COCO Challenge 2018的檢測軌道。它逐漸演變成一個統一的平台，涵蓋了許多流行的檢測方法和現代子產品。它不僅包括訓練和推理代碼，還為200多種網絡模型提供權重。我們相信這個工具箱是迄今為止最完整的檢測工具箱。在本文中，我們将介紹此工具箱的各種功能。此外，我們還對不同的方法，元件及其超參數進行了基準研究。我們希望工具箱和基準可以通過提供靈活的工具包來重新實作現有方法并開發自己的新探測器，進而為不斷增長的研究社群服務。代碼和型号可在以下網站獲得

Machine-Assisted Map Editing

Authors Favyen Bastani, Songtao He, Sofiane Abbar, Mohammad Alizadeh, Hari Balakrishnan, Sanjay Chawla, Sam Madden

今天制定道路網絡是勞動密集型的。是以，許多國家的路線圖在城市中心以外的覆寫率很低。已經提出了從航空圖像和GPS軌迹自動推斷道路網絡圖的系統，以改善道路地圖的覆寫範圍。但是，由于錯誤率很高，映射社群尚未采用這些系統。我們提出機器輔助地圖編輯，其中自動地圖推理被內建到現有的，以人為中心的地圖編輯工作流程中。為了實作這一點，我們建構了機器輔助iD MAiD，我們使用機器輔助功能擴充了基于Web的OpenStreetMap編輯器iD。我們用一種新穎的方法來補充MAiD，該方法用于從航拍圖像推斷道路拓撲，其結合了先前分割方法的速度和先前疊代圖形構造方法的準确性。我們設計MAiD來解決在現有地圖覆寫率較差的地區增加主要幹道，以及在已經繪制主要道路的地區逐漸改善覆寫範圍。我們進行了兩項使用者研究，發現當參與者獲得固定時間繪制道路時，他們可以使用MAiD增加多達3.5倍的道路。

Particle Swarm Optimization for Great Enhancement in Semi-Supervised Retinal Vessel Segmentation with Generative Adversarial Networks

Authors Qiang Huo

基于深度學習的視網膜血管分割需要大量手動标記資料。這是耗時，費力和專業的。更糟糕的是，擷取豐富的眼底圖像很困難。由于存在異常，血管的大小和形狀不同，不均勻的照射和解剖學變化，這些問題更加嚴重。在本文中，我們提出了一個資料有效的半監督學習架構，它有效地結合了現有的深度學習網絡與GAN和自我教育訓練的想法。針對半監督學習超參數調整的難度，提出了一種基于粒子群優化算法的超參數選擇方法。據我們所知，這項工作是第一次将智能優化與半監督學習相結合以實作最佳性能的示範。在對抗性學習，自我訓練和PSO的協作下，選擇最佳超參數，我們獲得的視網膜血管分割的性能接近或甚至優于代表性的監督學習，僅使用來自DRIVE的标記資料的十分之一。

Boosting Supervision with Self-Supervision for Few-shot Learning

Authors Jong Chyi Su, Subhransu Maji, Bharath Hariharan

我們提出了一種技術，通過引入自監督任務作為輔助損失函數來提高在小标記資料集上學習的深度表示的可轉移性。雖然最近的自我監督學習方法已經顯示了對大型未标記資料集進行教育訓練的好處，但我們發現即使在小型資料集上以及與強有力的監督相結合時，也可以改進泛化。具有自我監督損失的學習表示在幾個鏡頭學習基準上降低了現有技術元學習者的相對錯誤率，并且在從頭開始訓練時降低了标準分類任務的現成深度網絡。我們發現自我監督的好處随着任務的難度而增加。我們的方法利用資料集中的圖像來建構自我監督的損失，是以是學習可轉移表示的有效方式，而不依賴于任何外部訓練資料。

Exemplar Guided Face Image Super-Resolution without Facial Landmarks

Authors Berk Dogan, Shuhang Gu, Radu Timofte

如今，由于無處不在的視覺媒體，存在大量已經可用的高分辨率HR臉部圖像。是以，為了超分辨人的給定的非常低分辨率的LR面部圖像，很可能找到可用于指導該過程的同一人的另一個HR面部圖像。在本文中，我們提出了一種基于卷積神經網絡CNN的解決方案，即GWAInet，它将超分辨率SR應用于由同一個人的另一個無限制HR面部圖像引導的面部圖像上，可能在年齡，表情，姿勢或尺寸。 GWAInet以對抗性生成方式進行訓練，以産生所需的高品質感覺圖像結果。 HR引導圖像的利用通過使用将其内容與輸入圖像對齊的整經器子網絡以及對來自彎曲引導圖像和輸入圖像的提取特征的特征融合鍊的使用來實作。在訓練中，身份丢失進一步有助于通過最小化SR和HR地面真實圖像的嵌入向量之間的距離來保持身份相關特征。與面部超分辨率的現有技術水準相反，我們的方法不需要用于其訓練的面部标志點，這有助于其穩健性并且允許其以均勻的方式為周圍的面部區域産生精細的細節。我們的方法GWAInet以升序因子8x産生照片逼真圖像，并且在數量和感覺品質方面優于現有技術水準。

Towards Real-Time Action Recognition on Mobile Devices Using Deep Models

Authors Chen Lin Zhang, Xin Xin Liu, Jianxin Wu

動作識别是計算機視覺中的一項重要任務，并且開發了許多方法以将其推向極限。然而，目前的動作識别模型具有巨大的計算成本，其不能部署到移動裝置上的現實世界任務中。在本文中，我們首先說明實時動作識别的設定，這與目前動作識别推理設定不同。在新的推理設定下，我們根據經驗研究了Kinetics資料集上的最新動作識别模型。我們的結果表明，設計高效的實時動作識别模型不同于設計高效的ImageNet模型，尤其是在權重初始化中。我們展示了ImageNet上經過預先訓練的權重可以提高實時動作識别設定下的準确性。最後，我們使用手勢識别任務作為案例研究來評估我們在行動電話上的實際應用中的緊湊實時動作識别模型。結果表明，我們的動作識别模型速度提高了6倍，并且具有與現有技術相似的精度，可以大緻滿足移動裝置的實時要求。據我們所知，這是第一篇在移動裝置上部署目前深度學習動作識别模型的論文。

Semi-Supervised Semantic Mapping through Label Propagation with Semantic Texture Meshes

Authors Radu Alexandru Rosu, Jan Quenzel, Sven Behnke

場景了解是機器人在非結構化環境中行動的重要能力。雖然大多數SLAM方法提供場景的幾何表示，但語義地圖對于與周圍環境的更複雜的互動是必要的。目前的方法将語義映射視為幾何的一部分，這限制了可伸縮性和準确性。我們建議将語義地圖表示為幾何網格和以獨立分辨率耦合的語義紋理。關鍵的想法是，在許多環境中，幾何形狀可以大大簡化而不會失去保真度，而語義資訊可以以更高的分辨率存儲，而與網格無關。我們從深度傳感器構造網格以表示場景幾何，并将資訊融合到來自場景的各個RGB視圖的分段的語義紋理中。使語義在全局網格中持久化使我們能夠強制執行各個視圖預測的時間和空間一緻性。為此，我們提出了一種通過疊代地重新訓練語義分割與存儲在地圖内的資訊并使用重新訓練的分割來重新融合語義來在各個分割之間建立共識的有效方法。我們通過重建來自NYUv2的場景的語義地圖和跨越大型建築物的場景來展示我們的方法的準确性和可擴充性。

Trimmed Action Recognition, Dense-Captioning Events in Videos, and Spatio-temporal Action Localization with Focus on ActivityNet Challenge 2019

Authors Zhaofan Qiu, Dong Li, Yehao Li, Qi Cai, Yingwei Pan, Ting Yao

本筆記本檔案介紹了我們為ActivityNet Challenge 2019修剪動作識别，視訊中的密集字幕事件和時空動作本地化中的以下三個任務而設計的系統的概述和比較分析。

Hallucinated Adversarial Learning for Robust Visual Tracking

Authors Qiangqiang Wu, Zhihui Chen, Lin Cheng, Yan Yan, Bo Li, Hanzi Wang

人類可以從一個單一的範例中輕松地學習新的概念，這主要是因為他們具有非凡的想象力或幻覺能夠在不同環境中看不見的樣本。結合這種對被跟蹤執行個體的各種新樣本産生幻覺的能力可以幫助跟蹤器減輕低資料跟蹤狀态中的過度拟合問題。為實作這一目标，我們提出了一種有效的對抗方法，表示為對抗性幻覺AH，用于穩健的視覺跟蹤。所提出的AH被設計為首先在一對相同的身份執行個體之間學習可轉移的非線性變形，然後将這些變形應用于看不見的跟蹤執行個體，以便生成不同的正訓練樣本。通過通過檢測架構将AH結合到線上跟蹤中，我們提出了幻覺對抗跟蹤器HAT，其以端對端方式聯合優化AH與線上分類器，例如MDNet。此外，提出了一種新穎的選擇性變形轉移SDT方法，以更好地選擇更适合轉移的變形。對3個流行基準測試的廣泛實驗表明，我們的HAT實作了最先進的性能。

Multi-Scale Convolutions for Learning Context Aware Feature Representations

Authors Nikolai Ufer, Kam To Lui, Katja Schwarz, Paul Warkentin, Bj rn Ommer

尋找語義對應是一個具有挑戰性的問題。随着CNN的突破，更強的功能可用于分類等任務，但不是專門針對語義比對的要求。在下文中，我們提出了一種弱監督的度量學習方法，通過編碼比以前的方法更多的上下文來生成更強的特征。首先，我們使用幾何通知的對應挖掘方法生成更合适的訓練資料，該方法不太容易進行虛假比對，并且僅需要圖像類别标簽作為監督。其次，我們引入了一個新的卷積層，它是不同步幅卷積的學習混合，允許網絡隐式編碼更多上下文，同時保持比對精度。特征方面的強幾何編碼使我們能夠學習語義流網絡，該網絡比基于參數變換的模型生成更自然的變形，并且能夠同時聯合預測前景區域。我們的語義流網絡在幾個語義比對基準測試中優于目前的技術水準，并且學習的特征在簡單的最近鄰居比對方面表現出驚人的性能。

EnlightenGAN: Deep Light Enhancement without Paired Supervision

Authors Yifan Jiang, Xinyu Gong, Ding Liu, Yu Cheng, Chen Fang, Xiaohui Shen, Jianchao Yang, Pan Zhou, Zhangyang Wang

基于深度學習的方法在圖像恢複和增強方面取得了顯着的成功，但是當缺乏配對的訓練資料時它們仍然具有競争力。作為一個這樣的例子，本文探讨了低光圖像增強問題，在實踐中它極具挑戰性同時拍攝同一視覺場景的低光和普通光照。我們提出了一種高效的無監督生成對抗網絡，稱為EnlightenGAN，可以在沒有低正常光圖像對的情況下進行訓練，但證明可以很好地概括各種真實世界的測試圖像。我們建議使用從輸入本身提取的資訊來規範非配對訓練，并對低光圖像增強問題進行基準測試，包括全局局部鑒别器結構，自我正則化，而不是使用地面實況資料來監督學習。感覺損失融合和注意機制。通過大量實驗，我們提出的方法在視覺品質和主觀使用者研究方面優于各種名額下的近期方法。由于非配對教育訓練帶來了極大的靈活性，EnlightenGAN可以很容易地适應各種領域的現實世界圖像。該代碼可在網址擷取

Noisy-As-Clean: Learning Unsupervised Denoising from the Corrupted Image

Authors Jun Xu, Yuan Huang, Li Liu, Fan Zhu, Xingsong Hou, Ling Shao

在過去幾年中，監督網絡在圖像去噪方面取得了很好的成績。這些方法從大量嘈雜和幹淨的圖像中學習圖像先驗和合成噪聲統計。最近，僅使用外部噪聲圖像進行訓練，提出了幾種無監督的去噪網絡。然而，從外部資料學習的網絡固有地受到域間隙困境的影響，即，訓練資料和損壞的測試圖像之間的圖像先驗和噪聲統計非常不同。在處理真實照片中依賴于信号的真實噪聲時，這種困境變得更加清晰。在這項工作中，我們提供了一個統計上有用的結論，可以僅使用損壞的圖像來學習無監督網絡，近似于使用成對的噪聲和幹淨圖像學習的監督網絡的最佳參數。這是通過提出一種嘈雜的清潔政策來實作的，該政策将損壞的圖像作為清潔目标，并且基于損壞的圖像作為輸入的模拟噪聲圖像。大量實驗表明，采用我們的Noisy As Clean政策學習的無監督去噪網絡在去除幾種典型的合成噪聲和逼真噪聲方面令人驚訝地優于以前的監督網絡。該代碼将公開釋出。

Multi-task Learning For Detecting and Segmenting Manipulated Facial Images and Videos

Authors Huy H. Nguyen, Fuming Fang, Junichi Yamagishi, Isao Echizen

檢測被操縱的圖像和視訊是數字媒體驗證中的一個重要主題。大多數檢測方法使用二進制分類來确定查詢被操縱的機率。另一個重要的主題是定位操縱區域，即執行分割，其主要由三種常用的攻擊移除，複制移動和拼接建立。我們設計了一個卷積神經網絡，它使用多任務學習方法同時檢測被操縱的圖像和視訊，并為每個查詢定位操縱區域。通過執行一項任務獲得的資訊與另一項任務共享，進而提高兩項任務的性能。半監督學習方法用于改善網絡的可生成性。該網絡包括編碼器和Y形解碼器。編碼特征的激活用于二進制分類。解碼器的一個分支的輸出用于分割操縱區域，而另一個分支的輸出用于重建輸入，這有助于提高整體性能。使用FaceForensics和FaceForensics資料庫的實驗證明了網絡對面部重演攻擊和面部交換攻擊的有效性，以及它處理先前看到的攻擊的不比對條件的能力。此外，僅使用少量資料進行微調就可以使網絡處理看不見的攻擊。

Hierarchical Back Projection Network for Image Super-Resolution

Authors Zhi Song Liu, Li Wen Wang, Chu Tak Li, Wan Chi Siu

基于深度學習的單圖像超分辨率方法使用大量的訓練資料集，并且最近在數量和品質上都取得了很好的品質進展。大多數深度網絡都專注于通過殘差學習從低分辨率輸入到高分辨率輸出的非線性映射，而無需探索特征抽象和分析。我們提出了一種分層反向投影網絡HBPN，它将多個HourGlass HG子產品級聯到所有尺度的自下而上和自上而下的過程特征，以捕獲各種空間相關性，然後整合最佳的重建表示。我們在我們提出的網絡中采用反投影塊來提供誤差相關的上下采樣過程，以取代簡單的反卷積和合并過程，以便更好地進行估計。基于Softmax的新權重重建WR過程用于組合HG子產品的輸出，以進一步提高超分辨率。包括真實圖像超分辨率挑戰的驗證資料集NTIRE2019在内的各種資料集的實驗結果表明，我們提出的方法可以實作并改善不同比例因子的現有技術方法的性能。

NLH: A Blind Pixel-level Non-local Method for Real-world Image Denoising

Authors Yingkun Hou, Jun Xu, Mingxia Liu, Guanghai Liu, Li Liu, Fan Zhu, Ling Shao

非局部自相似性NSS是用于圖像去噪的自然圖像的強大先驗。大多數現有的去噪方法使用類似的更新檔，這是更新檔級NSS先驗。在本文中，我們通過引入像素級NSS先前向前邁出一步，即在非局部區域上搜尋相似像素。這是因為發現密切相似的像素比自然圖像中的類似斑塊更可行，這可以用于增強圖像去噪性能。利用引入的像素級NSS先驗，我們提出了一種精确的噪聲水準估計方法，然後開發了基于提升Haar變換和Wiener濾波技術的盲圖像去噪方法。對基準資料集的實驗表明，所提出的方法在現實世界圖像去噪方面比現有技術方法獲得了更好的性能。代碼将被釋放。

Spatio-Temporal Fusion Networks for Action Recognition

Authors Sangwoo Cho, Hassan Foroosh

基于視訊的CNN工作集中于融合外觀和運動網絡的有效方式，但它們通常缺乏利用視訊幀上的時間資訊。在這項工作中，我們提出了一個新穎的時空融合網絡STFN，它內建了整個視訊的外觀和運動資訊的時間動态。然後聚合捕獲的時間動态資訊以獲得更好的視訊級表示并通過端到端訓練學習。時空融合網絡由兩組殘餘初始塊組成，它們提取時間動态和外觀和運動特征的融合連接配接。 STFN的優勢在于它可以捕獲互補資料的本地和全球時間動态，以學習視訊廣泛的資訊，并且它适用于任何視訊分類網絡以提高性能。我們探索了STFN的各種設計選擇，并驗證了消融研究如何改變網絡性能。我們在兩個具有挑戰性的人類活動資料集UCF101和HMDB51上進行實驗，并通過最佳網絡實作最先進的結果。

A Fusion Adversarial Network for Underwater Image Enhancement

Authors Jingjing Li, Hanyu Li

水下圖像增強算法在水下視覺任務中引起了廣泛關注。然而，這些算法主要在不同的資料集和不同的度量上進行評估。在本文中，我們建立了一個有效的公共水下測試資料集U45，包括水下降水效果的低色度，低對比度和霧霾效應，并提出了一個融合對抗網絡來增強水下圖像。同時，設計了包括Lgt損失和Lfe損失在内的對抗性損失，分别關注地面實況的圖像特征和融合增強方法增強的圖像特征。所提出的網絡有效地校正了色偏，并且用更少的參數擁有更快的測試時間。 U45資料集的實驗結果表明，所提出的方法在定性和定量評估方面實作了比其他現有技術方法更好或相當的性能。此外，消融研究證明了每個元件的貢獻，并且應用測試進一步顯示了增強圖像的有效性。

A Temporal Sequence Learning for Action Recognition and Prediction

Authors Sangwoo Cho, Hassan Foroosh

在這項工作腳注中這項工作部分由國家科學基金會資助IIS 1212948支援。我們提出了一種方法來表示具有一系列單詞的視訊，并學習這些單詞的時間順序作為預測和預測的關鍵資訊。認識到人類行為。我們利用句子分類中使用的自然語言處理NLP文獻中的核心概念來解決動作預測和動作識别的問題。使用Bag of Visual Words BoW編碼方法将每個幀轉換為表示為向量的單詞。然後将這些單詞組合成一個句子來表示視訊，作為一個句子。使用簡單但有效的時間卷積神經網絡CNN來學習不同動作中的單詞序列，其捕獲視訊句子中的資訊的時間順序。我們證明了所提出方法的一個關鍵特征是其低延遲，即其用部分序列句準确預測動作的能力。對兩個資料集（textit UCF101和textit HMDB51）的實驗表明，該方法在視訊幀的一半内平均達到95的精度。結果還表明，除了動作預測之外，我們的方法在動作識别中即在句子完成時實作了相容的現有技術性能。

Three-Dimensional Fourier Scattering Transform and Classification of Hyperspectral Images

Authors Ilya Kavalerov, Weilin Li, Wojciech Czaja, Rama Chellappa

最近的研究已經産生了許多新技術，能夠捕獲高光譜圖像分析的高光譜資料的特殊屬性，高光譜圖像分類是最活躍的任務之一。時頻方法将光譜分解為多光譜帶，而諸如神經網絡的分層方法結合了尺度上的空間資訊并且模拟光譜特征之間的多個依賴性水準。傅立葉散射變換是時間頻率表示與神經網絡架構的融合，最近已經證明這兩者在頻譜空間分類方面提供了顯着的進步。我們在四個标準高光譜資料集上測試所提出的三維傅裡葉散射方法，并且呈現的結果表明，與其他現有技術的光譜空間分類方法相比，傅立葉散射變換在表示光譜資料方面非常有效。

Panoptic Image Annotation with a Collaborative Assistant

Authors Jasper R. R. Uijlings, Mykhaylo Andriluka, Vittorio Ferrari

本文旨在減少為全景分割任務注釋圖像的時間，這需要為所有對象執行個體和填充區域添加分段掩碼和類标簽。我們将我們的方法制定為注釋器和自動化助理代理之間的協作過程，後者輪流使用預定義的段池共同注釋圖像。注釋器執行的動作充當強大的上下文信号。助手通過預測注釋器的未來動作來智能地響應該信号，然後注釋器自己執行。這減少了注釋器所需的工作量。在COCO全景資料集Caesar18cvpr，Kirillov18arxiv，Lin14eccv上的實驗表明，我們的方法比最近的Andriluka18acmmm機器輔助界面快17 27。與傳統的手動多邊形繪圖Russel08ijcv相比，這相當于加速了4倍。

Back-Projection based Fidelity Term for Ill-Posed Linear Inverse Problems

Authors Tom Tirer, Raja Giryes

在許多圖像處理應用中出現了病态的線性逆問題，例如去模糊，超分辨率和壓縮感覺。許多恢複政策涉及最小化成本函數，其由保真度和先前項組成，由正則化參數平衡。雖然大量研究都集中在不同的先驗模型上，但保真度項幾乎總是被選擇為最小二乘LS目标，這鼓勵将線性變換的優化變量拟合到觀察中。在這項工作中，我們研究了一個不同的保真度項，最近提出的疊代去噪和後向投影IDBP架構已經隐含地使用了這個術語。該術語鼓勵優化變量的投影到線性算子的行空間和應用于觀察的線性算子反投影的僞逆之間的一緻。我們分析地檢驗了Tikhonov正則化的兩個保真度項之間的差異，并确定了新術語優于标準LS術語的情況。此外，我們在經驗上證明了複雜凸和非凸先驗的兩個誘導成本函數的行為，例如總變差，BM3D和深度生成模型，與所獲得的理論分析相關。

Floors are Flat: Leveraging Semantics for Real-Time Surface Normal Prediction

Authors Steven Hickson, Karthik Raveendran, Alireza Fathi, Kevin Murphy, Irfan Essa

我們提出了4個有助于顯着改善深度學習模型性能的見解，這些模型可以從單個RGB圖像中預測表面法線和語義标簽。這些見解是訓練集中的地面真實表面法線的1個去噪，以確定與實際和合成資料的混合上同時訓練的語義标簽2的一緻性，而不是在實際3上預處理合成和微調，使用a來共同預測法線和語義。共享模型，但隻有具有有效訓練标簽的像素的反向傳播錯誤4使模型變細并使用灰階而不是顔色輸入。盡管這些步驟非常簡單，但我們使用在标準手機上以12 fps運作的模型，在幾個資料集上展示了持續改進的結果。

On the Self-Similarity of Natural Stochastic Textures

Authors Samah Khawaled, Yehoshua Y. Zeevi

自相似性是分形圖像的本質，是以，表征自然随機紋理。本文關注的是在包含随機紋理和結構主要确定性資訊的完全紋理圖像的情況下統計意義上的自相似性。我們首先将紋理圖像分解為與其紋理和結構相對應的兩層，并且表明表示随機紋理的層的特征在于均勻分布的随機相位，而不是相幹的結構化資訊的相位。通過使用合适的假設檢驗架構來驗證随機相的均勻分布。我們繼續提出兩種評估自相似性的方法。第一種是基于互補資訊的更新檔計算，而第二種是衡量跨尺度存在的互資訊。通過互資訊量化自相似程度對于在醫學成像，地質學，農業和計算機視覺算法中遇到的自然随機紋理的分析是至關重要的，所述自然随機紋理被設計用于在完全紋理圖像上應用。

Defending Against Adversarial Attacks Using Random Forests

Authors Yifan Ding, Liqiang Wang, Huan Zhang, Jinfeng Yi, Deliang Fan, Boqing Gong

随着深度神經網絡DNN變得越來越重要和流行，DNN的穩健性是網際網路和實體世界安全的關鍵。不幸的是，最近的一些研究表明，難以與實際例子差別開來的對抗性例子很容易欺騙DNN并操縱他們的預測。在觀察到對抗性示例主要是通過基于梯度的方法生成時，在本文中，我們首先提出使用一種簡單但非常有效的非可微混合模型，該模型結合了DNN和随機森林，而不是隐藏攻擊者的漸變，以抵禦攻擊。我們的實驗表明，我們的模型可以成功地完全抵禦白盒攻擊，具有較低的可轉移性，并且對三種代表性的黑盒攻擊類型具有很強的抵抗力，同時，我們的模型實作了與原始DNN類似的分類精度。最後，我們調查并建議一個标準來定義在DNN中種植随機森林的位置。

Deep Recurrent Quantization for Generating Sequential Binary Codes

Authors Jingkuan Song, Xiaosu Zhu, Lianli Gao, Xin Shun Xu, Wu Liu, Heng Tao Shen

量化由于其高精度和快速搜尋速度，已成為ANN近似最近鄰搜尋中的有效技術。為了滿足不同應用的要求，在檢索精度和速度之間總是存在折衷，這反映在可變代碼長度上。但是，要将資料集編碼為不同的代碼長度，現有方法需要訓練多個模型，其中每個模型隻能生成特定的代碼長度。這導緻相當大的訓練時間成本，并且在很大程度上降低了在實際應用中部署的量化方法的靈活性。為了解決這個問題，我們提出了一種深度遞歸量化DRQ架構，它可以生成順序二進制碼。最後，當訓練模型時，可以生成一系列二進制代碼，并且可以通過調整循環疊代次數來容易地控制代碼長度。共享碼本和标量因子被設計為深度遞歸量化塊中的可學習權重，并且可以以端到端方式訓練整個架構。據我們所知，這是第一種可以訓練一次并生成順序二進制代碼的量化方法。基準資料集上的實驗結果表明，與圖像檢索的現有技術相比，我們的模型實作了可比較的甚至更好的性能。但它需要的參數和訓練時間明顯減少。我們的代碼線上釋出

Beyond Product Quantization: Deep Progressive Quantization for Image Retrieval

Authors Lianli Gao, Xiaosu Zhu, Jingkuan Song, Zhou Zhao, Heng Tao Shen

産品量化PQ長期以來一直是以非常低的記憶體時間成本生成指數級大型碼本的主流。盡管PQ成功，但對于高維向量空間的分解仍然很棘手，并且當代碼長度改變時，模型的重新訓練通常是不可避免的。在這項工作中，我們提出了深度漸進量化DPQ模型，作為PQ的替代，用于大規模圖像檢索。 DPQ順序學習量化代碼并逐漸逼近原始特征空間。是以，我們可以同時訓練具有不同碼長的量化碼。具體而言，我們首先利用标簽資訊來指導視覺特征的學習，然後應用幾個量化塊逐漸接近視覺特征。每個量化塊被設計為卷積神經網絡的一層，并且整個架構可以以端到端的方式進行訓練。基準資料集上的實驗結果表明，我們的模型明顯優于圖像檢索的最新技術水準。我們的模型針對不同的代碼長度進行一次訓練，是以需要較少的計算時間額外的消融研究證明了我們提出的模型的每個組成部分的效果。我們的代碼釋出于

On training deep networks for satellite image super-resolution

Authors Michal Kawulok, Szymon Piechaczek, Krzysztof Hrynczenko, Pawel Benecki, Daniel Kostrzewa, Jakub Nalepa

近來，通過使用深度卷積神經網絡，顯着改善了用于增強圖像空間分辨率的超分辨率重建SRR技術的能力。通常，這種網絡是使用由原始圖像組成的大型訓練集以及它們的低分辨率對應物來學習的，這些訓練集通過雙三次下采樣獲得。在本文中，我們研究了SRR性能如何受到獲得這種低分辨率訓練資料的方式的影響，這種資料尚未被研究過。我們廣泛的實驗研究表明，訓練資料特征對重建精度有很大影響，廣泛采用的方法對于處理衛星圖像并不是最有效的。總的來說，我們認為開發更好的教育訓練資料準備程式可能是使SRR适合現實世界應用的關鍵。

Learning Part Generation and Assembly for Structure-aware Shape Synthesis

Authors Jun Li, Chengjie Niu, Kai Xu

學習用于3D形狀合成的深度生成模型在很大程度上受到難以生成具有正确拓撲和合理幾何形狀的合理形狀的限制。實際上，即使在相同的形狀類别中，考慮到3D物體的顯着拓撲變化，學習似乎合理的3D形狀的分布對于大多數現有的，結構遺忘形狀表示來說似乎是艱巨的任務。基于三維形狀分析的共識，形狀結構被定義為零件組成和零件之間的互相關系，我們建議使用深度生成網絡（部分意識和關系意識）對3D形狀變化進行模組化，命名為PARANet。網絡由每個部分的VAE GAN陣列組成，生成構成完整形狀的語義部分，然後是部件組裝子產品，其估計每個部件的變換以将它們關聯并組裝成合理的結構。通過将零件組成和零件關系的生成分成單獨的網絡，大大減少了對三維形狀的結構變化進行模組化的難度。我們通過大量實驗證明，PARANet生成具有合理，多樣和詳細結構的3D形狀，并展示了兩種原型應用的語義形狀分割和形狀集演化。

STAR: A Structure and Texture Aware Retinex Model

Authors Jun Xu, Mengyang Yu, Li Liu, Fan Zhu, Dongwei Ren, Yingkun Hou, Haoqian Wang, Ling Shao

Retinex理論主要是通過分析局部圖像導數将圖像分解為光照和反射分量。在該理論中，較大的導數歸因于分段恒定反射率的變化，而較小的導數出現在平滑照明中。在本文中，我們建議利用帶有觀測圖像的指數伽馬的指數導數，當用γ1放大時産生結構圖，當用γ1收縮時産生紋理圖。為此，我們設計了局部導數的指數濾波器，并展示了它們提取精确結構和紋理圖的能力，受到局部導數上指數γ選擇的影響。提取的結構和紋理圖用于調整Retinex分解中的照明和反射分量。還提出了一種新穎的結構和紋理感覺Retinex STAR模型，用于單個圖像的照射和反射分解。我們以交替最小化的方式解決STAR模型。每個子問題都轉換為帶有閉合形式解的矢量化最小二乘回歸。綜合實驗表明，與先前的競争方法相比，所提出的STAR模型在照明和反射率估計，低光圖像增強和顔色校正方面産生更好的定量和定性性能。該代碼将公開釋出。

Mixture separability loss in a deep convolutional network for image classification

Authors Trung Dung Do, Cheng Bin Jin, Hakil Kim, Van Huan Nguyen

在機器學習中，成本函數至關重要，因為它衡量系統的好壞。在圖像分類中，衆所周知的網絡僅考慮修改網絡結構并在網絡末端應用交叉熵損失。然而，僅使用交叉熵損失導緻網絡在所有訓練圖像被正确分類時停止更新權重。這是早期飽和的問題。本文提出了一種新的成本函數，稱為混合分離性損失MSL，即使在大多數訓練圖像被準确預測時，它也會更新網絡的權重。 MSL由班級和班級損失組成。在類丢失之間最大化類間圖像之間的差異，而在類丢失内最小化類内圖像之間的相似性。我們設計了所提出的損失函數以附加到網絡中的不同卷積層，以便利用中間特征映射。實驗表明，具有MSL的網絡加深了學習過程，并通過一些公共資料集獲得了有希望的結果，例如Street View House Number SVHN，加拿大進階研究CIFAR研究所和我們自己收集的Inha計算機視覺實驗室ICVL性别資料集。

Image Captioning with Integrated Bottom-Up and Multi-level Residual Top-Down Attention for Game Scene Understanding

Authors Jian Zheng, Sudha Krishnamurthy, Ruxin Chen, Min Hung Chen, Zhenhao Ge, Xiaohua Li

近年來，圖像字幕引起了相當多的關注。然而，對于具有一些獨特特征和要求的遊戲圖像字幕的工作很少。在這項工作中，我們提出了一種新穎的遊戲圖像字幕模型，它将自下而上的注意力與新的多級殘留自上而下的注意機制相結合。首先，将較低級别的殘留自上而下注意網絡添加到基于快速R CNN的自下而上注意網絡，以解決後者在提取區域特征時可能丢失重要空間資訊的問題。其次，在字幕生成網絡中實作上層殘留自上而下注意網絡，以更好地融合所提取的區域特征以用于後續字幕預測。我們建立了兩個遊戲資料集來評估所提出的模型。大量實驗表明，我們提出的模型優于現有的基線模型。

Uncovering Why Deep Neural Networks Lack Robustness: Representation Metrics that Link to Adversarial Attacks

Authors Danilo Vasconcellos Vargas, Shashank Kotyan, Moe Matsuki

神經網絡已被證明易受對抗樣本的影響。略微擾動的輸入圖像能夠改變準确模型的分類，表明所學習的表示不如以前好

REMAP: Multi-layer entropy-guided pooling of dense CNN features for image retrieval

Authors Syed Sameed Husain, Miroslaw Bober

本文讨論了大規模圖像檢索的問題，着重于提高其準确性和魯棒性。我們将搜尋的增強穩健性定位到諸如照明變化，對象外觀和比例，部分遮擋以及雜亂背景等因素，這些因素在具有顯着可變性的非常大的資料集上執行搜尋時尤為重要。我們提出了一種新的基于CNN的全局描述符，稱為REMAP，它學習并聚合來自多個CNN層的深層特征的層次結構，并且以三元組丢失進行端到端訓練。 REMAP明确地學習了在視覺抽象的各種語義層面上互相支援和互補的判别特征。在聚合成單個圖像級别描述符之前，這些密集的局部特征在多層重疊區域内的每一層在空間上最大地彙集。為了識别用于檢索的語義上有用的區域和層，我們建議使用KL散度來測量每個區域和層的資訊增益。我們的系統在教育訓練期間有效地學習各種區域和層的有用性并相應地權重。我們證明這種相對熵引導的聚合優于由SGD控制的經典的基于CNN的聚合。整個架構以端到端的方式進行教育訓練，優于最新的最新技術成果。在圖像檢索資料集Holidays，Oxford和MPEG上，REMAP描述符分别達到95.5,91.5和80.1的mAP，優于迄今釋出的任何結果。 REMAP還成為了Kaggle Google Landmark Retrieval Challenge的獲獎送出的核心。

DeepMOT: A Differentiable Framework for Training Multiple Object Trackers

Authors Yihong Xu, Yutong Ban, Xavier Alameda Pineda, Radu Horaud

多目标跟蹤精度和精度MOTA和MOTP是評估多個目标跟蹤器品質的兩個标準和廣泛使用的名額。它們專門用于編碼跟蹤多個對象的挑戰和困難。基于MOTA和MOTP直接優化跟蹤器是很困難的，因為這兩個名額都非常依賴匈牙利算法，這是不可微分的。我們為MOTA和MOTP提出了一個可微分的代理，進而允許通過直接優化标準MOT度量的代理來訓練深度多目标跟蹤器。所提出的近似是基于雙向遞歸網絡，其将對象輸入到假設距離矩陣并将最優假設輸出到對象關聯，進而模拟匈牙利算法。在可微分子產品之後，估計的關聯用于計算MOTA和MOTP。實驗研究證明了這種可區分架構對兩個最近的深度跟蹤器相對于MOT17資料集的好處。此外，該代碼可從公開獲得

IMP: Instance Mask Projection for High Accuracy Semantic Segmentation of Things

Authors Cheng Yang Fu, Tamara L. Berg, Alexander C. Berg

在這項工作中，我們提出了一個名為Instance Mask Projection IMP的新算子，它将預測的執行個體分割作為語義分割的新特征。它還支援反向傳播，是以可以端到端訓練。我們的實驗顯示了IMP對具有複雜分層，大變形和非凸對象的服裝解析以及具有許多重疊執行個體和小對象的街道場景分割的有效性。在各種服裝解析資料集VCP上，我們展示了執行個體掩模投影可以通過最先進的Panoptic FPN分割方法在mIOU上提高3個點。在ModaNet服裝解析資料集上，與現有的基線語義分割結果相比，我們顯示出絕對的20.4的顯着改進。此外，執行個體蒙版投影算子在其他非服裝資料集上運作良好，在城市景觀的Thing類上提供了3個點的改進，這是一種自驅動資料集，基于最先進的方法。

EXTD: Extremely Tiny Face Detector via Iterative Filter Reuse

Authors YoungJoon Yoo, Dongyoon Han, Sangdoo Yun

在本文中，我們提出了一種新的多尺度人臉檢測器，它具有極少數參數EXTD，小于10萬，并且具有與深重探測器相當的性能。雖然現有的多尺度人臉檢測器從單個骨幹網絡中提取具有不同尺度的特征圖，但是我們的方法通過疊代地重用共享的輕量級和淺層骨幹網來生成特征圖。骨幹網絡的這種疊代共享顯着減少了參數的數量，并且還提供了從網絡層的較進階捕獲到較低級别的特征映射的抽象圖像語義。所提出的想法被各種模型架構采用并通過大量實驗進行評估。通過WIDER FACE資料集的實驗，我們證明了所提出的人臉探測器可以處理具有不同尺度和條件的面，并且實作了與更大品質的面部探測器相當的性能，這些探測器在模型尺寸和浮點操作中重量隻有幾百倍和幾十倍。

Single Image Super-resolution via Dense Blended Attention Generative Adversarial Network for Clinical Diagnosis

Authors Kewen Liu, Yuan Ma, Hongxia Xiong, Zejun Yan, Zhijun Zhou, Chaoyang Liu, Panpan Fang, Xiaojun Li, Yalei Chen

在臨床診斷中，醫生能夠在高分辨率HR醫學圖像的幫助下更清晰地看到生物組織和早期病變，這對提高診斷準确性至關重要。為了解決醫學圖像由于缺乏高頻細節而導緻嚴重模糊的問題，本文通過密集神經網絡和混合注意機制開發了一種新的圖像超分辨率SR算法SR DBAN。具體地，提出了一種新的混合注意塊并将其引入到密集神經網絡DenseNet中，使得神經網絡可以自适應地将更多的注意力集中在具有足夠高頻細節的區域和信道上。在SR DBAN的架構中，原始DenseNet中的批量标準化層被移除以避免高頻紋理細節的丢失，最終的HR圖像通過網絡的最末端的解卷積獲得。此外，受生成對抗網絡令人印象深刻的表現的啟發，本文通過密集的混合注意生成對抗網絡開發了一種名為SR DBAGAN的新型圖像SR算法。 SR DBAGAN包括一個生成器和一個鑒别器，生成器使用我們提出的SR DBAN生成HR圖像并試圖欺騙鑒别器，同時基于Wasserstein GAN WGAN設計鑒别器來區分。我們在模糊的前列腺MRI圖像上部署了我們的算法，實驗結果表明，與主流插值相比，我們提出的算法産生了相當大的清晰度和紋理細節，并且分别在峰值信噪比PSNR和結構相似性指數SSIM上有顯着改善。基于深度學習的圖像SR算法，充分證明了我們提出的算法的有效性和優越性。

Mask Based Unsupervised Content Transfer

Authors Ron Mokady, Sagie Benaim, Lior Wolf, Amit Bermano

我們考慮以無人監督的方式在兩個域之間進行翻譯的問題，其中一個域包含一些與另一個相比的附加資訊。所提出的方法解開了這些域的共同和獨立部分，并且通過生成掩模，将底層網絡的注意力集中在期望的增強上，而不會浪費地重建整個目标。這通過廣泛的定量和定性評估顯示了現有技術的品質和各種内容翻譯。此外，基于掩模的新穎公式和正則化足夠精确以在弱監督分割領域中實作現有技術性能，其中僅給出類别标簽。據我們所知，這是第一個解決域解除問題和弱監督分割問題的報告。我們的代碼是公開的

Image-based 3D Object Reconstruction: State-of-the-Art and Trends in the Deep Learning Era

Authors Xian Feng Han, Hamid Laga, Mohammed Bennamoun

3D重建是一個長期存在的不良問題，數十年來一直由計算機視覺，計算機圖形學和機器學習社群進行探索。自2015年以來，使用卷積神經網絡CNN的基于圖像的3D重建已引起越來越多的關注并且表現出令人印象深刻的性能。鑒于這個快速發展的新時代，本文對該領域的最新發展進行了全面的調查。我們專注于使用深度學習技術從單個或多個RGB圖像估計通用對象的3D形狀的工作。我們根據形狀表示，網絡架構和他們使用的教育訓練機制組織文獻。雖然本調查旨在用于重建通用對象的方法，但我們還回顧了一些最近的工作，這些工作主要關注特定的對象類，如人體形狀和面部。我們對一些重要論文的表現進行了分析和比較，總結了該領域的一些開放性問題，并讨論了未來研究的有希望的方向。

MV-C3D: A Spatial Correlated Multi-View 3D Convolutional Neural Networks

Authors Qi Xuan, Fuxian Li, Yi Liu, Yun Xiang

随着深度神經網絡的發展，3D對象識别在計算機視覺領域越來越受歡迎。提出了許多基于多視圖的方法來提高類别識别準确度。這些方法主要依賴于以整個圓周渲染的多視圖圖像。然而，在現實世界的應用中，3D對象主要是在較小範圍内的部分視點中觀察到的。是以，我們提出了一種基于多視圖的3D卷積神經網絡，其僅将連續多視圖圖像的一部分作為輸入并且仍然可以保持高精度。此外，我們的模型将這些視圖圖像作為聯合變量，以使用3D卷積和3D最大池化層更好地學習空間相關特征。 ModelNet10和ModelNet40資料集上的實驗結果表明，我們的MV C3D技術可以在多視圖圖像中實作出色的性能，這些圖像是從具有較小範圍的部分角度捕獲的。 3D旋轉真實圖像資料集MIRO的結果進一步證明了MV C3D在現實世界場景中更具适應性。随着觀看圖像數量的增加，可以進一步提高分類精度。

Delving into 3D Action Anticipation from Streaming Videos

Authors Hongsong Wang, Jiashi Feng

旨在通過部分觀察來識别行動的行動預期由于廣泛的應用而變得越來越流行。在本文中，我們研究了流媒體視訊中3D動作預期的問題，目的是了解解決此問題的最佳實踐。我們首先介紹幾種互補的評估名額，并提出基于架構動作分類的基本模型。為了獲得更好的性能，我們接着研究了兩個重要因素，即訓練剪輯的長度和剪輯采樣方法。我們還通過從完整動作表示和類不可知動作标簽兩個方面合并輔助資訊來探索多任務學習政策。我們的綜合實驗揭示了3D動作預測的最佳實踐，是以我們提出了一種具有多任務丢失的新方法。所提出的方法明顯優于最近的方法，并且在标準基準上展示了現有技術的性能。

VRED: A Position-Velocity Recurrent Encoder-Decoder for Human Motion Prediction

Authors Hongsong Wang, Jiashi Feng

人體運動預測，旨在預測過去姿勢的未來人體姿勢，最近看到了更多的興趣。許多最近的方法基于遞歸神經網絡RNN，其使用指數圖來模拟人類姿勢。這些方法忽略了姿勢速度以及不同姿勢的時間關系，并傾向于收斂到平均姿勢或者不能産生自然的姿勢。是以，我們提出了一種用于人體運動預測的新型位置速度遞歸編碼器解碼器PVRED，其充分利用姿勢速度和時間位置資訊。提出了一種時間位置嵌入方法，并提出了位置速度RNN PVRNN。我們還強調姿勢的四元數參數化的好處，并設計了一個新的可訓練的四元數變換QT層，它與訓練期間的魯棒損失函數相結合。對兩個人體運動預測基準的實驗表明，我們的方法明顯優于短期預測和長期預測的現有技術方法。特别是，我們提出的方法可以在4000毫秒内預測未來的人類喜歡和有意義的姿勢。

Improving temporal action proposal generation by using high performance computing

Authors Tian Wang, Shiye Lei, Youyou Jiang, Zihang Deng, Xin Su, Hichem Snoussi, Chang Choi

提出時間行動建議是計算機視覺中一個重要且具有挑戰性的問題。該任務面臨的最大挑戰是生成具有精确時間邊界的提案。為了解決這些困難，我們改進了基于邊界敏感網絡的算法。今天流行的時間卷積網絡忽略了單個視訊特征向量的原始含義。我們提出了一種新的時間卷積網絡，稱為Multipath Temporal ConvNet MTN，它由兩部分組成，即Multipath DenseNet和SE ConvNet，可以從視訊資料庫中提取更多有用的資訊。此外，為了響應大容量存儲和大量視訊，我們放棄了傳統的參數伺服器并行體系結構，并将高性能計算引入到時間動作提議生成中。為實作這一目标，我們通過按摩傳遞接口MPI實作環形并行架構，作用于我們的方法。與參數伺服器架構相比，我們的并行架構在具有多個GPU的時間動作檢測任務上具有更高的效率，這對于處理大規模視訊資料庫具有重要意義。我們在ActivityNet 1.3和THUMOS14上進行實驗，其中我們的方法優于其他具有高召回率和高時間精度的現有技術時間動作檢測方法。

RECAL: Reuse of Established CNN classifer Apropos unsupervised Learning paradigm

Authors Jayasree Saha, Jayanta Mukhopadhyay

最近，深度網絡架構聚類引起了計算機視覺界的一些研究人員的關注。深度架構因其對大規模和高維資料的效率和可擴充性而受到廣泛關注。在本文中，我們将監督的CNN分類器架構轉換為無監督的聚類模型，稱為RECAL，它共同學習判别嵌入子空間和聚類标簽。 RECAL由卷積的特征提取層組成，接着是完全連接配接的無監督分類器層。在分類器層之上堆疊的多項邏輯回歸函數softmax。我們使用随機梯度下降SGD優化器訓練此網絡。然而，我們模型的成功實施圍繞着損失函數的設計。我們的損失函數使用啟發式算法，假設類分布沒有嚴重偏差，真正的分區需要較低的熵。這是偏态分布和低熵的情況之間的權衡。為了解決這個問題，我們提出了分類熵和類熵，它們是我們損失函數的兩個組成部分。在這種方法中，小批量的大小應該保持很高。實驗結果表明我們的模型用于聚類衆所周知的數字，多視角對象和面部資料集的一緻和競争行為。更重要的是，我們使用該模型為多光譜LISS IV圖像生成無監督的斑塊分割。我們觀察到它能夠将建築區域，濕地，植被和水體與下面的場景區分開來。

***Efficient Neural Network Approaches for Leather Defect Classification

Authors Sze Teng Liong, Y.S. Gan, Kun Hong Liu, Tran Quang Binh, Cong Tue Le, Chien An Wu, Cheng Yan Yang, Yen Chang Huang

真皮，如牛，鳄魚，蜥蜴和山羊的皮革通常含有天然和人工缺陷，如洞，叮咬，蜱痕，紋理，割傷，皺紋等。識别缺陷的傳統解決方案是通過手動缺陷檢查，其涉及熟練的專家。這是耗時的并且可能導緻高錯誤率并導緻低生産率。本文提出了一系列自動圖像處理過程，通過采用深度學習方法對皮革缺陷進行分類。特别地，皮革圖像首先被劃分為小塊，然後它經曆預處理技術，即Canny邊緣檢測以增強缺陷可視化。接下來，采用人工神經網絡ANN和卷積神經網絡CNN來提取豐富的圖像特征。獲得的最佳分類結果是80.3，在由2000個樣本組成的資料集上進行評估。此外，報告了諸如混淆矩陣和接收器操作特性ROC的性能度量以證明所提出的方法的效率。

Detecting Bias with Generative Counterfactual Face Attribute Augmentation

Authors Emily Denton, Ben Hutchinson, Margaret Mitchell, Timnit Gebru

我們引入了一個簡單的架構來識别微笑屬性分類器的偏差。我們的方法提出了形式的反事實問題，如果這個面部特征不同，預測會如何變化我們利用生成對抗網絡的最新進展來建構面部圖像的真實生成模型，其提供對特定圖像特征的受控操縱。我們引入了一組度量，用于衡量操作圖像的特定屬性對訓練分類器輸出的影響。根據經驗，我們确定了幾種不同的變異因素，這些因素會影響在CelebA訓練的微笑分類器的預測。

Fixing the train-test resolution discrepancy

Authors Hugo Touvron, Andrea Vedaldi, Matthijs Douze, Herv J gou

資料增強是用于圖像分類的神經網絡訓練的關鍵。本文首先表明，現有的增強會導緻分類器在列車和測試時看到的物體的典型尺寸之間存在顯着差異。我們通過實驗驗證，對于目标測試分辨率，使用較低的列車分辨率可在測試時提供更好的分類。

Instance Segmentation with Point Supervision

Authors Issam H. Laradji, Negar Rostamzadeh, Pedro O. Pinheiro, David Vazquez, Mark Schmidt

執行個體分割方法通常需要昂貴的每像素标簽。我們提出了一種隻需要點級注釋的方法。在訓練期間，模型隻能通路每個對象的單個像素标簽，但任務是輸出完整的分割蒙版。為了應對這一挑戰，我們建構了一個具有兩個分支的網絡1，一個預測每個對象位置的定位網絡L Net和一個嵌入網絡E Net，用于學習同一個對象的像素接近的嵌入空間。通過對具有相似嵌入的像素進行分組來獲得所定位對象的分割掩模。在訓練時，雖然L Net僅需要點級注釋，但E Net使用由類不可知對象提議方法生成的僞标簽。我們評估了我們對PASCAL VOC，COCO，KITTI和CityScapes資料集的方法。實驗表明，在某些情景中，與完全監督方法相比，我們的方法1獲得了競争結果.2具有固定注釋預算的完全和弱監督方法，3是具有點級監督的執行個體分割的第一強基線。

Realistic Speech-Driven Facial Animation with GANs

Authors Konstantinos Vougioukas, Stavros Petridis, Maja Pantic

語音驅動的面部動畫是基于語音信号自動合成說話人物的過程。此域中的大多數工作都會建立從音頻功能到視覺功能的映射。這種方法通常需要使用計算機圖形技術進行後處理，以産生盡管依賴于主體的現實結果。我們提出了一種端到端系統，它隻使用人的靜止圖像和包含語音的音頻剪輯生成會話頭的視訊，而不依賴于手工制作的中間特征。我們的方法生成的視訊具有與音頻同步的唇部動作和b自然的面部表情，例如眨眼和眉毛動作。我們的時間GAN使用3個鑒别器，專注于實作詳細的幀，視聽同步和逼真的表達。我們使用消融研究量化了我們模型中每個元件的貢獻，并且我們提供了對模型潛在表示的見解。生成的視訊基于清晰度，重建品質，唇讀精度，同步以及它們産生自然眨眼的能力來評估。

DeepTemporalSeg: Temporally Consistent Semantic Segmentation of 3D LiDAR Scans

Authors Ayush Dewan, Wolfram Burgard

了解環境的語義特征是自主機器人操作的關鍵推動因素。在本文中，我們提出了一種深度卷積神經網絡DCNN，用于将LiDAR掃描的語義分段分類為汽車，行人或騎車人。該架構基于密集塊并有效地利用深度可分離卷積來限制參數的數量，同時仍保持最先進的性能。為了使DCNN的預測在時間上一緻，我們提出了一種基于貝葉斯濾波器的方法。該方法使用來自神經網絡的預測來遞歸地估計掃描中的點的目前語義狀态。該遞歸估計使用從先前掃描獲得的知識，進而使得預測在時間上一緻并且對于孤立的錯誤預測是魯棒的。我們将我們提出的架構的性能與其他最先進的神經網絡架構進行比較，并報告實質性的改進。對于建議的貝葉斯濾波器方法，我們在KITTI跟蹤基準測試中顯示各種序列的結果。

Improving Black-box Adversarial Attacks with a Transfer-based Prior

Authors Shuyu Cheng, Yinpeng Dong, Tianyu Pang, Hang Su, Jun Zhu

我們考慮黑匣子對抗性設定，其中對手必須産生對抗性擾動而無需通路目标模型來計算梯度。以前的方法試圖通過使用代理白盒模型的轉移梯度或基于查詢回報來近似梯度。然而，這些方法經常遭受低攻擊成功率或低查詢效率，因為用有限資訊估計高維空間中的梯度是非常重要的。為了解決這些問題，我們提出了一種先驗引導的随機梯度自由P RGF方法來改進黑盒對抗性攻擊，它同時利用了基于傳遞的先驗和查詢資訊的優勢。由替代模型的梯度給出的基于先驗的轉移通過理論分析導出的最優系數适當地整合到我們的算法中。大量實驗表明，與替代的現有技術方法相比，我們的方法需要更少的查詢來攻擊具有更高成功率的黑盒模型。

Differentiated Backprojection Domain Deep Learning for Conebeam Artifact Removal

Authors Yoseob Han, Junyoung Kim, Jong Chul Ye

使用圓形軌迹的Conebeam CT由于其相對簡單的幾何形狀而經常用于各種應用。對于錐束幾何，Feldkamp，Davis和Kress算法被認為是标準重建方法，但是随着錐角增加，該算法遭受所謂的錐束僞影。已經開發了各種基于模型的疊代重建方法來減少錐束僞影，但是這些算法通常需要計算昂貴的前向和後向投影的多種應用。在本文中，我們開發了一種新穎的深度學習方法，用于精确的錐束僞影去除。特别地，我們在差分反投影域上設計的深度網絡執行與希爾伯特變換相關的病态反卷積問題的資料驅動反演。然後使用光譜混合技術将沿冠狀和矢狀方向的重建結果組合以最小化光譜洩漏。實驗結果表明，盡管運作時複雜度顯着降低，但我們的方法優于現有的疊代方法。

Sample-Efficient Neural Architecture Search by Learning Action Space

Authors Linnan Wang, Saining Xie, Teng Li, Rodrigo Fonseca, Yuandong Tian

神經架構搜尋NAS已經成為一種有前途的自動神經網絡設計技術。然而，現有的NAS方法通常利用手動設計的動作空間，其與要優化的性能度量（例如，準确性）不直接相關。是以，使用手動設計的動作空間來執行NAS通常會導緻樣本低效的體系結構探索，是以可能是次優的。為了提高樣本效率，本文提出潛在行為神經架構搜尋LaNAS，其學習動作空間以遞歸地将架構搜尋空間劃分為區域，每個區域具有集中的性能度量，即低方差。在搜尋階段，由于不同的體系結構搜尋動作序列導緻不同性能的區域，是以通過偏向具有良好性能的區域可以顯着提高搜尋效率。在最大的NAS資料集NasBench 101上，我們的實驗結果表明，LaNAS分别比随機搜尋，正則化演化和蒙特卡羅樹搜尋MCTS的樣本效率高22倍，14.6倍和12.4倍。當應用于開放域時，LaNAS發現一種體系結構，在僅探索6,000種體系結構後，在ImageNet移動設定上實作了CIFAR 10上的SoTA 98.0準确度和75.0 top1準确度。

***Stacked Capsule Autoencoders

Authors Adam R. Kosiorek, Sara Sabour, Yee Whye Teh, Geoffrey E. Hinton

可以将對象看作幾何組織的互相關聯的部分。明确使用這些幾何關系來識别物體的系統對于視點的變化應該是自然穩健的，因為内在的幾何關系是視點不變的。我們描述了一種無監督的膠囊網絡版本，其中一個神經編碼器，用于檢視所有部分，用于推斷物體膠囊的存在和姿勢。編碼器通過反向傳播通過解碼器進行訓練，該解碼器使用姿勢預測的混合來預測每個已經發現的部分的姿勢。通過使用神經編碼器以類似的方式直接從圖像中發現這些部分，所述神經編碼器推斷出部分及其仿射變換。相應的解碼器将每個圖像像素模組化為由仿射變換部分做出的預測的混合。我們在未标記的資料上學習對象及其部分膠囊，然後聚集對象膠囊存在的向量。當告訴這些星團的名稱時，我們在MNHN 98.5上對SVHN 55和近現有技術的無監督分類實作了最先進的結果。

Providentia -- A Large Scale Sensing System for the Assistance of Autonomous Vehicles

Authors Annkathrin Kr mmer, Christoph Sch ller, Dhiraj Gulati, Alois Knoll

自動駕駛車輛的環境感覺不僅受到實體傳感器範圍和算法性能的限制，而且遮擋也會降低他們對目前交通狀況的了解。這對安全構成了巨大的威脅，限制了他們的行駛速度，并且可能導緻不友善的操作，進而降低他們的接受度。智能交通系統可以幫助緩解這些問題。通過以自己的世界的數字模型（即數字雙胞胎）的形式向自動駕駛車輛提供關于目前交通的附加詳細資訊，智能交通系統可以填補車輛感覺的空白并增強其視野。然而，較長的描述這種系統的實作和工作原型證明其可行性是稀缺的。在這項工作中，我們提出了一個硬體和軟體架構來建構這樣一個可靠的智能交通系統。我們已經在現實世界中實作了這個系統，并表明它能夠建立一個精确的數字雙胞胎，延伸的公路伸展。此外，我們将這款數字雙胞胎提供給自動駕駛汽車，并展示它如何将車輛的感覺擴充到其車載傳感器的極限之外。

A tunable multiresolution smoother for scattered data with application to particle filtering

Authors Gregor A. Robinson, Ian G. Grooms

提出了一種平滑算法，其可以減少在空間擴充域中的分散位置處觀察到的資料的小規模内容。更平滑的工作方式是通過形成輸入資料的高斯插值，然後将插值與格林函數的多分辨率高斯近似卷積到差分算子，差分算子的頻譜可以針對特定問題考慮進行調整。這種更平滑的方法是針對其在粒子濾波中的潛在應用而開發的，粒子濾波通常涉及散布在空間域上的資料，因為使用更平滑的預處理觀察減少了避免粒子濾波器坍塌所需的整體尺寸。一個關于氣象資料的例子證明我們的平滑器可以改善粒子濾波器重量的平衡。

Model Compression by Entropy Penalized Reparameterization

Authors Deniz Oktay, Johannes Ball , Saurabh Singh, Abhinav Shrivastava

我們描述了端到端神經網絡權重壓縮方法，該方法從最近的潛在可變資料壓縮方法中汲取靈感。網絡參數權重和偏差在潛在空間中表示，相當于重新參數化。該空間配備有學習機率模型，其用于在訓練期間對參數表示施加熵懲罰，并且在訓練之後使用算術編碼來壓縮表示。是以，我們以端到端的方式聯合最大化準确性和模型壓縮性，其中由超參數指定的速率誤差權衡。我們通過在MNIST，CIFAR 10和ImageNet分類基準上壓縮六種不同的模型架構來評估我們的方法。我們的方法在VGG 16，LeNet300 100和幾種ResNet架構上實作了最先進的壓縮，并且在LeNet 5上具有競争力。

Joint Visual-Textual Embedding for Multimodal Style Search

Authors Gil Sadeh, Lior Fritz, Gabi Shalev, Eduard Oks

我們介紹了一種用于時裝的多模式視覺文本搜尋細化方法。現有搜尋引擎不能基于特定産品的屬性實作檢索結果的直覺，互動，細化。我們提出了一種基于查詢項目圖像和文本細化屬性來檢索類似項目的方法。我們相信這種方法可以用來解決許多現實生活中的客戶場景，其中需要不同顔色，圖案，長度或樣式的類似項目。我們采用聯合嵌入式教育訓練方案，其中産品圖像及其目錄文本中繼資料在共享空間中緊密映射。這種聯合視覺文本嵌入空間使得能夠基于文本細化要求在語義上操縱目錄圖像。我們提出了一種新的訓練目标函數，迷你批量比對檢索，并證明其優于常用的三聯體損失。此外，我們展示了添加屬性提取子產品的可行性，該子產品在相同的目錄資料上進行了教育訓練，并示範了如何将其內建到多模式搜尋中以提高其性能。我們引入了一個帶有相關基準的評估協定，并比較了幾種方法。

Generating Diverse and Informative Natural Language Fashion Feedback

Authors Gil Sadeh, Lior Fritz, Gabi Shalev, Eduard Oks

多模态視覺和語言任務的最新進展使一組新的應用成為可能。在本文中，我們考慮在裝備圖像上生成自然語言時尚回報的任務。我們收集一個獨特的資料集，其中包含裝備圖像和相應的積極和建設性的時尚回報。我們分别處理每種回報類型，并用視覺注意訓練深度生成編碼器解碼器模型，類似于标準圖像字幕管道。按照這種方法，生成的句子往往過于籠統而且沒有資訊。我們提出了一種基于最大互資訊目标函數的替代解碼技術，該技術可以産生更多樣化和詳細的響應。我們使用通用語言名額評估我們的模型，并顯示人類評估結果。這項技術應用于Alexa，我如何看待Echo Look裝置中公開提供的功能。

4D X-Ray CT Reconstruction using Multi-Slice Fusion

Authors Soumendu Majee, Thilo Balke, Craig A. J. Kemp, Gregery T. Buzzard, Charles A. Bouman

越來越需要在對應于空間，時間和其他獨立參數的四維或更多元中重建對象。最好的4D重建算法使用正則化疊代重建方法，例如基于模型的疊代重建MBIR，其主要取決于先前模組化的品質。最近，已經證明即插即用方法是使用設計用于去除加性高斯白噪聲AWGN的現有技術去噪算法來結合先進的先前模型的有效方式。然而，諸如BM4D和深度卷積神經網絡CNN的現有技術去噪算法主要可用于2D和有時3D圖像。特别地，CNN在四維或更多元中實作是困難且計算上昂貴的，并且如果沒有相關聯的高維訓練資料則訓練可能是不可能的。

***A Statistical View on Synthetic Aperture Imaging for Occlusion Removal

Authors Indrajit Kurmi, David C. Schedl, Oliver Bimber

合成孔徑可用于許多領域，例如雷達，射電望遠鏡，顯微鏡，聲納，超音波，雷射雷達和光學成像。它們接近單個假想的寬孔徑傳感器的信号，該傳感器具有靜态小孔徑傳感器陣列或單個移動小孔徑傳感器。合成孔徑采樣中的常識是需要在寬孔徑内的密集采樣圖案來重建清晰信号。在本文中，我們表明合成孔徑尺寸和應用遮擋去除的樣品數量都存在實際限制。這導緻了解如何以最佳和實用有效的方式設計合成孔徑采樣模式和傳感器。我們将我們的發現應用于機載光學切片，該切片使用相機無人機和合成孔徑成像來計算地去除遮擋植被或樹木以檢查地面。

Speeding up VP9 Intra Encoder with Hierarchical Deep Learning Based Partition Prediction

Authors Somdyuti Paul, Andrey Norkin, Alan C. Bovik

在VP9視訊編解碼器中，通過使用速率失真優化RDO遞歸地劃分64次64個超級塊來在編碼期間确定塊的大小。由于超級塊的可能分區的組合搜尋空間，該過程是計算密集的。在這裡，我們提出了一種基于深度學習的替代架構，使用分層完全卷積網絡H FCN以四級分區樹的形式預測幀内模式超級塊分區。我們建立了一個大型的VP9超級塊資料庫和相應的分區來訓練H FCN模型，該模型随後與VP9編碼器內建以減少幀内模式編碼時間。實驗結果表明，我們的方法平均加速幀内模式編碼69.7，代價是Bjontegaard Delta比特率BD率增加1.71。雖然VP9提供了幾種内置速度級别，旨在以降低速率失真性能為代價提供更快的編碼，但我們發現我們的模型能夠勝過參考VP9編碼器的最快建議速度級别，以實作高品質的幀内編碼配置，就加速和BD率而言。

Multi-Adversarial Variational Autoencoder Networks

Authors Abdullah Al Zubaer Imran, Demetri Terzopoulos

GAN和VAE的無監督訓練使他們能夠生成模拟真實世界分布的真實圖像，并執行基于圖像的無監督聚類或半監督分類。結合這兩種生成模型的強大功能，我們引入了多對抗變化自動編碼器網絡MAVEN，這是一種新穎的網絡架構，在VAE GAN網絡中內建了一組鑒别器，同時具有對抗性學習和變分推理。我們将MAVEN應用于合成圖像的生成，并提出一種新的分布測量來量化生成的圖像的品質。我們使用來自計算機視覺和醫學成像領域的資料集的實驗結果街景房号，CIFAR 10和胸部X射線資料集證明了在圖像生成和分類任務中對現有技術的半監督模型的競争性能。

***Time warping invariants of multidimensional time series

Authors Joscha Diehl, Kurusch Ebrahimi Fard, Nikolas Tapia

在資料科學中，人們經常面對代表某些興趣量的測量的時間序列。通常，在第一步中，需要提取時間序列的特征。這些數字量旨在簡潔地描述資料并抑制噪聲的影響。在某些應用程式中，還需要這些功能來滿足某些不變性屬性。在本文中，我們專注于時間扭曲不變量。我們證明了這些對應于時間序列增量的某個疊代和的一族，在數學文獻中稱為準坐标函數。我們在代數架構中呈現這些不變特征，并且我們開發了它們的一些基本屬性。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩請移步首頁

tips:

cvpr sisr2019

stereoSR -> PASSRnet

【今日CV 計算機視覺論文速覽第132期】Tue, 18 Jun 2019

pic from pexels.com

【今日CV 計算機視覺論文速覽第132期】Tue, 18 Jun 2019

Interesting:

Daily Computer Vision Papers

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

【今日CV 計算機視覺論文速覽 第132期】Tue, 18 Jun 2019

Interesting:

Daily Computer Vision Papers

繼續閱讀

【今日CV 計算機視覺論文速覽第132期】Tue, 18 Jun 2019