【AI視野·今日CV 計算機視覺論文速覽第176期】Wed, 15 Jan 2020

AI視野·今日CS.CV 計算機視覺論文速覽

Wed, 15 Jan 2020

Totally 35 papers

👉上期速覽✈更多精彩請移步首頁

Interesting:

📚***通過薯片袋子反射重建場景圖像,利用手持的RGBD相機實作了視角合成與環境重建的工作。首先為高亮物體模組化、其次為互反射和菲涅爾效應模組化、最後使用形狀重建相同的輸入實作表面光場重建。通過具有表面反射的物體來重建周圍環境的細節。(from 華盛頓大學)

【AI視野·今日CV 計算機視覺論文速覽第176期】Wed, 15 Jan 2020

📚****MOC-detector移動中心檢測器,通過計算移動物體中心點與幀中心點的內插補點來進行運動目标追蹤和檢測，主要包括執行個體中心檢測和運動識别、運動估計和運動點軌迹估計，bbox回歸三個主要分支。 (from 南京大學)

【AI視野·今日CV 計算機視覺論文速覽第176期】Wed, 15 Jan 2020

📚用于Deep Image Prior的神經架構搜尋方法, 提出了一種可以提升非監督圖像提升算法DIP的神經架構搜尋方法，自動優化編碼器解碼器架構和超參數(from 薩裡大學 adobe)

【AI視野·今日CV 計算機視覺論文速覽第176期】Wed, 15 Jan 2020

📚ImagineNet一個神經風格遷移的方法用于改變App的互動界面風格, (from 斯坦福)

【AI視野·今日CV 計算機視覺論文速覽第176期】Wed, 15 Jan 2020

📚基于單張圖像合成全局圖像, (from 德克薩斯奧斯丁大學)

【AI視野·今日CV 計算機視覺論文速覽第176期】Wed, 15 Jan 2020

📚多視角紋理學習的超分辨, 基于重疊視圖的備援來實作高分辨(from 蘇黎世理工)

【AI視野·今日CV 計算機視覺論文速覽第176期】Wed, 15 Jan 2020

📚知識表示系統的結構架構,(from University of Kassel 德國)

【AI視野·今日CV 計算機視覺論文速覽第176期】Wed, 15 Jan 2020

📚Convolutional Mean，提出了一種高速光照估計方法，實作自動白平衡(from 東安哥拉大學 en)

【AI視野·今日CV 計算機視覺論文速覽第176期】Wed, 15 Jan 2020

code：http://www2.cmp.uea.ac.uk/~ybb15eau/

📚***音視訊聯合學習綜述,包括音視訊分離和定位、對應說話人學習、音視訊互相生成、表示學習和多模态等方面。(from 安徽大學)

【AI視野·今日CV 計算機視覺論文速覽第176期】Wed, 15 Jan 2020

📚人臉屬性修改可逆,單張圖檔輸入的自監督方法(from 電子科大)

【AI視野·今日CV 計算機視覺論文速覽第176期】Wed, 15 Jan 2020

Daily Computer Vision Papers

ImagineNet: Restyling Apps Using Neural Style Transfer

Authors Michael H. Fischer, Richard R. Yang, Monica S. Lam

本文介紹了ImagineNet，該工具使用新穎的神經樣式傳輸模型來使最終使用者和應用程式開發人員使用他們選擇的圖像來重新設計GUI。前神經樣式轉換技術不足以用于此應用程式，因為它們産生的GUI難以辨認，是以無法運作。我們通過在原始公式中添加新的損失項來提出一種神經解決方案，該方法可最大程度地減少樣式和輸出圖像之間CNN中不同級别的要素的非中心交叉協方差的平方誤差。 ImagineNet保留了GUI的詳細資訊，同時傳遞了藝術品的顔色和紋理。我們向50位評估人員展示了用ImagineNet以及其他樣式轉換技術重新設計過的GUI，所有這些工具都喜歡ImagineNet。我們展示了如何使用ImagineNet重新設定1個應用程式的圖形資産樣式，2個具有使用者提供的内容的應用程式以及3個具有動态生成的GUI的應用程式的樣式。

Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal Clustering and Large-Scale Heterogeneous Environment Synthesis

Authors Devinder Kumar, Parthipan Siva, Paul Marchwica, Alexander Wong

重新識别人的任務是計算機視覺中一項持續的主要挑戰，其目标是在不同的，不重疊的相機視圖中比對個人。雖然最近的成功是通過使用深度神經網絡的監督學習獲得的，但是由于需要大規模的自定義資料注釋，是以此類方法的使用受到了限制。是以，近來一直在關注非監督學習方法以減輕資料注釋問題，然而，與監督學習方法相比，文獻中的目前方法性能有限，并且在新環境中采用的适用性有限。在本文中，我們通過引入新穎的，無監督的領域重新适應人為識别方法，解決了現實世界中實際人為識别面臨的上述挑戰。這是通過引入ik倒向軌迹小簇進行無監督域适應ktCUDA進行的，以在目标域上生成僞标記，以及ii由大型異構獨立源環境組成的綜合異構RE id域SHRED，以提高魯棒性和适應性，以适應廣泛的目标環境。在四個不同的圖像和視訊基準資料集上的實驗結果表明，與現有的現有技術方法相比，所提出的ktCUDA和SHRED方法在重新識别性能上平均提高了5.7 mAP，并且展示了對不同類型環境的更好适應性。

Convolutional Mean: A Simple Convolutional Neural Network for Illuminant Estimation

Authors Han Gong

我們提出了卷積均值CM一個簡單快速的卷積神經網絡，用于光源估計。我們提出的方法隻需要一個小的神經網絡模型1.1K參數和一個48 x 32縮略圖輸入圖像。我們未經優化的Python實施需要1毫秒的圖像，可以說比目前具有類似精度的領先解決方案快3 750倍。通過使用兩個公共資料集，我們證明了我們提出的輕量方法的準确性可與目前領先的方法相媲美，後者包括跨數個名額的數十億個參數。

Improving Semantic Analysis on Point Clouds via Auxiliary Supervision of Local Geometric Priors

Authors Lulu Tang, Ke Chen, Chaozheng Wu, Yu Hong, Kui Jia, Zhixin Yang

現有的用于點雲分析的深度學習算法主要涉及以監督學習方式從局部幾何的全局配置中發現語義模式。但是，很少有探索幾何特性的方法能夠揭示嵌入3D歐幾裡得空間中的局部表面流形，以區分語義類或對象部分作為其他監督信号。本文是首次嘗試提出一種獨特的多任務幾何學習網絡，以通過具有局部形狀屬性的輔助幾何學習來改進語義分析，可以通過點雲本身的實體計算将其作為自我監督信号生成，也可以作為特權資訊提供。由于顯式編碼局部形狀流形以支援語義分析，是以所提出的幾何自監督和特權學習算法可以實作優于其骨幹基線和其他現有技術水準的性能，這在流行基準測試中得到了驗證。

Neural Architecture Search for Deep Image Prior

Authors Kary Ho, Andrew Gilbert, Hailin Jin, John Collomosse

我們提出了一種神經體系結構搜尋NAS技術，以在最近提出的Deep Image Prior DIP下提高繪畫和超分辨率下無監督圖像降噪的性能。我們表明，進化搜尋可以自動優化DIP網絡的編碼器，解碼器E D結構和元參數，作為規範這些單個圖像恢複任務之前特定的内容。我們的二進制表示形式編碼了一個不對稱ED網絡的設計空間，該網絡通常會收斂，并使用500個人口規模在10個20代内産生特定内容的DIP。經過優化的體系結構可不斷提高經典DIP在各種攝影範圍内的視覺品質。和藝術内容。

Learned Multi-View Texture Super-Resolution

Authors Audrey Richard, Ian Cherabier, Martin R. Oswald, Vagia Tsiminaki, Marc Pollefeys, Konrad Schindler

我們提出了一種超分辨率方法，該方法能夠從該對象的一組較低分辨率圖像中為虛拟3D對象建立高分辨率紋理貼圖。我們的架構統一了以下概念：基于重疊視圖的備援度的多視圖超分辨率和基于學習的高分辨率HR圖像結構的單視圖超分辨率。多視圖超分辨率的原理是反轉圖像形成過程，并從多個較低分辨率的投影中恢複潛在的HR紋理。我們将該反問題映射到适當設計的神經網絡層的塊中，并将其與标準的編碼器解碼器網絡結合使用，以學習單個圖像的超分辨率。将圖像形成模型連接配接到網絡避免了必須學習從紋理到圖像的透視圖映射，并且優雅地處理了各種數量的輸入視圖。實驗表明，将多視圖觀察結果與先驗知識相結合，可以改善紋理貼圖。

Deep Audio-Visual Learning: A Survey

Authors Hao Zhu, Mandi Luo, Rui Wang, Aihua Zheng, Ran He

自從深度學習開始成功使用以來，旨在開發視聽方式之間關系的視聽學習已經引起了廣泛的關注。研究人員傾向于利用這兩種方式來提高先前考慮的單一方式任務的性能或解決新的挑戰性問題。在本文中，我們對最近的視聽學習發展進行了全面的調查。我們将目前的視聽學習任務分為四個不同的子領域：視聽分離和定位，視聽對應學習，視聽生成和視聽表示學習。進一步讨論了最新技術方法以及每個子字段的其餘挑戰。最後，我們總結了常用的資料集和性能名額。

Deep Image Compression using Decoder Side Information

Authors Sharon Ayzik, Shai Avidan

我們提出了一種深度圖像壓縮神經網絡，它依賴于輔助資訊，僅可用于解碼器。我們基于假設編碼器可用的圖像和解碼器可用的圖像互相關聯的假設建立算法，然後讓網絡在訓練階段學習這些關聯。

NODIS: Neural Ordinary Differential Scene Understanding

Authors Cong Yuren, Hanno Ackermann, Wentong Liao, Michael Ying Yang, Bodo Rosenhahn

語義圖像了解是計算機視覺中一個具有挑戰性的話題。它需要檢測圖像中的所有對象，還需要識别它們之間的所有關系。檢測到的對象，它們的标簽和發現的關系可以用于建構場景圖，該場景圖提供圖像的抽象語義解釋。在以前的工作中，通過解決配置設定為混合整數線性程式的配置設定問題來确定關系。在這項工作中，我們将該公式解釋為常微分方程ODE。所提出的體系結構通過端到端學習解決ODE的神經變體來執行場景圖推理。它在Visual Genome基準測試上，在所有三個基準測試任務場景圖生成SGGen，分類SGCls和視覺關系檢測PredCls上都達到了最新的結果。

Fine-grained Image Classification and Retrieval by Combining Visual and Locally Pooled Textual Features

Authors Andres Mafla, Sounak Dey, Ali Furkan Biten, Lluis Gomez, Dimosthenis Karatzas

圖像中包含的文本帶有進階語義，可以利用這些語義實作更豐富的圖像了解。特别是，僅文本的存在就提供了強有力的指導内容，應采用這些指導内容來解決各種計算機視覺任務，例如圖像檢索，細粒度分類和視覺問題解答。在本文中，我們通過利用文本資訊以及視覺提示來了解兩種模式之間存在的内在聯系，進而解決了細粒度分類和圖像檢索的問題。所提出模型的新穎性包括使用PHOC描述符構造一袋文本單詞以及用于捕獲文本形态的Fisher向量編碼。這種方法為該任務提供了更強大的多模态表示，并且正如我們的實驗所示，它在兩項不同的任務（細粒度分類和圖像檢索）上均達到了最新的結果。

Real-Time Lane ID Estimation Using Recurrent Neural Networks With Dual Convention

Authors Ibrahim Halfaoui, Fahd Bouzaraa, Onay Urfalioglu, Li Minzhen

擷取有關行車道結構的資訊是自主導航的關鍵步驟。為此，有幾種方法從不同的角度解決此任務，例如車道标記檢測或語義車道分割。但是，據我們所知，尚無純粹的基于視覺的端到端解決方案來回答這一精确問題，即如何估算多車道道路或高速公路中目前行駛車道的相對編号或ID。在這項工作中，我們提出了一種實時，僅視覺的解決方案，即基于雙左-右約定的單目相機解決方案。通過将候選車道的最大數量限制為八個，我們将此任務解釋為分類問題。我們的方法旨在滿足低複雜度規範和有限的運作時要求。它利用輸入序列固有的時間次元來改進現有技術模型的高複雜度。在具有極端條件和不同路線的具有挑戰性的測試儀上，我們達到了95以上的準确性。

Unsupervised Domain Adaptation for Mobile Semantic Segmentation based on Cycle Consistency and Feature Alignment

Authors Marco Toldo, Umberto Michieli, Gianluca Agresti, Pietro Zanuttigh

對深度網絡進行語義分割的監督訓練需要大量标記的真實世界資料。為了解決此問題，通常利用的解決方法是使用合成資料進行訓練，但是當分析與訓練集相比統計特性稍有不同的資料時，深層網絡會顯示出嚴重的性能下降。在這項工作中，我們提出了一種新穎的無監督域自适應UDA政策，以解決現實世界與綜合表示之間的域轉換問題。基于周期一緻性架構的對抗模型執行綜合域與實域之間的映射。然後将資料饋送到執行語義分段任務的MobileNet v2體系結構。在MobileNet v2的功能級别上使用的另外兩個區分符可以更好地使兩個域分布的功能保持一緻，并進一步提高性能。最後，利用語義圖的一緻性。在對綜合資料進行了最初的有監督的教育訓練之後，整個UDA體系結構都接受了端到端教育訓練，同時考慮了其所有元件。實驗結果表明，所提出的政策在将合成資料訓練的分段網絡調整到現實世界場景中時能夠獲得令人印象深刻的性能。輕巧的MobileNet v2架構的使用允許将其部署在計算資源有限的裝置上，如自動駕駛汽車所采用的裝置。

Face Attribute Invertion

Authors X G Tu, Y Luo, H S Zhang, W J Ai, Z Ma, M Xie

在兩個域之間操縱人臉圖像是一個重要而有趣的問題。大多數現有方法通過應用兩個生成器或一個帶有額外條件輸入的生成器來解決此問題。在本文中，我們提出了一種基于GAN的自動人臉屬性逆的新的自我感覺方法。所提出的方法将面部圖像作為輸入，并且僅使用一個單獨的發生器，而不會以其他輸入為條件。得益于多重損失政策和經過改進的U網結構，我們的模型在訓練中非常穩定，并且能夠保留原始人臉圖像的更精細細節。

Structured Consistency Loss for semi-supervised semantic segmentation

Authors Jongmok Kim, Jooyoung Jang, Hyunwoo Park

在最近的半監督學習研究中，一緻性喪失在解決問題中起着關鍵作用。然而，具有一緻性損失的現有研究僅限于其在分類任務中的應用。關于半監督語義分割的現有研究依賴于像素分類，這不能反映預測中特征的結構性。我們提出結構性一緻性損失，以解決現有研究的這一局限性。結構化一緻性損失可提高師生網絡之間像素間相似度的一緻性。具體而言，與CutMix的協作可通過顯着減少計算負擔來優化具有結構一緻性損失的半監督語義分段的高效性能。 Cityscapes驗證了所提出方法的優越性。Cityscapes基準測試結果經過驗證和測試資料分别為81.9 mIoU和83.84 mIoU。這在Cityscapes基準套件的像素級語義标記任務中排名第一。據我們所知，我們是第一個在語義分割中展現最先進的半監督學習優勢的公司。

Seeing the World in a Bag of Chips

Authors Jeong Joon Park, Aleksander Holynski, Steve Seitz

我們解決了手持RGBD傳感器産生的新穎視圖合成和環境重建的雙重問題。我們的貢獻包括：1個模組化高鏡面物體，2個模組化互相反射和菲涅耳效果，以及3個能夠使用僅重構形狀所需的相同輸入實作表面光場重構。如果場景表面具有像材料成分一樣的強反射鏡，我們會生成非常詳細的環境圖像，以顯示通過窗戶可見的房間組成，物體，人，建築物和樹木。我們的方法産生了最先進的視圖合成技術，可在低動态範圍圖像上運作，并且對幾何和校準錯誤具有魯棒性。

Hallucinating Statistical Moment and Subspace Descriptors from Object and Saliency Detectors for Action Recognition

Authors Lei Wang, Piotr Koniusz

在本文中，我們建立在深度平移動作識别網絡上，該網絡以RGB幀為輸入，以學習預測動作概念和輔助監控特征描述符，例如光流特征和/或改進的密集軌迹描述符。翻譯由所謂的幻覺流執行，這些幻覺流經過訓練以預測輔助線索，這些線索同時被饋送到分類層，然後在測試階段免費進行幻覺以增強識别能力。

Cross-dataset Training for Class Increasing Object Detection

Authors Yongqiang Yao, Yan Wang, Yu Guo, Jiaojiao Lin, Hongwei Qin, Junjie Yan

我們為對象檢測中的跨資料集訓練提供了一個概念上簡單，靈活和通用的架構。給定兩個或兩個以上已标記為不同對象類别的資料集，交叉資料集訓練旨在檢測不同類别的并集，是以我們不必為所有資料集标記所有類别。通過交叉資料集訓練，可以利用現有資料集通過單個模型檢測合并的對象類。此外，在工業應用中，對象類别通常會按需增加。是以，在添加新類時，如果我們在所有現有資料集上标記新類，則會非常耗時。在使用交叉資料集訓練時，我們隻需要在新資料集上标記新的類。我們使用單獨和交叉資料集設定對PASCAL VOC，COCO，WIDER FACE和WIDER行人進行實驗。結果表明，與獨立訓練相比，我們的跨資料集管道可以同時在這些資料集上實作相似的出色性能。

Spatial-Spectral Residual Network for Hyperspectral Image Super-Resolution

Authors Qi Wang, Qiang Li, Xuelong Li

最近，基于深度學習的高光譜圖像超分辨率SR方法取得了巨大的成功。然而，大多數現有模型不能有效地同時探索頻帶之間的空間資訊和頻譜資訊，進而獲得相對較低的性能。為了解決這個問題，在本文中，我們提出了一種用于高光譜圖像超分辨率SSRNet的光譜空間殘差網絡。我們的方法可以通過使用3D卷積代替2D卷積來有效地探索空間光譜資訊，進而使網絡能夠更好地提取潛在資訊。此外，我們設計了頻譜空間殘差子產品SSRM，以通過局部特征融合從單元中的所有分層特征中自适應地學習更多有效特征，進而顯着提高了算法的性能。在每個單元中，我們使用空間和時間可分離的3D卷積來提取空間和頻譜資訊，這不僅減少了負擔不起的記憶體使用量和較高的計算成本，而且使網絡更易于訓練。對三個基準資料集的廣泛評估和比較表明，與現有技術水準相比，該方法具有更高的性能。

Actions as Moving Points

Authors Yixuan Li, Zixu Wang, Limin Wang, Gangshan Wu

現有的動作細管檢測器主要依賴于啟發式錨框的設計和放置，這在計算上可能是昂貴的并且對于動作執行個體的精确定位而言是次最佳的。在本文中，我們通過将動作執行個體視為移動點的軌迹，提出了一種新的動作小管檢測架構，稱為MovingCenter Detector MOC檢測器。基于運動資訊可以簡化和幫助進行動作小管檢測的分析，我們的MOC檢測器被分解為三個關鍵的頭部分支：1個中心分支，例如進行中心檢測和動作識别； 2個運動分支，用于在相鄰幀處進行運動估計以形成運動點軌迹，通過直接在每個幀的估計中心點上回歸邊界框大小來進行空間範圍檢測的3 Box Branch。這三個分支一起工作以生成細管檢測結果，可以将其進一步連結以産生具有通用比對政策的視訊級電子管。在JHMDB和UCF101 24資料集的幀mAP和視訊mAP相同的設定下，我們的MOC檢測器在很大程度上優于現有方法。對于更高的視訊IoU，性能差距更加明顯，這表明我們的MOC檢測器對于更精确的動作檢測特别有用。

EGO-TOPO: Environment Affordances from Egocentric Video

Authors Tushar Nagarajan, Yanghao Li, Christoph Feichtenhofer, Kristen Grauman

第一人稱視訊自然地将實體環境的使用帶到了最前沿，因為它顯示了相機佩戴者根據其意圖在空間中進行流暢的互動。但是，目前的方法在很大程度上将觀察到的動作與持久空間本身分開。我們介紹了一種直接從自我中心視訊中學到的環境優惠模型。主要思想是獲得以人類為中心的實體空間模型，例如廚房，該模型捕獲1互動作用的主要空間區域和2支援的可能活動。我們的方法将空間分解成源自第一人稱活動的拓撲圖，将自我視訊組織成一系列對不同區域的通路。此外，我們展示了如何在多個相關環境之間連結區域，例如，從多個廚房的視訊中獲得區域功能的合并表示。在EPIC Kitchens和EGTEA上，我們以長視訊形式展示了我們學習場景能力和預測未來行為的方法。

180-degree Outpainting from a Single Image

Authors Zhenqiang Ying, Alan Bovik

向觀看者的周圍視覺呈現上下文圖像是增強沉浸式視覺體驗的最有效技術之一。但是，由于标準相機的視野FoV很小，是以大多數圖像僅呈現狹窄的視野。為克服此限制，我們提出了一種深度學習方法，該方法可學習從狹窄的視圖圖像預測180全景圖像。具體來說，我們設計了一個中心架構，該架構在近邊緣和中邊緣區域應用了不同的政策。分别訓練兩個網絡，然後聯合使用它們依次執行從窄到90代和從90到180代的操作。然後将生成的輸出與其對齊的輸入融合在一起，以生成展開的等矩形圖像以供檢視。我們的實驗結果表明，使用深度學習生成全景圖像的單視圖既可行又很有希望。

Boosting Deep Face Recognition via Disentangling Appearance and Geometry

Authors Ali Dabouei, Fariborz Taherkhani, Sobhan Soleymani, Jeremy Dawson, Nasser M. Nasrabadi

在本文中，我們提出了一種在人臉識别任務中解開外觀和幾何圖形表示的架構。為了對此目的提供監督，我們通過合并空間變換來生成幾何上相同的面。我們證明了所提出的方法通過以兩種方式輔助訓練過程來增強深度人臉識别模型的性能。首先，它強制執行早期和中間的卷積層，以了解滿足解纏結嵌入特性的更具代表性的特征。其次，它通過幾何改變面部來增強訓練集。通過廣泛的實驗，我們證明了将建議的方法內建到最新的人臉識别方法中可以有效地提高其在具有挑戰性的資料集（如LFW，YTF和MegaFace）上的性能。通過涉及消融研究和知識轉移任務，對該方法的理論和實踐方面都進行了嚴格分析。此外，我們表明，所提出的方法所學習的知識可以支援其他與面部相關的任務，例如屬性預測。

Deep Learning Stereo Vision at the edge

Authors Luca Puglia, Cormac Brick

我們将概述用于建構适用于片上系統的新型立體視覺解決方案的方法。開發此新解決方案是為了将計算機視覺功能帶入生活在功耗受限環境中的嵌入式裝置。該解決方案構造為經典立體視覺技術和深度學習方法之間的混合體。立體子產品由兩個單獨的子產品組成，一個子產品加速我們訓練的神經網絡，另一個子產品加速前端部分。該系統是完全無源的，不需要任何結構化的光即可獲得非常出色的精度。相對于行業提供的以前的Stereo Vision解決方案，我們提供的主要改進是抗噪聲能力。這主要是由于所選架構的深度學習部分。我們将結果送出給Middlebury資料集挑戰。目前，它是最佳的片上系統解決方案。該系統是為低延遲應用開發的，該應用要求在高清視訊上具有比實時性能更好的性能。

Learning Transformation-Aware Embeddings for Image Forensics

Authors Aparna Bharati, Daniel Moreira, Patrick Flynn, Anderson Rocha, Kevin Bowyer, Walter Scheirer

網際網路上可操縱圖像内容的流量急劇增加，引起了媒體法證研究界的積極響應。新的努力結合了計算機視覺和機器學習技術的更多使用，以檢測和分析圖像處理空間。本文介紹了圖像來源分析，其目的是發現共享内容的不同操縱圖像版本之間的關系。來源分析尚未解決的主要子問題之一是共享全部内容或幾乎重複的圖像的編輯順序。現有的為任務（例如對象識别）生成圖像描述符的大型網絡可能無法編碼這些圖像協變量之間的細微差别。本文介紹了一種新穎的基于深度學習的方法，可以為通過變換從單個圖像生成的圖像提供合理的排序。我們的方法使用弱監督通過複合變換和基于秩的四元組損失來學習變換感覺描述符。為了确定所提出方法的有效性，将其與基于手工制作和深度學習的描述符的現有技術進行比較，并進行圖像比對。進一步的實驗在圖像來源分析的背景下驗證了所提出的方法。

Visual Storytelling via Predicting Anchor Word Embeddings in the Stories

Authors Bowen Zhang, Hexiang Hu, Fei Sha

我們為視覺故事講述的任務提出了一個學習模型。主要思想是從圖像中預測錨詞嵌入，并結合使用嵌入和圖像特征來生成叙述性句子。我們使用來自地底故事的随機采樣名詞的嵌入作為目标錨詞嵌入來學習預測變量。為了叙述圖像序列，我們使用預測的錨詞嵌入和圖像特征作為seq2seq模型的聯合輸入。與現有技術方法相反，所提出的模型設計簡單，易于優化，并且在大多數自動評估名額中均能獲得最佳結果。在人工評估中，該方法也優于競争方法。

Rethinking Curriculum Learning with Incremental Labels and Adaptive Compensation

Authors Madan Ravi Ganesh, Jason J. Corso

像人類一樣，當樣本以有意義的順序或課程進行組織和引入時，深度網絡會更好地學習Weinshall等人，2018。傳統的課程學習方法強調了将樣本作為核心增量政策的困難，但它迫使網絡從較小的資料子集中學習，同時引入了預先計算的開銷。在這項工作中，我們提出了使用增量标簽和自适應補償LILAC進行學習的方法，該方法采用了一種新穎的課程學習方法。 LILAC強調逐漸學習标簽，而不是逐漸學習困難樣本。它首先在兩個不同的階段中工作，即在增量标簽引入階段中，我們以小批量的方式遞歸地顯示地面真相标簽，而對其餘資料使用僞标簽。在自适應補償階段，我們通過自适應地将目标向量更改為更平滑的分布來補償失敗的預測。在三個标準圖像基準（CIFAR 10，CIFAR 100和STL 10）上，我們使用最接近的可比方法在批處理和課程學習以及标簽平滑進行中評估LILAC。在所有基準測試中，性能始終保持标準偏差。我們進一步擴充了LILAC，以在使用簡單資料增強的方法上顯示出CIFAR 10上的最高性能，同時還展示了标簽順序在其他屬性中的不變性。

Neural Human Video Rendering: Joint Learning of Dynamic Textures and Rendering-to-Video Translation

Authors Lingjie Liu, Weipeng Xu, Marc Habermann, Michael Zollhoefer, Florian Bernard, Hyeongwoo Kim, Wenping Wang, Christian Theobalt

由于其高效性，使用神經網絡合成人類的逼真的視訊已成為傳統基于圖形的渲染管線的流行替代方法。現有的作品通常将此表示為2D螢幕空間中的圖像到圖像轉換問題，這會導緻僞影，例如過度平滑，缺少身體部位以及精細比例細節的時間不穩定性，例如衣服中與姿勢有關的皺紋。在本文中，我們提出了一種新穎的人類視訊合成方法，該方法通過從人類在2D螢幕空間中的嵌入中明确區分時間相關的精細尺度細節的學習來解決這些限制因素。更具體地說，我們的方法依賴于兩個卷積神經網絡CNN的組合。給定姿勢資訊，第一個CNN會預測一個動态紋理貼圖，其中包含時間相關的高頻細節，第二個CNN會在第一個CNN的時間相關輸出上調節最終視訊的生成。我們展示了我們方法的幾種應用，例如人類重演和單眼視訊的新穎視圖合成，在定性和定量方面我們都顯示出對現有技術的顯着改進。

SimEx: Express Prediction of Inter-dataset Similarity by a Fleet of Autoencoders

Authors Inseok Hwang, Jinho Lee, Frank Liu, Minsik Cho

知道資料集之間的相似性對訓練有效的模型具有許多積極的意義，例如幫助從有利于未知資料集的模型傳遞或資料擴充問題的已知資料集中進行明智的選擇。估計資料之間相似性的常用方法包括在原始樣本空間中進行比較，在執行特定任務的模型中在嵌入空間中進行比較，或使用不同的資料集對預訓練的模型進行微調并評估其性能變化。但是，這些實踐将遭受比較淺，比較特定任務的偏見或執行比較所需的大量時間和計算量的困擾。我們介紹了SimEx，這是一種使用一組預訓練的自動編碼器對資料集之間的相似度進行早期預測的新方法，每個編碼器都專用于重建已知資料的特定部分。具體來說，我們的方法将未知資料樣本作為這些經過預先訓練的自動編碼器的輸入，并評估重建後的輸出樣本與原始輸入樣本之間的差異。我們的直覺是，未知資料樣本與經過自動編碼器訓練的一部分已知資料之間的相似度越高，則這種自動編碼器利用其經過訓練的知識，将輸出樣本重構得更接近原始資料的可能性就越大。。我們證明，與常見的相似性估算做法相比，我們的方法在預測資料集之間的相似性方面可達到10倍以上的速度。我們還證明，通過我們的方法估算出的資料集之間的相似度與正常做法密切相關，并且優于在樣本或嵌入空間進行比較的基線方法，而無需在比較時進行任何新的訓練。

Knowledge Representations in Technical Systems -- A Taxonomy

Authors Kristina Scharei, Florian Heidecker, Maarten Bieshaar

技術系統在以人為中心的環境中的最近使用導緻了一個問題，即如何教導技術系統（例如，機器人）以了解，學習和執行人類期望的任務。是以，知識的準确表示對于系統按預期工作至關重要。本文主要介紹人工智能中不同的知識表示技術及其分類，将其分類為各個問題領域。另外，在日常機器人任務中介紹了所呈現的知識表示的應用。借助于所提供的分類法，應該有助于尋找關于特定問題的适當的知識表示技術。

Towards detection and classification of microscopic foraminifera using transfer learning

Authors Thomas Haugland Johansen, Steffen Aagaard S rensen

有孔蟲是單細胞海洋生物，可能具有浮遊或底栖的生活方式。在它們的生命周期中，它們構造由一個或多個腔室組成的殼，這些殼作為化石保留在海洋沉積物中。對這些化石進行分類和計數已成為例如海洋學和氣候學。目前，識别和計數微化石的過程是使用顯微鏡手動進行的，非常耗時。是以，在各種研究領域中，開發使該過程自動化的方法很重要。提出了開發可檢測和分類有孔有孔蟲的深度學習模型的第一步。所提出的模型基于已在ImageNet資料集上進行了預訓練的VGG16模型，并通過轉移學習适應了有孔蟲的任務。此外，還介紹了一種由顯微有孔蟲和來自巴倫支海地區的沉積物組成的新型圖像資料集。

Edge Preserving CNN SAR Despeckling Algorithm

Authors Sergio Vitale, Giampaolo Ferraioli, Vito pascazio

SAR去斑是地球觀測的關鍵工具。斑點會削弱SAR圖像的解釋，斑點是與從照明場景向傳感器的反向散射幹擾相關的乘性噪聲。減少噪音是了解場景的關鍵任務。基于我們先前的解決方案KL DNN的結果，在這項工作中，我們定義了一個新的成本函數，用于訓練卷積神經網絡去斑點。目的是控制邊緣保留并更好地過濾對KL DNN極具挑戰性的人造結構和市區。結果表明，在非均質區域上有很好的改善，在均質區域中保持了良好的效果。本文顯示了模拟和真實資料的結果。

Effects of annotation granularity in deep learning models for histopathological images

Authors Jiangbo Shi, Zeyu Gao, Haichuan Zhang, Pargorn Puttapirat, Chunbao Wang, Xiangrong Zhang, Chen Li

病理對于癌症診斷至關重要。通常，病理學家是根據組織學幻燈片上觀察到的細胞群組織結構得出結論的。機器學習尤其是深度學習的飛速發展已經建立了強大而準确的分類器。它們被用于分析組織病理學切片，并協助病理學家進行診斷。大多數機器學習系統嚴重依賴于帶注釋的資料集，以擷取經驗和知識，以正确正确地執行各種任務，例如分類和細分。這項工作研究了組織病理學資料集中注釋的不同粒度，包括圖像，邊界框，橢圓和像素，以驗證病理幻燈片對深度學習模型的影響。我們設計了相應的實驗，以基于具有不同标注粒度的标注來測試深度學習模型的分類和細分性能。在分類中，當由像素明智的注釋資料集訓練時，基于深度學習的最新分類器表現更好。平均而言，準确性，召回率和F1分數分别提高了7.87、8.83和7.85。是以，建議深度學習算法在分類任務中更好地利用更細粒度的注釋。類似地，當通過逐像素注釋訓練時，語義分割算法可以實作8.33更好的分割精度。我們的研究表明，更細粒度的注釋不僅可以改善深度學習模型的性能，而且還可以幫助從組織病理學幻燈片中提取更準确的表型資訊。經過細化注釋訓練的情報系統可以幫助病理學家檢查某些區域，以更好地進行診斷。類似于這項工作的分隔預測方法可能有助于表型和基因型關聯研究。

Asymmetric Correlation Quantization Hashing for Cross-modal Retrieval

Authors Lu Wang, Jie Yang

由于大規模多模态資料在相似性計算和資料庫存儲方面的優勢，跨模态散列方法在跨異構模态的相似性檢索中引起了廣泛的關注。但是，仍然存在一些需要進一步考慮的局限性1大多數目前的CMH方法在二進制限制下将實值資料點轉換為離散的緊湊型二進制代碼，由于資訊大量丢失和生成，限制了原始資料的表示能力次優哈希碼2離散二進制限制學習模型很難解決，通過放寬對大量化誤差的二進制限制，檢索性能可能會大大降低3在對稱架構中處理CMH的學習問題，導緻優化目标困難而複雜。為了解決上述挑戰，本文提出了一種新的不對稱相關量化散列ACQH方法。具體來說，ACQH學習用于在潛在語義空間中将查詢轉換為低維實值向量的異構模态資料點的投影矩陣，并以粗略至精細的方式構造堆疊的組成量化嵌入，以通過一系列學習的實值來訓示資料庫點。碼本中的碼字同時借助逐點标簽資訊回歸。此外，本文設計的離散疊代優化架構可以直接獲得跨模态的統一哈希碼。在不同的三個基準資料集上進行的綜合實驗顯示了ACQH的有效性和合理性。

Distortion Agnostic Deep Watermarking

Authors Xiyang Luo, Ruohan Zhan, Huiwen Chang, Feng Yang, Peyman Milanfar

水印是将資訊嵌入可以在變形下幸存的圖像中的過程，同時要求編碼的圖像與原始圖像的感覺差異很小或沒有感覺差異。最近，在多種圖像失真下，基于深度學習的方法在視覺品質和消息有效負載方面均取得了令人印象深刻的結果。但是，這些方法都需要針對訓練時圖像失真的可區分模型，并且可能很難推廣到未知失真。這是不希望的，因為應用于水印圖像的失真類型通常是未知的且不可區分的。在本文中，我們提出了一種用于失真不可知水印的新架構，該架構在訓練過程中未明确模組化圖像失真。相反，我們系統的魯棒性來自對抗訓練和頻道編碼這兩個來源。與在固定的一組失真和噪聲水準上進行訓練相比，我們的方法在訓練過程中可獲得的失真方面具有可比或更好的結果，在未知失真上具有更好的性能。

Efficient convolutional neural networks for multi-planar lung nodule detection: improvement on small nodule identification

Authors Sunyi Zheng, Ludo J. Cornelissen, Xiaonan Cui, Xueping Jing, Raymond N. J. Veldhuis, Matthijs Oudkerk, Peter M.A. van Ooijen

我們提出了一種使用卷積神經網絡的多平面肺結節檢測系統。二維卷積神經網絡模型U net由軸向，冠狀和矢狀切片訓練，用于候選檢測任務。将來自三個不同平面的所有可能的結節候選物組合在一起。對于誤報減少，我們應用3D多尺度密集卷積神經網絡來有效地删除誤報候選。我們使用公開的LIDC IDRI資料集，該資料集包含888例CT掃描和4186名放射科醫生注釋的1186個結節。經過十次交叉驗證，我們提出的系統在0.5次假陽性掃描下的靈敏度為95.3，在1.0次假陽性掃描下的靈敏度為96.2。盡管很難檢測到小結節，即直徑為6 mm的結節，但我們設計的CAD系統對這些小結節的敏感度為93.8 94.6，總假陽性率為0.5 1.0假陽性掃描。在結節候選檢測階段，提出的系統在合并來自所有三個平面的預測後檢測到98.1個結節。僅使用1 mm的軸向切片可檢出91.1個結節，這比僅使用冠狀或矢狀切片的檢出要好。結果表明，與使用單個平面相比，多平面方法能夠檢測更多的結核。我們的方法在此資料集上達到了最先進的性能，這證明了我們開發的用于肺結節檢測的CAD系統的有效性和效率。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩請移步首頁

【AI視野·今日CV 計算機視覺論文速覽第176期】Wed, 15 Jan 2020

pic from pexels.com

【AI視野·今日CV 計算機視覺論文速覽第176期】Wed, 15 Jan 2020

Interesting:

Daily Computer Vision Papers

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

【AI視野·今日CV 計算機視覺論文速覽 第176期】Wed, 15 Jan 2020

Interesting:

Daily Computer Vision Papers

繼續閱讀

【AI視野·今日CV 計算機視覺論文速覽第176期】Wed, 15 Jan 2020