【今日CV 計算機視覺論文速覽第96期】 8 Apr 2019

今日CS.CV 計算機視覺論文速覽

Mon, 8 Apr 2019

Totally 49 papers

?上期速覽 ✈更多精彩請移步首頁

Interesting:

?單圖像修飾去除, 通過估計圖像中含有幹擾的像素（水印、塗鴉和變形，并合成對應的像素來實作圖像修飾的去除。(from 特拉維夫大學 )

【今日CV 計算機視覺論文速覽第96期】 8 Apr 2019

分為了原圖預測、mask預測，裝飾物預測三個分支，并在最後校正圖像。

【今日CV 計算機視覺論文速覽第96期】 8 Apr 2019

結果如下：

【今日CV 計算機視覺論文速覽第96期】 8 Apr 2019

?任務驅動的目标檢測COCO-Task, 為了對場景中最适用于任務的目标進行檢測，研究人員提出了COCO-Tasks，40000張圖像包含了14個任務相關的标注，每張圖檔中都标注出了與任務最相關的目标。并基于門控圖網絡，提出了對于給定任務檢測最合适目标的方法。(from 波昂大學)

對于不同的任務，有着最合适的目标：

【今日CV 計算機視覺論文速覽第96期】 8 Apr 2019

檢測出目标并将其隐藏狀态放到圖的節點中，利用狀态轉移尋找最合适的目标：

【今日CV 計算機視覺論文速覽第96期】 8 Apr 2019

COCO-Task:https://coco-tasks.github.io/

?Dense-Haze ,圖像去霧資料集，包含了33對真實的配對場景。 (from Universitatea Politehnica Timisoara )

評測了多種去霧算法,發現對于均勻的霧（造霧機生成）表現不好：

【今日CV 計算機視覺論文速覽第96期】 8 Apr 2019

相關： O-HAZE D-HAZY HazeRD FRIDA

?HomebrewedDB, 用于三維物體6D位姿估計的RGB-D資料集,包含了33個物體13個場景(*1340)，以及一系列基準測評(from TUM )

【今日CV 計算機視覺論文速覽第96期】 8 Apr 2019

相關資料集：LineMOD Dataset. T-LESS Dataset. YCB-Video dataset.

掃描器：https://www.artec3d.com/

?Single-Path NAS基于單路徑的自然架構搜尋,用于硬體高效卷積模型的設計，加速移動端卷積模型設計。 (from )

【今日CV 計算機視覺論文速覽第96期】 8 Apr 2019

code：https://github.com/dstamoulis/single-path-nas

?基于精确點擴散函數和圓一緻CNN實作盲解卷積顯微鏡, (from KAIST)。

利用基于圓連續的CNN和PSF模組化層實作了盲解卷積的非監督網絡。

【今日CV 計算機視覺論文速覽第96期】 8 Apr 2019

Deconvolution Microscopy:http://www2.ujf-grenoble.fr/medecine/iab/clientzone/plforme9/fichiers/DeconvolutionMicroscopy_Sibarita_Springer.pdf

?CTN：Crowd Transformer Network, 探索了局域和非局域特征用于人群密度估計，利用卷積抽取局域特征，利用自注意力抽取非局域特征，結合兩者估計人群密度圖。(from 石溪分校)

【今日CV 計算機視覺論文速覽第96期】 8 Apr 2019

加入非局域特征的效果提升：

【今日CV 計算機視覺論文速覽第96期】 8 Apr 2019

與相關方法比較：

【今日CV 計算機視覺論文速覽第96期】 8 Apr 2019

相關資料集： UCF-QNRF dataset UCF-CC dataset Shanghaitech

?基于多階水準集方法的半監督/無監督分割 , (from KAIST)

【今日CV 計算機視覺論文速覽第96期】 8 Apr 2019

通過最小化水準集損失來實作分割：

【今日CV 計算機視覺論文速覽第96期】 8 Apr 2019

提出方法的一些結果：

【今日CV 計算機視覺論文速覽第96期】 8 Apr 2019

?SDC – Stacked Dilated Convolution:稠密比對任務的通用描述網絡, (from DFKI - German Research Center for Artificial Intelligence)

膨脹卷積層:

【今日CV 計算機視覺論文速覽第96期】 8 Apr 2019

?提高醫學神經網絡的可解釋性, (from TUM)

【今日CV 計算機視覺論文速覽第96期】 8 Apr 2019

Daily Computer Vision Papers

Detecting Human-Object Interactions via Functional Generalization

Authors Ankan Bansal, Sai Saketh Rambhatla, Abhinav Shrivastava, Rama Chellappa

我們提出了一種方法，用于檢測圖像中的人體對象互動HOI，基于人類以類似方式與功能相似的對象進行互動的想法。所提出的模型是簡單的并且使用人的視覺特征，人和對象的相對空間定向，以及功能相似的對象參與與人類的類似互動的知識。我們為我們的方法提供了廣泛的實驗驗證，并展示了HOI檢測的最新結果。在HICO Det資料集上，我們的方法在已發表的文獻中平均精度mAP獲得超過7個絕對點的增益，甚至比當代工作獲得超過2.5個絕對mAP。我們還表明，我們的方法可以在看到的對象設定中為零射擊HOI檢測帶來顯着的性能提升。我們進一步證明，使用通用對象檢測器，我們的模型可以推廣到涉及以前看不見的對象的互動。

Moving Object Detection under Discontinuous Change in Illumination Using Tensor Low-Rank and Invariant Sparse Decomposition

Authors Moein Shakeri, Hong Zhang

盡管基于低秩和稀疏分解的方法已經成功地應用于使用結構化稀疏誘導規範的運動物體檢測的問題，但是它們仍然易受在某些應用中出現的顯着照明變化的影響。我們感興趣的是在涉及時間推移圖像序列的應用中移動物體檢測，目前方法錯誤地将移動物體和照明變成前景。我們的方法依賴于多線性張量資料低秩和稀疏分解架構來解決現有方法的弱點。我們提出的方法的關鍵是首先建立一組先前的映射，其可以表征由于照明而導緻的圖像序列的變化。我們表明它們可以被k支援規範檢測到。為了處理并發的兩種類型的變化，我們采用兩個正則化項，一個用于檢測運動物體，另一個用于計算光照變化，在張量低秩和稀疏分解公式中。通過使用具有挑戰性的資料集的綜合實驗，我們表明我們的方法展示了在不連續的照明變化下檢測移動物體的顯着能力，并且優于現有技術解決這一具有挑戰性的問題的解決方案。

HomebrewedDB: RGB-D Dataset for 6D Pose Estimation of 3D Objects

Authors Roman Kaskman, Sergey Zakharov, Ivan Shugurov, Slobodan Ilic

建立和評估6D對象姿勢檢測器的最重要的先決條件之一是具有标記為6D姿勢的資料集。随着深度學習方法的出現，對這些資料集的需求也在不斷湧現。盡管其中一些存在，但它們很少并且通常具有受限制的設定，例如，每個序列單個對象，或專注于特定對象類型，例如無紋理工業零件。此外，通常僅從可用的3D模型而不是實際資料和可伸縮性來訓練兩個重要元件，即訓練一種方法來檢測所有對象而不是每個對象訓練一個檢測器。其他挑戰，例如遮擋，改變光照條件和物體外觀變化，以及精确定義的基準，要麼不存在，要麼分散在不同的資料集中。

Unsupervised Image Matching and Object Discovery as Optimization

Authors Huy V. Vo, Francis Bach, Minsu Cho, Kai Han, Yann LeCun, Patrick Perez, Jean Ponce

完全或部分監督學習是有力的，但依賴于不斷增長的人類注釋努力。作為緩解這一嚴重問題以及服務于特定應用的一種方式，無監督學習已經成為一個重要的研究領域。在計算機視覺中，無監督學習有各種各樣的形式。在Cho等人的工作之後，我們将重點放在集合中圖像之間的無監督發現和對象類别的比對上。 2015.我們表明原始方法可以重新制定并解決為适當的優化問題。幾個基準測試的實驗證明了我們的方法的優點。

Spatial Shortcut Network for Human Pose Estimation

Authors Te Qi 1 , Bayram Bayramli 1 , Usman Ali 1 , Qinchuan Zhang 1 , Hongtao Lu 1 1 Shanghai Jiao Tong University

像許多計算機視覺問題一樣，人體姿勢估計是一個具有挑戰性的問題，因為識别身體部位不僅需要來自局部區域的資訊，還需要來自具有大空間距離的區域的資訊。為了在空間上傳遞資訊，通常使用大的卷積核和深層，引入高計算成本和大參數空間。幸運的是，對于姿勢估計，人體在圖像中幾何結構化，使得能夠模組化空間依賴性。在本文中，我們提出了一種用于姿勢估計任務的空間快捷網絡，其中資訊更容易在空間上流動。我們通過詳細分析評估我們的模型，并以更小的結構展示其出色的性能。

Deep Learning Under the Microscope: Improving the Interpretability of Medical Imaging Neural Networks

Authors Magdalini Paschali, Muhammad Ferjad Naeem, Walter Simson, Katja Steiger, Martin Mollenhauer, Nassir Navab

在本文中，我們提出了一種新的解釋方法，适用于組織學整體幻燈片圖像WSI處理。深度神經網絡DNN受Bag of Features模型的啟發，配備了多執行個體學習MIL分支，并且在WSI分類的監督下受到嚴格監控。 MIL避免了标簽歧義，并在不引起注意的情況下增強了我們模型的表現力。我們利用模型激活的細粒度logit熱圖來解釋其決策過程。所提出的方法在兩個具有挑戰性的組織學資料集上進行定量和定性評估，優于各種基線。此外，我們咨詢了兩位專家病理學家關于我們的方法提供的可解釋性，并承認其可以整合到幾個臨床應用中。

Leaf segmentation through the classification of edges

Authors Jonathan Bell, Hannah M. Dee

我們提出了一種基于檢測到的邊緣對拟南芥植物的葉片水準分割的方法。我們引入了一種新的邊緣分類方法，該方法形成了一種方法的重要組成部分，該方法既可以從高通量表型系統中獲得的圖像中計算葉子并建立生長植物的葉面積。我們的技術使用相對淺的卷積神經網絡将圖像邊緣分類為背景，植物邊緣，葉緣上的葉子或内部葉子噪聲。使用Canny邊緣檢測器找到邊緣本身，并且分類的邊緣可以與簡單的圖像處理技術一起使用以生成基于區域的分割，其中葉子是不同的。這種方法很有效地區分了一片葉子大部分隐藏的遮擋葉片，這種情況在過去已被證明對于植物圖像分析系統來說是麻煩的。此外，我們還介紹了用于此項工作的公開可用的植物圖像資料集。

Weakly Supervised Action Segmentation Using Mutual Consistency

Authors Yaser Souri, Mohsen Fayyaz, Juergen Gall

動作分段是預測視訊的每個幀中的動作的任務。由于在完全監督行動分割的情況下準備教育訓練視訊的成本很高，是以隻能從成績單中學習的弱監督方法非常有吸引力。在本文中，我們提出了一種基于雙分支網絡的弱監督動作分割的新方法。我們網絡的兩個分支預測了兩個備援但不同的動作分割表示。在教育訓練期間，我們引入了一種新的互相一緻性損失MuCon，強制執行這兩種表示是一緻的。使用MuCon和成績單預測損失，我們的網絡實作了動作分割和動作對齊的最先進結果，同時完全可區分且訓練更快，因為它在訓練期間不需要昂貴的對齊步驟。

3DQ: Compact Quantized Neural Networks for Volumetric Whole Brain Segmentation

Authors Magdalini Paschali, Stefano Gasperini, Abhijit Guha Roy, Michael Y. S. Fang, Nassir Navab

模型體系結構的規模急劇增加，以犧牲資源需求為代價提高了性能。在本文中，我們提出3DQ，一種三元量化方法，首次應用于3D全卷積神經網絡F CNN，實作16x模型壓縮，同時保持與全精度模型相當的性能。我們在兩個資料集上廣泛評估3DQ，以完成全腦分割的挑戰性任務。此外，我們展示了我們的方法能夠概括兩種常見的3D架構，即3D U Net和V Net。該方法的性能優于各種基線，能夠将大型3D模型壓縮到幾MB，進而減輕了空間關鍵應用中的存儲需求。

Radiotherapy Target Contouring with Convolutional Gated Graph Neural Network

Authors Chun Hung Chao, Yen Chi Cheng, Hsien Tzu Cheng, Chi Wen Huang, Tsung Ying Ho, Chen Kan Tseng, Le Lu, Min Sun

層析成像醫學成像在現代癌症放射治療的臨床工作流程中是必不可少的。放射惡性良性腫瘤學家識别癌組織，在所有圖像切片的治療區域上應用描繪。這種任務通常通過具有相當大計算成本的3D卷積網絡公式化為體積分割任務。相反，受到跨切片考慮有意義資訊的處理方法的啟發，我們使用門控圖形神經網絡來更有效地建構此問題。更具體地，我們提出卷積遞歸門控圖傳播器GGP通過圖像切片傳播進階資訊，具有可學習的鄰接權重矩陣。此外，由于醫生經常研究一些特定切片來改進他們的決策，我們對這種切片式互動過程進行模組化，以進一步改善我們的分割結果。這可以通過毫不費力地編輯任何切片來設定，以使用GGP更新其他切片的預測。為了評估我們的方法，我們收集了81名患者的食道癌放射治療目标治療輪廓資料集，其中包括具有放射治療目标的斷層掃描圖像。在這個資料集上，我們的卷積圖網絡産生了最先進的結果，并且優于基線。通過添加互動式設定，性能得到進一步提升。我們的方法可以很容易地應用于具有體積圖像的各種醫療任務。結合能夠進行可行預測和考慮人類互動輸入的能力，所提出的方法适用于臨床場景。

SDC - Stacked Dilated Convolution: A Unified Descriptor Network for Dense Matching Tasks

Authors Ren Schuster, Oliver Wasenm ller, Christian Unger, Didier Stricker

密集像素比對對于諸如視差和流量估計的許多計算機視覺任務是重要的。我們提出了一個健壯的統一描述符網絡，它考慮了具有高空間方差的大型上下文區域。我們的網絡具有非常大的感受野，避免跨步層以保持空間分辨率。通過建立由多個平行堆疊的擴張卷積SDC組成的新型神經網絡層來實作這些特性。這些層中的幾個被組合以形成我們的SDC描述符網絡。在我們的實驗中，我們表明我們的SDC功能在精度和魯棒性方面優于最先進的特征描述符。此外，我們在幾個着名的公共基準測試中展示了SDC在最先進的立體比對，光流和場景流算法方面的卓越性能。

Comparative Analysis of Automatic Skin Lesion Segmentation with Two Different Implementations

Authors Md. Kamrul Hasan, Basel Alyafi, Fakrul Islam Tushar

來自周圍皮膚的病變分割是開發皮膚癌的自動計算機輔助診斷的首要任務。病變的變化特征如顔色的不均勻分布，不規則的形狀，邊界和紋理使這項任務具有挑戰性。本文的貢獻是提出和比較皮膚病變分割的兩種不同方法。第一種方法使用分水嶺，而第二種方法使用均值漂移。在兩種方法中進行預處理步驟以去除毛發和顯微圖像的暗邊界。使用Jaccard Index Intersection over Union或IoU進行所提出方法的評估。本文的另一個貢獻是使用現有的分割和形态算法來呈現用于執行預處理和分割的管道，這導緻了有希望的結果。平均而言，第一種方法表現出比第二種方法更好的表現，平均Jaccard指數超過200 ISIC 2017挑戰圖像分别為89.16和76.94。

Automatic detection of lesion load change in Multiple Sclerosis using convolutional neural networks with segmentation confidence

Authors Richard McKinley, Lorenz Grunder, Rik Wepfer, Fabian Aschwanden, Tim Fischer, Christoph Friedli, Raphaela Muri, Christian Rummel, Rajeev Verma, Christian Weisstanner, Mauricio Reyes, Anke Salmen, Andrew Chan, Roland Wiest, Franca Wagner

檢測多發性硬化症中新的或擴大的白質病變是監測接受多發性硬化症疾病改善治療的患者的重要任務。然而，新的或擴大的定義并不固定，并且已知病變計數是高度主觀的，具有高度的内部和内部評估者可變性。用于病變量化的自動化方法具有使新的和擴大的病變的檢測一緻且可重複的潛力。然而，盡管這是一個緊迫的臨床用例，但大多數病變分割算法并未評估其分離進展型和穩定型患者的能力。在本文中，我們表明，即使對于高性能的分割方法，單獨的病變負荷的體積測量的變化也不是執行該分離的好方法。相反，我們提出了一種識别高确定性病變的方法，并在縱向多發性硬化病例的資料集上建立該方法能夠将進展與穩定時間點分離，具有非常高的鑒别水準AUC 0.99，而病變體積的變化更不能執行這種分離AUC 0.71。在第二個外部資料集上驗證該方法證明該方法能夠超出其訓練的設定，在分離穩定和漸進時間點時達到83的準确度。先前已經顯示病變體積和計數都是人群中疾病過程的強預測因子。然而，我們證明，對于個體患者，這些措施的變化并不是建立疾病活動證據的充分手段。同時，直接檢測從非病變到病變的高可信度變化的組織是用于識别放射學活躍患者的可行方法。

Learning Task Relatedness in Multi-Task Learning for Images in Context

Authors Gjorgji Strezoski, Nanne van Noord, Marcel Worring

多媒體應用通常需要多個任務的并發解決方案這些任務為每個其他解決方案提供了線索，但由于這些關系可能很複雜，是以這仍然是一個很少使用的财産。當基于領域知識明确定義任務關系時，多任務學習MTL提供這樣的并發解決方案，同時利用在同一資料集上執行的多個任務之間的相關性。但是，在大多數情況下，沒有明确定義此相關性，并且無法定義定義它的領域專家知識。為了解決這個問題，我們介紹了選擇性共享，這是一種在模型訓練時從二級潛在特征中學習互相作用關系的方法。利用這種洞察力，我們可以自動對任務進行分組，并允許他們以互利的方式分享知識。我們通過對分類，回歸和排序任務中的5個資料集進行實驗來支援我們的方法，并與強基線和現有技術方法進行比較，進而顯示出在準确性和參數計數方面的持續改進。此外，我們執行激活區域分析，顯示選擇性共享如何影響學習表示。

What Object Should I Use? - Task Driven Object Detection

Authors Johann Sawatzky, Yaser Souri, Christian Grund, Juergen Gall

當人類必須解決日常任務時，他們隻需選擇最合适的物體。雖然對于特定任務應該使用哪個對象的問題聽起來對人類來說是微不足道的，但對于機器人或其他自治系統來說很難回答。然而，目前基于檢測對象類别的對象檢測基準并未解決該問題。是以，我們介紹了COCO Tasks資料集，該資料集包含大約40,000個圖像，其中14個任務的最合适的對象已被注釋。我們還提出了一種方法，可以檢測給定任務的最合适的對象。該方法建立在門控圖形神經網絡的基礎上，以利用每個對象的外觀以及場景中所有目前對象的全局上下文。在我們的實驗中，我們表明所提出的方法優于在資料集上評估的其他方法，如分類或排序方法。

Relation-Aware Global Attention

Authors Zhizheng Zhang, Cuiling Lan, Wenjun Zeng, Xin Jin, Zhibo Chen

注意機制旨在通過關注重要特征和抑制不必要的特征來增加代表權。對于卷積神經網絡CNN，通常通過局部卷積來學習注意力，其忽略全局資訊和隐藏關系。如何有效地利用長距離背景來全球學習注意力尚未得到充分發掘。在本文中，我們提出了一個有效的關系感覺全局注意RGA子產品，用于CNN充分利用全局相關性來推斷注意力。具體地，當計算特征位置處的注意力時，為了掌握全局範圍的資訊，我們建議将關系（即，其成對相關性關系）與所有特征位置以及特征本身一起堆疊以用卷積學習學習注意力。操作。給定中間特征圖，我們已經在空間和通道次元上驗證了該設計的有效性。當應用于人物識别任務時，我們的模型達到了最先進的性能。廣泛的消融研究表明，我們的RGA可以顯着增強特征表示能力。我們通過将RGA應用于場景分割和圖像分類任務來進一步證明RGA對視覺任務的一般适用性，進而實作一緻的性能改進。

Semantic Attribute Matching Networks

Authors Seungryong Kim, Dongbo Min, Somi Jeong, Sunok Kim, Sangryul Jeon, Kwanghoon Sohn

我們提出了語義屬性比對網絡SAM Net，用于在語義相似的圖像上共同建立對應關系和傳遞屬性，在克服其局限性的同時智能地編織兩個任務的優點。 SAM Net通過減少圖像之間的屬性差異并使用學習的對應關系合成屬性轉移圖像來建立可靠對應的疊代過程來實作這一點。為了使用圖像對形式的弱監督來學習網絡，我們基于屬性轉移源特征和扭曲目标特征之間的比對相似性來呈現語義屬性比對損失。使用SAM Net，可以在語義比對和屬性轉移的幾個基準上實作最先進的性能。

Learning to Adapt for Stereo

Authors Alessio Tonioni, Oscar Rahnama, Thomas Joy, Luigi Di Stefano, Thalaiyasingam Ajanthan, Philip H. S. Torr

立體深度估計的真實世界應用需要對環境中的動态變化具有魯棒性的模型。盡管基于深度學習的立體聲方法是成功的，但它們通常不能概括為環境中看不見的變化，使得它們不太适合于諸如自動駕駛的實際應用。在這項工作中，我們引入了一個學習适應架構，使深度立體方法能夠以無人監督的方式不斷适應新的目标域。具體而言，我們的方法将适應程式納入學習目标，以獲得更适合無監督線上适應的基本參數集。為了進一步提高自适應的品質，我們學習了一種置信度量，有效地掩蓋了無監督自适應期間引入的誤差。我們在合成和現實世界的立體資料集上評估我們的方法，并且我們的實驗證明，學習适應對于在非常不同的領域進行線上适應确實是有益的。

High-level Semantic Feature Detection:A New Perspective for Pedestrian Detection

Authors Wei Liu, Shengcai Liao, Weiqiang Ren, Weidong Hu, Yinan Yu

對象檢測通常需要傳統的滑動視窗分類器或現代深度學習方法中基于錨的預測。但是，這些方法中的任何一種都需要在視窗或錨點中進行繁瑣的配置。在本文中，以行人檢測為例，我們提供了一種新的視角，其中檢測對象被激發為進階語義特征檢測任務。像邊緣，角落，斑點和其他特征檢測器一樣，所提出的檢測器掃描整個圖像上的特征點，卷積自然适合這些特征點。然而，與傳統的低級特征不同，所提出的探測器用于更進階别的抽象，即，我們正在尋找存在行人的中心點，并且現代深度模型已經能夠進行如此進階别的語義抽象。此外，與斑點檢測一樣，我們也預測行人點的比例，這也是一個簡單的卷積。是以，在本文中，行人檢測通過卷積簡化為直接的中心和尺度預測任務。這樣，所提出的方法享有無錨設定。雖然結構簡單，但它在具有挑戰性的行人檢測基準上具有競争力的準确性和良好的速度，是以導緻新的有吸引力的行人探測器。代碼和模型将在網址上提供

Branched Multi-Task Networks: Deciding What Layers To Share

Authors Simon Vandenhende, Bert De Brabandere, Luc Van Gool

在深度學習的背景下，已經使用具有多個分支的神經網絡，每個分支都解決不同的任務。這種分支網絡通常以許多共享層開始，之後不同的任務分支到它們自己的層序列中。由于可能的網絡配置的數量是組合大的，是以先前的工作通常依賴于特殊方法來确定層共享的級别。

3D LiDAR and Stereo Fusion using Stereo Matching Network with Conditional Cost Volume Normalization

Authors Tsun Hsuan Wang, Hou Ning Hu, Chieh Hubert Lin, Yi Hsuan Tsai, Wei Chen Chiu, Min Sun

主動和被動深度感測技術的互補特性激發了Li DAR傳感器和立體相機的融合，以改善深度感覺。我們利用立體比對網絡，利用LiDAR資訊上的兩種增強技術輸入融合和條件成本量标準化CCVNorm，而不是直接融合LiDAR和立體模态的估計深度。所提出的架構是通用的并且與立體比對神經網絡中通常使用的成本量元件緊密內建。我們通過實驗驗證了我們的方法對KITTI立體和深度完成資料集的有效性和穩健性，獲得了針對各種融合政策的有利性能。此外，我們證明，通過CCVNorm的分層擴充，所提出的方法在計算時間和模型大小方面僅給立體比對網絡帶來輕微的開銷。對于項目頁面，請參閱

Point-to-Point Video Generation

Authors Tsun Hsuan Wang, Yen Chi Cheng, Chieh Hubert Lin, Hwann Tzong Chen, Min Sun

雖然圖像處理實作了巨大的突破，例如，近年來産生逼真的面孔，但是視訊生成的探索更少且難以控制，這限制了其在現實世界中的應用。例如，視訊編輯需要跨多個剪輯的時間一緻性，是以在視訊序列内構成開始和結束限制。我們介紹了控制生成過程的點對點視訊生成，其中兩個控制點是目标開始和結束幀。該任務具有挑戰性，因為該模型不僅生成幀的平滑過渡，而且還提前計劃以確定生成的結束幀符合各種長度的視訊的目标結束幀。我們建議在跳幀訓練政策下最大化條件資料似然的修正變分下界。我們的模型可以生成序列，使得它們的結束幀與目标結束幀一緻，而不會損失品質和多樣性。在Stochastic Moving MNIST，Weizmann Human Action和Human3.6M上進行了大量實驗，以評估所提方法的有效性。我們在一系列場景下示範了我們的方法，例如，動态長度生成和定性結果展示了點到點生成的潛力和優點。對于項目頁面，請參閱

Deep Predictive Video Compression with Bi-directional Prediction

Authors Woonsung Park, Munchurl Kim

最近，深度圖像壓縮在編碼效率和圖像品質改進方面已經顯示出很大的進步。然而，使用深度學習網絡對視訊壓縮的關注相對較少。在本文中，我們首先提出了一種基于深度學習的雙向預測編碼網絡，稱為BP DVC Net，用于視訊壓縮。從傳統視訊編碼的教訓中了解到，B幀編碼結構被納入我們的BP DVC網絡中。雖然傳統視訊編解碼器中的雙向預測編碼需要向解碼器側發送用于塊運動的運動矢量和來自預測的殘差，但是我們的BP DVC網絡在編碼器和解碼器側都包含光流估計網絡，以便不傳輸運動。資訊到解碼器側以提高編碼效率。此外，BP DVC網絡中的雙向預測網絡被提出并用于精确預測目前幀并使得到的殘留物盡可能小。此外，我們的BP DVC網絡允許使用相鄰幀的特征圖之間的時間上下文對壓縮特征圖進行熵編碼。 BP DVC Net具有端到端視訊壓縮架構，具有新設計的流量和預測損耗。實驗結果表明，我們提出的方法的壓縮性能與H.264，HEVC在PSNR和MS SSIM方面的壓縮性能相當。

Dense Haze: A benchmark for image dehazing with dense-haze and haze-free images

Authors Codruta O. Ancuti, Cosmin Ancuti, Mateu Sbert, Radu Timofte

單一圖像去霧是一個不适合的問題，最近引起了重視。盡管在過去幾年中對去霧的興趣顯着增加，但由于缺乏成對的真實模糊和相應的無霧度參考圖像，是以去霧方法的驗證仍然很不令人滿意。為了解決這個限制，我們向Dense Haze介紹了一種新穎的去霧資料集。 Dense Haze的特點是密集而均勻的朦胧場景，包含33對真實的朦胧和相應的各種戶外場景的無陰影圖像。通過引入由專業霧霾機器産生的真實霧度來記錄朦胧的場景。無朦胧和無霧度的相應場景包含在相同照明參數下捕獲的相同視覺内容。密集霧度資料集旨在通過促進真實和各種模糊場景的穩健方法，顯着推動單圖像去霧的藝術水準。我們還基于Dense Haze資料集提供了對最先進的單圖像去霧技術的全面定性和定量評估。毫不奇怪，我們的研究表明，現有的去霧技術對于密集均勻的朦胧場景表現不佳，并且仍有很大的改進空間。

Snap and Find: Deep Discrete Cross-domain Garment Image Retrieval

Authors Yadan Luo, Ziwei Wang, Zi Huang, Yang Yang, Huimin Lu

随着線上商店數量的增加，迫切需要智能搜尋系統來了解客戶拍攝的項目照片，并搜尋大型産品資料庫以找到他們想要的項目。然而，傳統檢索系統難以比對顧客拍攝的物品照片和商店正式釋出的物品照片，尤其是服裝圖像。為了橋接顧客和商店提供的服裝照片，現有的研究已經廣泛地利用服裝屬性文本，例如黑色和地标文本，例如衣領，以學習用于服裝表示的共同嵌入空間。不幸的是，它們省略了屬性的順序關聯，并消耗大量的人工來标記地标。在本文中，我們提出了一個深度多任務跨域散列稱為textit DMCH，其中跨域嵌入和順序屬性學習同時模組化。順序屬性學習不僅提供嵌入的語義指導，而且還産生對判别性局部細節文本的豐富關注，例如衣服項目的黑色按鈕，而不需要額外的地标标簽。與現有技術模型相比，這可以帶來有前途的性能和306倍的效率提升，通過對兩個公共時尚資料集的嚴格實驗證明了這一點。

Evading Defenses to Transferable Adversarial Examples by Translation-Invariant Attacks

Authors Yinpeng Dong, Tianyu Pang, Hang Su, Jun Zhu

深度神經網絡容易受到對抗性的例子的影響，這些例子可能通過添加難以察覺的擾動來誤導分類器。對抗性示例的一個有趣的特性是它們良好的可轉移性，使黑盒攻擊在現實世界的應用程式中可行。由于對抗性攻擊的威脅，已經提出了許多方法來提高魯棒性。對于可轉移的對抗性示例，幾種最先進的防禦被證明是強有力的。在本文中，我們提出了一種平移不變攻擊方法，以針對防禦模型生成更多可轉移的對抗性示例。通過優化翻譯圖像集合上的擾動，所生成的對抗性示例對被攻擊的白盒模型不太敏感并且具有更好的可轉移性。為了提高攻擊效率，我們進一步表明，我們的方法可以通過将未翻譯圖像的梯度與預定義的核心進行卷積來實作。我們的方法通常适用于任何基于梯度的攻擊方法。 ImageNet資料集上的大量實驗驗證了所提方法的有效性。我們最好的攻擊愚弄八種最先進的防禦技術，平均成功率僅為82％，僅基于可轉移性，證明了目前防禦技術的不安全性。

Multiphase Level-Set Loss for Semi-Supervised and Unsupervised Segmentation with Deep Learning

Authors Boah Kim, Jong Chul Ye

由于其高性能和快速計算時間，最新的現有圖像分割算法大多基于深度神經網絡。然而，這些方法通常以監督方式訓練，這需要大量高品質的地面真實分割掩模。另一方面，諸如水準集方法之類的經典圖像分割方法對于幫助生成沒有标簽的分割掩模仍然是有用的，但是這些算法通常在計算上是昂貴的并且通常在語義分割中具有局限性。在本文中，我們提出了一種新的多階段水準集損失函數，用于基于深度學習的語義圖像分割，不帶或帶有小标記資料。該損失函數基于以下觀察：深度神經網絡的softmax層與經典多相水準集算法中的特征函數具有驚人的相似性。我們證明了多階段水準集損失函數能夠實作半監督甚至無監督的語義分割。此外，我們的損失函數還可以用作正則化函數來增強監督語義分割算法。多個資料集的實驗結果證明了該方法的有效性。

Fast Spatio-Temporal Residual Network for Video Super-Resolution

Authors Sheng Li, Fengxiang He, Bo Du, Lefei Zhang, Yonghao Xu, Dacheng Tao

最近，基于深度學習的視訊超分辨率SR方法已經取得了很好的性能。為了同時利用視訊的空間和時間資訊，采用三維3D卷積是一種自然的方法。然而，直接利用3D卷積可能導緻過高的計算複雜度，這限制了視訊SR模型的深度并是以破壞了性能。在本文中，我們提出了一種新穎的快速時空殘留網絡FSTRN，用于視訊SR任務的3D卷積，以便在保持低計算負荷的同時提高性能。具體來說，我們提出了一種快速空間時間殘差塊FRB，它将每個3D濾波器劃分為兩個3D濾波器的乘積，這兩個濾波器具有相當低的尺寸。此外，我們設計了一個跨空間殘差學習，直接連結低分辨率空間和高分辨率空間，這可以大大減輕特征融合和向上縮放部分的計算負擔。對基準資料集的廣泛評估和比較驗證了所提出方法的優勢，并證明所提出的網絡明顯優于目前的現有技術方法。

Actively Seeking and Learning from Live Data

Authors Damien Teney, Anton van den Hengel

傳統機器學習方法的一個關鍵限制是它們需要訓練資料，這些資料例證了所有要學習的資訊。這是視覺問答方法的一個特殊問題，可能會被問到幾乎任何問題。我們提出的方法是通過搜尋測試時所需的資訊來克服此限制的一步。生成的方法動态地利用來自外部源的資料，例如大量問題答案或圖像标題。具體地說，我們學習了一組簡單VQA模型的基本權重，它們特别适用于給定問題，并具有針對該問題專門檢索的資訊。适應過程利用基于梯度的元學習的最新進展以及對有效檢索和跨域适應的貢獻。我們超越了VQA CP v2基準測試的最新技術水準，并證明了我們的方法對于分發測試資料本質上更加健壯。我們示範了使用MS COCO字幕資料集來使用外部非VQA資料來支援應答過程。這種方法為開放域VQA系統開辟了一條新途徑，該系統可與各種資料源進行互動。

Deep Tree Learning for Zero-shot Face Anti-Spoofing

Authors Yaojie Liu, Joel Stehouwer, Amin Jourabloo, Xiaoming Liu

面部反欺騙旨在使面部識别系統不會将假面部識别為真正的使用者。雖然開發了先進的面部反欺騙方法，但也正在建立新類型的欺騙攻擊并且對所有現有系統構成威脅。我們将未知欺騙攻擊的檢測定義為Zero Shot Face Anti spoofing ZSFA。以前ZSFA的作品隻研究了1種類型的惡搞攻擊，例如列印重播攻擊，這限制了這個問題的洞察力。在這項工作中，我們将ZSFA問題擴充到13種類型的欺騙攻擊，包括列印攻擊，重播攻擊，3D掩碼攻擊等。提出了一種新的深樹網絡DTN來解決ZSFA問題。學習樹以無人監督的方式将欺騙樣本劃分為語義子組。當資料樣本到達時，知道或未知的攻擊，DTN将其路由到最相似的欺騙群集，并做出二進制決策。此外，為了研究ZSFA，我們引入了第一個面部反欺騙資料庫，其中包含各種類型的惡搞攻擊。實驗表明，我們提出的方法達到了ZSFA多種測試協定的最新技術水準。

FLightNNs: Lightweight Quantized Deep Neural Networks for Fast and Accurate Inference

Authors Ruizhou Ding, Zeye Liu, Ting Wu Chin, Diana Marculescu, R. D. Shawn Blanton

為了提高深度神經網絡DNN在定制硬體上的吞吐量和能量效率，輕量級神經網絡将DNN的權重限制為有限組合，表示為2的2的幂中的k。在這樣的網絡中，乘法累加運算可以可以用單個換檔操作，或兩個換檔和一個添加操作來替換。為了提供更多的設計靈活性，可以最佳地選擇每個卷積濾波器的k而不是為每個濾波器固定。在本文中，我們将k的選擇制定為可微分，并描述用于基于每個濾波器确定基于k的權重的模型訓練。超過46個涉及8個配置和4個資料集的FPGA設計實驗表明，具有靈活k值的輕量級神經網絡（稱為FLightNN）充分利用了現場可程式設計門陣列FPGA上的硬體資源，我們的實驗結果表明，與之相比，FLightNN可以實作2倍的加速。帶有k 2的輕質NN，精度降低僅為0.1。與4位定點量化相比，FLightNN由于其輕量化的換檔操作而實作更高的精度和高達2倍的推理加速。此外，我們的實驗還證明了FLightNN可以實作更高的ASIC實作計算能效。

A Regularization Approach for Instance-Based Superset Label Learning

Authors Chen Gong, Tongliang Liu, Yuanyan Tang, Jian Yang, Jie Yang, Dacheng Tao

與傳統的監督學習不同，其中每個訓練示例僅具有一個顯式标簽，超集标簽學習SLL指的是訓練示例可以與一組候選标簽相關聯的問題，并且其中隻有一個是正确的。現有的SLL方法是基于正則化的或基于執行個體的，并且後者已經實作了最先進的性能。這是因為最新的基于執行個體的方法包含明确的消歧操作，該操作準确地從其模糊的候選标簽中擷取每個訓練示例的groundtruth标簽。然而，這種消歧操作并未充分考慮不同候選标簽之間的互斥關系，是以消歧标簽通常以非歧視方式生成，這對于基于執行個體的方法不利于獲得令人滿意的性能。為了解決這個缺陷，我們開發了一種新的正則化方法，例如基于超集标簽RegISL學習，是以我們的基于執行個體的方法也繼承了正則化方案所具有的良好判别能力。具體來說，我們使用圖表來表示訓練集，并要求圖表上相鄰的示例獲得類似的标簽。更重要的是，提出了一個歧視術語，以擴大可能标簽之間的價值差距，并為每個教育訓練示例提供不太可能的标簽。結果，部署了不同候選标簽之間的固有限制，并且由RegISL生成的消歧标簽比現有基于執行個體的算法輸出的标簽更具辨識性和準确性。各種任務的實驗結果令人信服地證明了我們的RegISL在訓練精度和測試精度方面對其他典型SLL方法的優越性。

Regularizing Activation Distribution for Training Binarized Deep Networks

Authors Ruizhou Ding, Ting Wu Chin, Zeye Liu, Diana Marculescu

二值化神經網絡BNN可以顯着減少資源受限裝置中的推理延遲和能量消耗，因為它們具有純邏輯計算和較少的記憶體通路。然而，訓練BNN是困難的，因為激活流遇到退化，飽和和梯度失配問題。先前的工作通過增加激活位和增加浮點縮放因子來緩解這些問題，進而犧牲了BNN的能量效率。在本文中，我們建議使用分布損失來明确地規範激活流程，并建立一個系統地制定損失的架構。我們的實驗表明，分布損失可以持續提高BNN的準确性，而不會失去其能量效益。此外，配備所提出的正則化，BNN訓練被證明對于包括優化器和學習速率的超參數的選擇是魯棒的。

Video Classification with Channel-Separated Convolutional Networks

Authors Du Tran, Heng Wang, Lorenzo Torresani, Matt Feiszli

已經表明，組卷積在用于圖像分類的各種2D卷積體系結構中提供了顯着的計算節省。很自然地問1組卷積是否有助于減輕視訊分類網絡的高計算成本2哪些因素在3D組卷積網絡中最重要，3什麼是良好的計算精度與3D組卷積網絡的權衡。

Assessment of Faster R-CNN in Man-Machine collaborative search

Authors Arturo Deza, Amit Surana, Miguel P. Eckstein

随着由深度學習驅動的現代專家系統的出現，補充人類專家，例如放射科醫師，皮膚科醫生，監視掃描器，我們分析這些專家系統如何以及何時在細粒度小目标視覺搜尋任務中提高人類表現。我們建立了一個2會話階乘實驗設計，人們可以在視覺上搜尋有和沒有深度學習DL專家系統的目标。我們在DL系統存在的情況下評估目标檢測性能和眼睛運動的人體變化。我們發現通過具有VGG16的更快R CNN計算的DL系統的性能改進與觀察者的感覺能力（例如，靈敏度）互相作用。主要結果包括1 DL系統降低了高靈敏度的觀察者組平均每個圖像的誤報率2隻有高靈敏度的人類觀察者比DL系統表現更好，而低靈敏度組不超過單個DL系統性能，即使在DL系統本身的幫助下3試驗次數的增加和觀察時間的減少主要是由DL系統僅針對低靈敏度組驅動的。 4 DL系統幫助人類觀察者通過第3次固定固定在目标上。這些結果提供了與人類協作或競争的深度學習系統的益處和局限性的見解。

VQD: Visual Query Detection in Natural Scenes

Authors Manoj Acharya, Karan Jariwala, Christopher Kanan

我們提出了Visual Query Detection VQD，一種新的視覺接地任務。在VQD中，系統由自然語言引導以在圖像中定位可變數量的對象。 VQD與視覺引用表達識别有關，其中任務是僅對一個對象進行本地化。我們描述了VQD的第一個資料集，我們提出了基準算法，證明了與引用表達識别相比較的任務難度。

Crowd Transformer Network

Authors Viresh Ranjan, Mubarak Shah, Minh Hoai Nguyen

在本文中，我們解決了人群計數問題，并提出了一種基于人群密度估計的方法來擷取人群數量。大多數現有的人群計數方法依賴于局部特征來估計人群密度圖。在這項工作中，我們研究了将本地和非本地特征結合起來進行人群統計的有用性。我們使用卷積層來提取局部特征，以及一種用于提取非局部特征的自我注意機制。我們結合了本地和非本地特征，并将其用于估計人群密度圖。我們對三個公開的Crowd Counting資料集進行了實驗，并且比以前的方法取得了顯着的改進。

Biometric Fish Classification of Temperate Species Using Convolutional Neural Network with Squeeze-and-Excitation

Authors Erlend Olsvik, Christian M. D. Trinh, Kristian Muri Knausg rd, Arne Wiklund, Tonje Knutsen S rdalen, Alf Ring Kleiven, Lei Jiao, Morten Goodwin

我們對有效監測和管理沿海生态系統的了解和能力受到觀察方法的嚴重限制。在自然環境中自動識别物種是一種很有前途的工具，它将徹底改變視訊和圖像分析，以适應海洋生态學的廣泛應用。然而，由于水中的噪聲和光照變化，從水下相機捕獲的圖像中對魚進行分類通常是非常具有挑戰性的。文獻中的先前分類方法依賴于過濾圖像以将魚與背景分離或通過去除背景噪聲來銳化圖像。該預過濾過程可能對分類準确性産生負面影響。在這項工作中，我們提出了一種卷積神經網絡CNN，它使用擠壓和激勵SE架構對魚類圖像進行分類而無需預先過濾。與傳統方案不同，該方案分為兩個步驟。第一步是通過公共資料集（即Fish4Knowledge）訓練魚類分類器，而不使用圖像增強，稱為預訓練。第二步是基于由我們感興趣的物種組成的新資料集訓練分類器，命名為後訓練。從訓練前獲得的權重作為先驗應用于訓練後。這也稱為轉學習。我們的解決方案在預訓練中實作了99.27精度的最新精度。教育訓練後的準确率為83.68。使用圖像增強進行後訓練的實驗産生了87.74的準确度，表明該解決方案對于更大的資料集是可行的。

Learning Implicit Generative Models by Matching Perceptual Features

Authors Cicero Nogueira dos Santos, Youssef Mroueh, Inkit Padhi, Pierre Dognin

感覺功能PF已經在轉學習，風格轉移和超分辨率等任務中取得了巨大成功。然而，PFs作為學習生成模型的關鍵資訊來源的功效尚未得到很好的研究。我們在此研究PF在通過矩比對MM學習隐式生成模型的背景下的使用。更具體地說，我們提出了一種新的有效MM方法，通過對從預訓練的ConvNets中提取的特征進行均值和協方差比對來學習隐式生成模型。我們提出的方法改進了現有的MM方法，進而擺脫了對抗性學習的有問題的最大遊戲2，避免了核心函數的線上學習，并且3對于使用的時刻和所需的小批量大小都是有效的。我們的實驗結果表明，由于來自預訓練深度ConvNets的PF的表現力，我們的方法實作了具有挑戰性基準的最先進結果。

Blind Visual Motif Removal from a Single Image

Authors Amir Hertz, Sharon Fogel, Rana Hanocka, Raja Giryes, Daniel Cohen Or

在網絡上共享的許多圖像包括重疊的對象，或視覺圖案，例如文本，符号或繪圖，其向圖像添加描述或裝飾。例如，指定圖像拍攝位置的裝飾性文本會在各種不同的圖像中重複出現。通常，重複出現的視覺主題在語義上相似，但在位置，風格和内容方面不同，例如，文字放置，字型和字母。這項工作提出了一種基于深度學習的技術，用于盲目去除這些物體。在盲區中，圖案的位置和精确幾何形狀是未知的。我們的方法同時估計哪些像素包含視覺主題，并合成潛在的潛在圖像。它被應用于單個輸入圖像，在指定圖案的位置時沒有任何使用者幫助，實作了用于盲目去除不透明和半透明視覺圖案的現有技術結果。

DeceptionNet: Network-Driven Domain Randomization

Authors Sergey Zakharov, Wadim Kehl, Slobodan Ilic

我們提出了一種新方法來解決合成資料和實際資料之間的域适應問題。我們不是采用盲域随機化，即增加具有随機背景或改變照明和着色的合成渲染，而是利用任務網絡作為其自身的對抗指南，以實作有用的增強，進而最大化輸出的不确定性。為此，我們設計了一個最小最大優化方案，其中給定任務與特殊欺騙網絡競争，目标是根據欺騙者強制執行的特定限制最小化任務錯誤。欺騙網絡從一系列可微分像素級擾動中采樣，并利用任務架構來找到最具破壞性的增強。與需要來自目标域的未标記資料的基于GAN的方法不同，我們的方法實作了強大的映射，可以很好地從源資料單獨擴充到多個目标分布。我們将我們的架構應用于增強的MNIST變體上的數字識别任務以及Cropped LineMOD資料集上的分類和對象姿态估計，并與許多域自适應方法進行比較，展示具有優異泛化能力的類似結果。

Learning to Cluster Faces on an Affinity Graph

Authors Lei Yang, Xiaohang Zhan, Dapeng Chen, Junjie Yan, Chen Change Loy, Dahua Lin

面部識别近年來取得了顯着進步，其表現達到了很高的水準。将其提升到一個新的水準需要更大的資料，這将涉及過高的注釋成本。是以，利用未标記的資料成為一種有吸引力的選擇。最近的工作表明，聚集未标記的面是一種很有前景的方法，通常會帶來顯着的性能提升。然而，如何有效地聚類，特别是在大規模，即百萬級或更進階别的資料集上，仍然是一個懸而未決的問題。一個關鍵的挑戰在于群集模式的複雜變化，這使得傳統的聚類方法難以滿足所需的準确性。這項工作探索了一種新穎的方法，即學習叢集而不是依靠手工制作的标準。具體來說，我們提出了一個基于圖卷積網絡的架構，它結合了檢測和分割子產品來精确定位面部聚類。實驗表明，我們的方法可以産生更精确的面部聚類，進而也可以在人臉識别中獲得進一步的性能提升。

Learning to Remember: A Synaptic Plasticity Driven Framework for Continual Learning

Authors Oleksiy Ostapenko, Mihai Puscas, Tassilo Klein, Patrick J hnichen, Moin Nabi

在持續學習CL的背景下訓練的模型應該能夠在不确定的時間段内從資料流中學習。這裡面臨的主要挑戰是保持舊知識，同時在學習新任務時從中受益，2保證模型可擴充性，并且需要學習越來越多的資料。為了應對這些挑戰，我們引入了動态生成記憶DGM，這是一種用于持續學習的突觸可塑性驅動架構。 DGM依賴于條件生成對抗網絡，通過神經掩蔽實作可學習的連接配接可塑性。具體來說，我們評估應用于i層激活的兩種神經掩蔽變體，以及ii直接連接配接權重。此外，我們提出了一種動态網絡擴充機制，可確定足夠的模型容量以适應不斷傳入的任務。增加的容量是從學習的二進制掩碼動态确定的。我們在視覺分類任務的連續類增量設定中評估DGM。

Controlling Neural Networks via Energy Dissipation

Authors Michael Moeller, Thomas M llenhoff, Daniel Cremers

過去十年在借助深度學習技術解決各種計算機視覺問題方面取得了巨大成功。最近，許多作品已經證明，具有合适的網絡架構的基于學習的方法甚至表現出用于解決諸如去模糊，超分辨率或醫學圖像重建之類的病态圖像重建問題的優越性能。然而，純粹基于學習的方法的缺點是它們不能為訓練的網絡在推理期間遵循給定的資料形成過程提供可證明的保證。在這項工作中，我們提出了能量消散網絡，它疊代地計算相對于目前估計重建的給定成本函數或能量的下降方向。是以，諸如線搜尋的自适應步長規則以及适當數量的疊代可以保證重建遵循以能量編碼的給定資料形成模型到任意精度，并是以即使在測試時間期間也控制模型的行為。我們證明，在标準假設下，使用網絡預測的方向下降線性收斂到全球最小能量。我們在單圖像超分辨率和計算機斷層掃描CT重建的實驗中說明了所提出的方法的有效性，并進一步說明了凸可行性問題的擴充。

A Hybrid Approach with Optimization and Metric-based Meta-Learner for Few-Shot Learning

Authors Duo Wang, Yu Cheng, Mo Yu, Xiaoxiao Guo, Tao Zhang

幾乎沒有鏡頭學習的目的是學習新課程的分類器，每班隻有一些訓練樣例。大多數現有的幾種鏡頭學習方法屬于基于度量的元學習或基于優化的元學習類别，兩者都在簡化的k shot N way圖像分類設定中取得了成功。具體地，基于優化的方法訓練元學習器以預測任務特定分類器的參數。特定于任務的分類器需要是同構的，以便于參數預測，是以元學習方法隻能處理幾個鏡頭學習問題，其中任務共享統一數量的類。基于度量的方法為所有任務學習一個任務不變度量。即使度量學習方法允許不同數量的類，它們也要求所有來自類似域的任務，以便存在可以跨任務工作的統一度量。在這項工作中，我們提出了一個名為Meta Metric Learner的混合元學習模型，它結合了優化和基于度量的方法的優點。我們的元度量學習方法包括兩個元件，一個基于任務特定度量的學習者作為基礎模型，以及一個學習和指定基礎模型的元學習器。是以，我們的模型能夠處理靈活數量的類，并為任務之間的分類生成更通用的度量标準。我們在标準k鏡頭N方式測試我們的方法以前的工作之後的幾個鏡頭學習設定和在單一源形式和多源形式中具有靈活類别編号的新的實際幾個鏡頭設定。實驗表明，我們的方法可以在所有設定中獲得卓越的性能。

Blind Deconvolution Microscopy Using Cycle Consistent CNN with Explicit PSF Layer

Authors Sungjun Lim, Sang Eun Lee, Sunghoe Chang, Jong Chul Ye

反卷積顯微鏡已被廣泛用于改善寬場熒光顯微鏡的分辨率。然而，通常需要點擴散函數PSF測量或盲估計的正常方法在計算上是昂貴的。最近，基于CNN的方法已被探索為快速和高性能的替代方案。在本文中，我們提出了一種新的無監督深度神經網絡，用于基于循環一緻性和PSF模組化層的盲反褶積。與最近針對類似問題的CNN方法相比，顯式PSF模組化層提高了算法的魯棒性。實驗結果證明了該算法的有效性。

Single-Path NAS: Designing Hardware-Efficient ConvNets in less than 4 Hours

Authors Dimitrios Stamoulis, Ruizhou Ding, Di Wang, Dimitrios Lymberopoulos, Bodhi Priyantha, Jie Liu, Diana Marculescu

我們能否在移動裝置的運作時限制下自動設計具有最高圖像分類精度的卷積網絡ConvNet神經架構搜尋NAS通過自動化此過程徹底改變了硬體高效ConvNets的設計。然而，由于組合大的設計空間，NAS問題仍然具有挑戰性，導緻至少200個GPU小時的顯着搜尋時間。為了減輕這種複雜性，我們提出了單路徑NAS，這是一種新穎的可區分NAS方法，可在不到4小時内設計出硬體高效的ConvNets。我們的研究成果如下1.單路徑搜尋空間相比前微NAS方法，單路徑NAS使用一個單一的路徑，通過參數ConvNet編碼所有架構決策與共享卷積核心參數，進而極大地降低訓練的參數和搜尋的數量成本低至幾個時代。 2.硬體高效的ImageNet分類單路徑NAS在ImageNet上實作了74.96的前1精度，在Pixel 1手機上具有79ms的延遲，與具有類似限制80ms的NAS方法相比，這是最先進的精度。 3. NAS效率單路徑NAS搜尋成本僅為8個時段30 TPU小時，與之前的工作相比，速度提高了5,000倍。 4.再現性與最近隻釋出預訓練模型的所有移動高效NAS方法不同，我們開源整個代碼庫

Deep Learning-based Universal Beamformer for Ultrasound Imaging

Authors Shujaat Khan, Jaeyoung Huh, Jong Chul Ye

在超聲US成像中，在應用特定延遲之後，各個通道RF測量被反向傳播和累積以形成圖像。雖然這種時間反轉通常使用基于硬體或軟體的延遲和求和DAS波束形成器來實作，但是在資料采集不理想的情況下，DAS的性能迅速降低。在這裡，我們首次證明了設計為深度神經網絡的單個資料驅動波束形成器可以直接處理以不同采樣率采集的子采樣RF資料，以生成高品質的US圖像。特别地，所提出的深波束形成器被評估用于聚焦超聲成像和平面波成像的兩種不同采集方案。

Neural Models of the Psychosemantics of `Most'

Authors Lewis O Sullivan, Shane Steinert Threlkeld

語言表達的含義與它們在具體認知任務中的使用有何關聯視覺識别任務表明，人類說話者在了解，表達和驗證某些量詞方面可能表現出相當大的差異。本文開始研究這些心理語義任務的神經模型。我們在citet Pietroski2009的最大驗證任務中訓練了兩種類型的網絡卷積神經網絡CNN模型和視覺注意RAM的循環模型，操縱視覺場景和任務持續時間的新概念。我們的結果定性地反映了人類表現的某些特征，例如對設定大小的比率的敏感性，表明依賴于近似數字，同時以有趣的方式不同，例如對于圖像類型的效果呈現微妙不同的圖案。最後，我們讨論了使用神經模型作為這個和其他心理學任務的認知模型的前景。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩請移步首頁

【今日CV 計算機視覺論文速覽第96期】 8 Apr 2019

pic from pixels.com

【今日CV 計算機視覺論文速覽第96期】 8 Apr 2019

Interesting:

Daily Computer Vision Papers

繼續閱讀

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

【今日CV 計算機視覺論文速覽 第96期】 8 Apr 2019

Interesting:

Daily Computer Vision Papers

繼續閱讀

【今日CV 計算機視覺論文速覽第96期】 8 Apr 2019