【AI視野·今日CV 計算機視覺論文速覽第215期】Tue, 8 Jun 2021

AI視野·今日CS.CV 計算機視覺論文速覽

Tue, 8 Jun 2021 (showing first 100 of 133 entries)

Totally 100 papers

👉上期速覽✈更多精彩請移步首頁

Daily Computer Vision Papers

SIMONe: View-Invariant, Temporally-Abstracted Object Representations via Unsupervised Video Decomposition

Authors Rishabh Kabra, Daniel Zoran, Goker Erdogan, Loic Matthey, Antonia Creswell, Matthew Botvinick, Alexander Lerchner, Christopher P. Burgess

為了幫助代理關于其建構塊的場景的原因，我們希望特别地提取任何給定場景的組成結構，包括該場景的對象的配置和特征。當需要推斷出現在估計代理S位置觀點時，當需要推斷出場景的情況時，這個問題特别困難，因為兩個變量聯合引起代理人的觀察。我們提出了一種對這個問題的無監督變分方法。利用在不同場景中存在的共享結構，我們的模型學會從RGB視訊輸入兩組潛在表示，單獨一組對象潛伏，對應于場景的時間不變，對象級内容以及一組幀延遲，對應于全局時間變化元素，例如視點。潛伏者的這種分解允許我們的模型Simone，以分類方式表示對象屬性，其不依賴于視點。此外，它允許我們分解對象動态，并随着時間抽象，檢視不變，每個對象屬性，總結其軌迹。我們在三個程式生成的視訊資料集中展示了這些功能，以及在檢視合成和執行個體分段方面的模型性能。

Mean-Shifted Contrastive Loss for Anomaly Detection

Authors Tal Reiss, Yedid Hoshen

深度異常檢測方法學習在正常和異常樣品之間分離的表示。當強大的外部訓練的特征提取器時，獲得非常有效的表示。預先教育訓練的記憶體在想象中教育訓練是微調的，該訓練資料包括正常樣本和沒有異常。然而，這是一項艱巨的任務，可以遭受災難性的崩潰，即它容易學習微不足道和非特定功能。在本文中，我們提出了一種新的損失功能，可以克服中心損失和對比損耗方法的失效模式。此外，我們将其與置信度不變角度損失相結合，這取代了以前的工作中使用的歐幾裡德距離，這對預測信心很敏感。我們的改善産生了一種新的異常檢測方法，基于紡織品意味着對比損失，這對災難性崩潰比以前的方法更準确，更敏感。我們的方法在CIFAR 10資料集上實作了在多個基準上的藝術異常檢測性能的狀态，包括97.5 ROC AUC。

NTIRE 2021 Challenge on Burst Super-Resolution: Methods and Results

Authors Goutam Bhat, Martin Danelljan, Radu Timofte, Kazutoshi Akita, Wooyeong Cho, Haoqiang Fan, Lanpeng Jia, Daeshik Kim, Bruno Lecouat, Youwei Li, Shuaicheng Liu, Ziluan Liu, Ziwei Luo, Takahiro Maeda, Julien Mairal, Christian Micheloni, Xuan Mo, Takeru Oba, Pavel Ostyakov, Jean Ponce, Sanghyeok Son, Jian Sun, Norimichi Ukita, Rao Muhammad Umer, Youliang Yan, Lei Yu, Magauiya Zhussip, Xueyi Zou

本文評論了NTIRE2021對爆發超級分辨率的挑戰。鑒于原始嘈雜的爆發作為輸入，挑戰中的任務是生成一個清潔的RGB圖像，分辨率高出4倍。挑戰包含兩條曲目1在綜合生成的資料上評估，以及使用來自移動攝像頭的真實世界突發的跟蹤2。在最終的測試階段，6支隊伍使用不同的解決方案送出了結果。頂部執行方法為突發超分辨率任務設定了新的最新狀态。

High Resolution Solar Image Generation using Generative Adversarial Networks

Authors Ankan Dash, Junyi Ye, Guiling Wang

我們應用了被稱為生成的對抗性網絡GAN的深度學習算法，以将太陽能圖像進行圖像轉換。也就是說，從太陽能動力學天文台SDO Helioseismic和磁性成像儀HMI視線磁力照片圖像到SDO大氣成像元件AIA 0304圖像。紫外線紫外極端紫外線EUV觀測，如SDO AIA0304圖像，即使在20世紀70年代以來的SDO HMI等Magenetic田間觀測，也隻能向科學家提供科學家。是以，通過利用像GAN這樣的深度學習算法，我們可以為科學家提供完整的資料集進行分析。為了生成高分辨率太陽能圖像，我們使用PIX2PIXHD和PIX2PIX算法。 PIX2PIXHD算法專門為高分辨率圖像生成任務設計，并且PIX2PIX算法是迄今為止對圖像轉換算法的最廣泛使用的圖像。為了教育訓練和測試，我們使用了2012年，2013年和2014年的資料。結果表明，我們的深度學習模型能夠從HMI磁圖産生高分辨率1024 x 1024像素AIA0304圖像。具體地，PIX2PIXHD和原始圖像生成的圖像的像素PEARSON相關系數的像素高達0.99。如果PIX2PIX用于生成圖像，則該數字為0.962。我們為我們的PIX2PIXHD模型獲得的結果優于以前由他人完成的先前作品獲得的結果來生成AIA0304圖像。是以，我們可以使用這些模型在不可用的AIA0304資料時生成AIA0304圖像，這可以用于了解空間天氣并給予研究人員預測太陽能事件（如太陽能耀斑和冠狀大量噴射）的能力。據我們所知，我們的作品是第一次嘗試利用Pix2Pixhd算法将SDO HMI算法到SDO AIA0304圖像到圖像轉換。

3DB: A Framework for Debugging Computer Vision Models

Authors Guillaume Leclerc, Hadi Salman, Andrew Ilyas, Sai Vemprala, Logan Engstrom, Vibhav Vineet, Kai Xiao, Pengchuan Zhang, Shibani Santurkar, Greg Yang, Ashish Kapoor, Aleksander Madry

我們介紹3DB一個可擴充的統一架構，用于使用光保護模拟測試和調試視覺模型。我們通過廣泛的使用情況展示，3DB允許使用者在計算機視覺系統中發現漏洞，并在模型做出決策時獲得見解。 3DB捕獲并概括了來自現有工作的許多穩健性分析，并啟用一個人可以研究它們的互相作用。最後，我們發現系統轉移到實體世界産生的見解。

Visual Transformer for Task-aware Active Learning

Authors Razvan Caramalau, Binod Bhattarai, Tae Kyun Kim

基于池基于主動學習的采樣代表了在處理深度學習模型時注釋資訊資料的關鍵架構。在本文中，我們提出了一種基于池的主動學習的新型管道。與最先前的作品不同，我們的方法在教育訓練期間利用可通路的未标記示例，以估計其與标記示例的同一關系。本文的另一個貢獻是将可視變壓器視為AL管道中的采樣器。可視變壓器在标記和未标記的示例之間模拟非本地視覺概念依賴性，這對于識别影響的未标記示例至關重要。另外，與現有方法相比，學習者和采樣器以多階段方式教育訓練，我們建議将它們教育訓練，以意識到的方式，這使得可以将潛在空間轉換為兩個單獨的任務，該任務将其分類為另一個單獨的任務區分标簽方向。我們評估了我們在四種不同具有挑戰性的分類基準的工作和檢測任務viz的工作。 CiFar10，CiFar100，FashionMnist，Rafd和Pascal VOC 2007.我們廣泛的實證和定性評估表明了與現有方法相比我們的方法的優越性。可用的代碼

DoubleField: Bridging the Neural Surface and Radiance Fields for High-fidelity Human Rendering

Authors Ruizhi Shao, Hongwen Zhang, He Zhang, Yanpei Cao, Tao Yu, Yebin Liu

我們介紹了Doublefield，一種新穎的表示，結合了高保真人類渲染的表面場和輻射場的優點。在DoubleField中，表面字段和輻射字段通過共享特征嵌入和表面引導采樣政策相關聯。通過這種方式，Doublefield具有用于幾何和外觀模組化的持續但不誠度的學習空間，支援快速訓練，推理和芬降。為了實作高保真性的無視點渲染，進一步增強了DoubleField以利用超高分辨率輸入，其中介紹了從原始分辨率處的稀疏視圖輸入的更有效的學習和傳輸學習方案的視圖。通過幾個資料集的定量評估驗證了Doublefield的功效，并且在真實世界稀疏多視圖系統中的定性結果，顯示了其優越的照片現實自由觀點人類渲染能力。對于代碼和示範視訊，請參閱我們的項目頁面

Drone-based AI and 3D Reconstruction for Digital Twin Augmentation

Authors Alex To, Maican Liu, Muhammad Hazeeq Bin Muhammad Hairul, Joseph G. Davis, Jeannie S.A. Lee, Henrik Hesse, Hoang D. Nguyen

數字雙胞胎是一個處于行業4.0的最前沿的新興技術，最終目标是結合實體空間和虛拟空間。迄今為止，數字雙胞胎概念已應用于許多工程領域，在工程設計，制造，自動化和建築業的領域提供有用的見解。雖然各種技術的Nexus與數字雙胞胎開辟了新的機會，但該技術需要一個架構來整合不同的技術，例如建築和建築行業的建築資訊模型。在這項工作中，提出了一種資訊融合架構，以從所涉及的各種技術的數字雙胞胎架構中無縫熔斷異構元件。本研究旨在通過使用無人駕駛航空公司的AI和3D重建來增加建築物中的數字雙胞胎。我們提出了一種具有可重用和可定制元件的無人機的數字雙增強架構。還開發了概念證明，并且對AI的3D重建和應用進行了廣泛的評估，用于缺陷檢測。

CDN-MEDAL: Two-stage Density and Difference Approximation Framework for Motion Analysis

Authors Synh Viet Uyen Ha, Cuong Tien Nguyen, Hung Ngoc Phan, Nhat Minh Chung, Phuong Hoai Ha

背景技術模組化是具有各種視訊監控應用的視訊分析中的一個有前途的研究領域。近年來通過運動分析中的有效學習方法目睹了深神經網絡的擴散。然而，這些技術僅提供對觀察到的場景的有限描述，其特性不足，其中學習單個值映射以近似目标背景的時間條件平均值。另一方面，圖像域中的統計學習已經成為最普遍的方法之一，具有高适應動态背景變換，特别是高斯混合模型，與前景提取步驟相結合。在這項工作中，我們提出了一種新穎的，兩階段的改變檢測方法，具有兩個卷積神經網絡。第一個架構基于無監督的高斯混合統計學習，以描述景觀特征。第二個實作了前景檢測的重量級管線。我們的兩個階段架構總共包含大約3.5k的參數，但仍然保持快速收斂到複雜的運動模式。我們在公開可用的資料集上的實驗表明，我們的建議網絡不僅能夠在未知的案例中概括移動物體的區域，并且在具有前景效率和關于前景分割的效率方面也具有競争力。

Digital Taxonomist: Identifying Plant Species in Citizen Scientists' Photographs

Authors Riccardo de Lutio, Yihang She, Stefano D Aronco, Stefania Russo, Philipp Brun, Jan D. Wegner, Konrad Schindler

自動識别業餘照片的植物标本可以改善物種範圍地圖，進而支援生态系統的研究以及保護努力。然而，僅基于圖像資料的分類植物标本挑戰某些物種在視覺外觀上表現出大的變化，而在同時不同的物種通常在視覺上相似，物種觀察遵循高度不平衡的，由于豐富的差異而遵循高度不平衡的長尾分布。以及觀察者偏見。另一方面，大多數物種觀察伴随着關于空間，時間和生态背景的側面資訊。此外，生物物種不是無序的類别清單，而是嵌入分類分類結構。我們提出了一種機器學習模型，該模型考慮了統一架構中的這些額外的提示。我們的數字分類家能夠更正确地識别照片中的植物物種。

Learning Dynamics via Graph Neural Networks for Human Pose Estimation and Tracking

Authors Yiding Yang, Zhou Ren, Haoxiang Li, Chunluan Zhou, Xinchao Wang, Gang Hua

多人姿态估計和跟蹤作為視訊了解的關鍵步驟。最先進的技術方法依賴于每個幀中的首先估計姿勢，并且僅實作資料關聯和細化。盡管取得了有希望的成果，但這種政策不可避免地忽略了尤其是在嚴重雜亂的場景中錯過的檢測，因為通過自然來說，這種追蹤是基本上依賴于在閉塞的情況下不存在的視覺證據。在本文中，我們提出了一種新的線上方法來學習姿勢動态，它們與目前名稱的姿勢檢測無關，是以即使在包括遮擋的具有挑戰性的情況下也可以作為穩健的估計。具體而言，我們通過圖形神經網絡GNN從明确地占空間時間和視覺資訊的圖形GNN來實作這種動态預測。它需要輸入曆史姿勢軌迹，并且直接預測每個軌道的以下幀中的相應姿勢。然後将預測的姿勢将被檢測到的姿勢（如果有）在同一幀處聚合，以便産生最終姿勢，可能恢複估計器錯過的遮擋關節。 Posetrack 2017和Posetrack 2018資料集的實驗表明，該方法在人類姿勢估算和跟蹤任務中實作了優于現有技術的結果。

Few-Shot Unsupervised Image-to-Image Translation on complex scenes

Authors Luca Barras, Samuel Chassot, Daniel Filipe Nunes Silva

未經監督的圖像到圖像翻譯方法在過去幾年中受到了很多關注。出現了解決不同觀點的初始挑戰的多種技術。一些專注于從幾個目标樣式圖像中學習的焦點，而其他目标風格圖像在其他利用對象檢測，以便在内容豐富的場景中産生更現實的結果。在這項工作中，我們評估最初用于單個對象翻譯的方法如何在更多樣化和豐富的圖像上執行。我們的作品基于Funit 1架構，我們用更多樣化的資料集訓練它。這有助于了解此類方法的行為如何超出其初始應用程式幀。我們提出了一種基于對象檢測擴充資料集的方法。此外，我們提出了一種方法來調整機器架構，以利用物體檢測的力量，即可以在其他方法中看到。

Bias Mitigation of Face Recognition Models Through Calibration

Authors Tiago Salvador, Stephanie Cairns, Vikram Voleti, Noah Marshall, Adam Oberman

面部識别模型遭受偏見，例如，虛假陽性不正确面部比對的機率強烈取決于像種族這樣的敏感屬性。結果，當在執法中使用時，這些模型可能對少數群體産生負面影響。在這項工作中，我們介紹了偏置緩解校準BMC方法，我提高了模型精度，提高了現有技術，II産生相當校準的機率，III顯着降低了假陽性率的差距，IV不需要了解敏感屬性。

HERS Superpixels: Deep Affinity Learning for Hierarchical Entropy Rate Segmentation

Authors Hankui Peng, Angelica I. Aviles Rivero, Carola Bibiane Schonlieb

Superpixels作為許多計算機視覺任務中的強大預處理工具。通過使用Superpixel表示，圖像基元的數量可以大大降低倍數。大多數Superpixel方法使用手工制作功能，這通常不會平移到對目标邊界的強烈依從性。最近最近的超像素方法引入了Superpixel分段過程的深度學習。然而，這些方法都不能夠在近實時生産超像素，這對于在實踐中的超像素方法的适用性至關重要。在這項工作中，我們提出了一種基于階段的基于圖形的Superpixel分段架構。在第一階段，我們通過聚合多尺度資訊來介紹一個有效的深度親和學習DAL網絡，其學習成對像素關聯。在第二階段，我們提出了一種稱為分層熵速率分割的高效超像素方法。使用來自第一階段的學習親和力，HERS建構了一個分層樹結構，可以瞬間生産任何數量的高度自适應超像素。我們通過視覺和數值實驗證明了我們的方法的有效性和效率與各種狀态的藝術超像素方法相比。

Efficient Training of Visual Transformers with Small-Size Datasets

Authors Yahui Liu, Enver Sangineto, Wei Bi, Nicu Sebe, Bruno Lepri, Marco De Nadai

Visual Transformers VTS作為卷積網絡CNNS的架構範式替代。與CNN不同，VT可以捕獲圖像元素之間的全局關系，并且它們可能具有更大的表示容量。然而，典型的卷積電感偏差缺乏使這些模型比普通的CNN更饑餓更多的資料。事實上，在VTS中嵌入在CNN架構設計中的一些本地屬性，應該從樣本中學到。在本文中，我們經驗經驗分析了不同的VTS，比較了他們在小型訓練制度中的魯棒性，并且我們表明，盡管在想象中訓練時具有可比的準确性，但它們在較小資料集上的性能可能很大程度上不同。此外，我們提出了一種自我監督的任務，可以從圖像中提取其他資訊，隻有可忽略的計算開銷。這項任務鼓勵VTS學習圖像内的空間關系，并使VT教育訓練在訓練資料稀缺時更加強勁。我們的任務與标準的監督教育訓練共同使用，它不依賴于特定的架構選擇，是以它可以很容易地插入現有的VTS。使用與不同的VTS和資料集進行廣泛的評估，我們表明我們的方法有時可以急劇提高VTS的最終精度。代碼将在接受時提供。

Unsupervised Action Segmentation for Instructional Videos

Authors AJ Piergiovanni, Anelia Angelova, Michael S. Ryoo, Irfan Essa

在本文中，我們解決了從教學視訊中以無監督的方式發現原子動作的問題，這很少以原子行動注釋。我們提出了一種無監督的方法，以根據視訊分割的順序随機自回轉模型從各種教學視訊中學習結構化人類任務的原子行動。這将學習表示并發現任務的不同原子動作之間的順序關系，并提供自動和無監督的自我标記。

Reveal of Vision Transformers Robustness against Adversarial Attacks

Authors Ahmed Aldahdooh, Wassim Hamidouche, Olivier Deforges

基于關注的網絡在許多計算機視覺任務中實作了最先進的性能，例如圖像分類。與卷積神經網絡CNN不同，Vanilla Vision變壓器Vit的主要部分是注意力塊，它帶來了模仿輸入圖像的全局背景的力量。這種力量是資料饑餓，是以，訓練資料越大，性能越好。為了克服這種限制，已經提出了許多基于Vit基于VIT的網絡或混合vt，包括在訓練期間包括當地背景。 VITS及其變體對抗對抗攻擊的魯棒性并未被廣泛投資于文獻中。在以前的一些作品中揭示了一些穩健性屬性，是以，更多的洞察力穩健性屬性尚未迷失。在施加預處理防禦方法之後，研究與在普發的防禦方法中的逆勢執行個體AES下的CNN和2相比，研究VIT變體1對不同L p基于對抗的對抗的抗體攻擊的魯棒性。為此，我們從ImageNet 1K上運作一組實驗，然後提供了一種分析，顯示Vanilla Vit或雜種Vit比CNN更魯棒。例如，我們發現，1 Vanilla Vits或混合Vits比L 0，L 1，L 2，L流入下的CNNS更強大，并且CCP攻擊的CNN。 2 vanilla Vits沒有響應主要減少高頻分量的預處理防禦，而混合vits對這種防禦更加響應。 3 CCP可以用作預處理防禦，并且發現較大的VIT變體比其他模型更響應。此外，提供了具有圖像品質措施的特征圖，注意力映射和漸變凸輪可視化，以及擾動能量譜的見解了解基于關注的模型。

Person Re-Identification with a Locally Aware Transformer

Authors Charu Sharma, Siddhant R. Kapil, David Chapman

人員RE識别是基于計算機視覺的監視應用中的重要問題，其中同一個人試圖從各種附近區域中的監控照片中識别。目前，大多數人RE ID技術基于卷積神經網絡CNN，但是視覺變形金機開始取代純CNN的各種對象識别任務。視覺變換器的主要輸出是全局分類令牌，但視覺變換器還産生本地令牌，其中包含有關圖像的本地區域的附加資訊。利用這些本地代币來提高分類準确性的技術是一個有效的研究領域。我們提出了一種新穎的本地知識變壓器LA變壓器，采用基于零件的卷積基線PCB啟發政策，将全局增強的本地分類代币聚集到SQRT N分類器的集合中，其中N是更新檔的數量。額外的新穎之處在于我們納入塊狀微調，進一步提高了RE ID精度。 La變壓器具有塊狀精細調諧，在市場上的标準偏差為0.13和98.7的标準偏差分别在CUHK03資料集中标準偏差，在寫作時，标準偏差為0.13的标準偏差。

Incremental False Negative Detection for Contrastive Learning

Authors Tsai Shien Chen, Wei Chih Hung, Hung Yu Tseng, Shao Yi Chien, Ming Hsuan Yang

自我監督的學習最近通過對比學習在視覺任務中顯示出巨大的潛力，這旨在在資料集中區分每個圖像或執行個體。然而，這種執行個體級别學習忽略了執行個體之間的語義關系，并從語義相似的樣本同樣地排斥錨，被稱為假否定。在這項工作中，我們首先經驗突出顯示虛假否定的不利影響對于包含更多語義概念的資料集來說更為重要。為了解決這個問題，我們介紹了自我監督對比學習的新型增量假陰性檢測。在教育訓練過程之後，當編碼器逐漸教育訓練并且嵌入空間變得更加語義上結構時，我們的方法逐漸檢測更可靠的假底片。随後，在對比學習期間，我們讨論了兩種政策，明确地删除了檢測到的錯誤否定。廣泛的實驗表明，我們所提出的方法在有限計算中的多個基準上表現出其他自我監督的對比學習架構。

Refiner: Refining Self-attention for Vision Transformers

Authors Daquan Zhou, Yujun Shi, Bingyi Kang, Weihao Yu, Zihang Jiang, Yuan Li, Xiaojie Jin, Qibin Hou, Jiashi Feng

與CNN相比，視覺變壓器VITS在圖像分類任務中顯示了競争精度。然而，它們通常需要更多的資料進行模型預教育訓練。是以，最近的大部分作品都緻力于設計更複雜的架構或教育訓練方法來解決VITS的資料效率問題。然而，其中很少有人探讨改善自我關注機制，是區分VITS的關鍵因素。與現有的作品不同，我們介紹了一個概念上簡單的計劃，稱煉油機，直接完善VITS的自我注意圖。具體而言，煉油廠探讨了注意力擴充，将多頭注意映射到更高的尺寸空間，以促進其多樣性。此外，煉油廠應用卷積來增加注意地圖的本地模式，我們向我們展示相當于分布式本地注意功能，與學習核心在本地聚合，然後通過自我關注全球聚合。廣泛的實驗表明，煉油廠令人驚訝。值得注意的是，它使VITS能夠在ImageNet上實作86個頂級分類準确性，隻有81米參數。

Deep Learning 3D Dose Prediction for Conventional Lung IMRT Using Consistent/Unbiased Automated Plans

Authors Navdeep Dahiya, Gourav Jhanwar, Anthony Yezzi, Masoud Zarepisheh, Saad Nadeem

深入學習DL 3D劑量預測最近獲得了很多關注。然而，訓練資料集中的計劃品質的可變性，由具有廣泛專業知識的規劃人員手動生成，可以大大影響最終預測的品質。此外，臨床标準的任何變化需要規劃人員需要一組新的手動制定的計劃來建構新的預測模型。在這項工作中，我們使用我們在名為Echo的House自動化規劃系統生成的一緻計劃來教育訓練DL模型。 Echo加急限制分層優化通過順序解決大規模限制優化問題來生成一緻的無偏見計劃。如果臨床标準發生變化，可以使用回聲，沒有或有限的人工幹預，可以輕松地将新的訓練資料集能夠輕松地生成，使基于DL基于DL的預測模型适應臨床實踐的變化。我們使用120例正常肺患者100進行訓練，20用于使用不同的光束配置進行測試，并使用手動産生的DL模型和自動回聲計劃教育訓練。我們評估了不同輸入1 CT PTV OAR輪廓，以及2 CT輪廓光束配置，以及不同的損耗功能1 MAE平均值誤差，2 MAE DVH劑量塊直方圖。使用不同的DVH名額以及劑量評分和DVH得分，最近被AAPM知識的規劃巨大挑戰所介紹，預測的品質。使用自動回聲計劃和CT輪廓光束作為訓練輸入和MAE DVH作為損耗功能獲得的最佳結果。

Detection of marine floating plastic using Sentinel-2 imagery and machine learning models

Authors Srikanta Sannigrahi, Bidroha Basu, Arunima Sarkar Basu, Francesco Pilla

越來越多的海洋塑膠污染水準對海洋生态系統和生物多樣性的嚴重威脅。本研究試圖探索開放的Sentinel衛星資料和ML模型的全功能，用于檢測和分類浮動塑膠碎片在米蒂利尼希臘，利馬索爾塞普勒斯，卡拉布裡亞意大利和貝魯特黎巴嫩的浮動塑膠碎片。兩個ML型号，即支援向量機SVM和随機森林RF進行分類分析。在原位塑膠位置資料被從米中，希臘和利馬索爾，塞普勒斯進行的對照實驗中收集，并且考慮了教育訓練模型的同樣。遙感頻帶和光譜索引都用于開發ML模型。為塑膠的光譜特征型材，用于區分來自其他海洋碎片的浮動塑膠。新開發的指數，核心歸一化差異植被指數Kndvi納入模組化，以檢查其對模型性能的貢獻。 SVM和RF都在五種模型中進行了很好的表現，并且測試案例組合。在兩個ML模型中，測量RF的最高性能。發現了kndvi有效并增加了模型性能，而模型表現，通過針對SVM的模型280至98測量的高平衡精度反映為RF的87至97。使用最佳執行的模型，在Calabria和Beirut開發并測試了自動浮動塑膠檢測系統。對于這兩個網站，訓練有素的模型檢測到浮動塑膠，精度為99。在六個預測因子中，FDI被發現是檢測海洋浮動塑膠的最重要變量。這些調查結果共同提出，高分辨率遙感圖像和自動化ML模型可以是船用浮動塑膠的成本有效檢測的有效替代方案。

Open source disease analysis system of cactus by artificial intelligence and image processing

Authors Kanlayanee Kaweesinsakul, Siranee Nuchitprasitchai, Joshua M. Pearce

由于衆多仙人掌從室内用來食品和藥用應用，仙人掌培養越來越感興趣。各種疾病會影響仙人掌的生長。開發用于分析仙人掌病的自動化模型，并能夠快速治療和防止仙人掌損壞。用于分析仙人掌疾病的速率較快的R CNN和YOLO算法技術，将仙人掌疾病分成六組1 anthracnose，2隻潰瘍，3缺乏護理，4個蚜蟲，5鏽病和6個正常組。基于實驗結果，發現yolov5算法在檢測和識别仙人掌疾病方面更有效地比R CNN算法更有效。使用yolov5s模型的資料教育訓練和測試導緻了89.7的精确度，精度召回為98.5，這對于在仙人掌培養中的許多應用中有效。總體而言，YOLOV5算法每張圖像的測試時間僅為26毫秒。是以，發現yolov5算法适用于移動應用，并且該模型可以進一步開發成用于分析仙人掌病的程式。

Recovery Analysis for Plug-and-Play Priors using the Restricted Eigenvalue Condition

Authors Jiaming Liu, M. Salman Asif, Brendt Wohlberg, Ulugbek S. Kamilov

通過剝奪紅色方法通過利用預訓練的深脫落器作為圖像前導者來解決逆問題，即可廣泛用于解決逆問題。雖然已經被廣泛研究了這些算法的經驗成像性能和這些算法的理論會聚特性，但先前沒有過度地分析它們的回收性能。通過假設這些方法的解決方案在深度神經網絡的固定點附近，我們通過展示如何建立PNP紅色的理論恢複保證來解決這種差距。我們還呈現了數值結果比較了基于生成模型的最近壓縮傳感算法的壓縮感測的PNP紅色的恢複性能。我們的數值結果表明，與現有技術的現有狀态相比，PNP具有預先訓練的工件去除網絡提供了更好的結果。

Shuffle Transformer: Rethinking Spatial Shuffle for Vision Transformer

Authors Zilong Huang, Youcheng Ben, Guozhong Luo, Pei Cheng, Gang Yu, Bin Fu

最近，基于視窗的變壓器，在非重疊本地視窗内計算了自我關注，在圖像分類，語義分割和對象檢測中表現出有希望的結果。然而，較少的研究已經緻力于橫窗連接配接，這是提高表示能力的關鍵元素。在這項工作中，我們将空間Shuffle重新審視為在Windows之間建構連接配接的有效方法。是以，我們提出了一個名為Shuffle變壓器的新視覺變壓器，通過修改兩行代碼來實作高效且易于實作。此外，引入了深度明智的卷積以補充空間洗牌以增強鄰居視窗連接配接。拟議的架構在廣泛的視覺任務中實作出色的性能，包括圖像級分類，對象檢測和語義分割。代碼将被釋放為複制。

Efficient Iterative Amortized Inference for Learning Symmetric and Disentangled Multi-Object Representations

Authors Patrick Emami, Pan He, Sanjay Ranka, Anand Rangarajan

無監督的多對象表示學習取決于感應偏差，以指導概括的對象中心表示的發現。但是，我們觀察到學習這些表示的方法是由于長期訓練時間和大的記憶消耗或放棄關鍵歸納偏差而不切實際。在這項工作中，我們介紹了高效的Morl，這是一個有效的對象學習的無監督學習的架構。我們表明，通過設計架構來最大限度地減少對其的依賴性來解決這兩個對稱性和解剖學而導緻的優化挑戰可以通過高成本的疊代攤銷推理來解決。我們采取了兩個階段的推斷方法，分層變形AutoEncoder通過自下而上推斷提取對稱和解開的表示，而第二個，輕量級網絡通過頂部回報提供了頂端回報的表示。在課程後教育訓練期間采取的細化步驟的數量減少，是以在零步驟的測試時間内，模型實作了99.1的精細分解性能。我們在标準多目标基準上展示了強大的物體分解和解剖學，同時實作了更快的訓練順序和通過前一種訓練的訓練和測試時間推斷。

Adversarial Attack and Defense in Deep Ranking

Authors Mo Zhou, Le Wang, Zhenxing Niu, Qilin Zhang, Nanning Zheng, Gang Hua

深神經網絡分類器容易受到對抗的攻擊，其中難以察覺的擾動可能導緻錯誤分類。然而，基于DNN的圖像排名系統的漏洞仍然仍然探索。在本文中，我們提出了兩次對深度排名系統的攻擊，即候選攻擊和查詢攻擊，可以通過對抗擾動來提高或降低所選候選人的等級。具體地，預期的排名順序首先表示為一組不等式，然後設計類似目标函數的三态以獲得最佳擾動。相反，提出了一種防崩倒塌三态防禦來改善對所有拟議攻擊的排名模型穩健性，其中模型學會防止通過對抗攻擊彼此靠近彼此靠近的正和陰性樣本。全面測量排名模式與我們的防務的經驗對抗性穩健性，我們提出了一個經驗豐富的穩健性評分，這涉及一套針對排名模式的代表性攻擊。我們的對抗排名攻擊和防禦是在Mnist，Fashion Mnist，Cub200 2011，Cars196和Stanford線上産品資料集上進行評估。實驗結果表明，典型的深度排名系統可以通過我們的攻擊有效地損害。盡管如此，我們的防守可以顯着提高排名系統的魯棒性，同時減輕廣泛的攻擊。

End-to-end reconstruction meets data-driven regularization for inverse problems

Authors Subhadip Mukherjee, Marcello Carioni, Ozan ktem, Carola Bibiane Sch nlieb

我們提出了一種無監督的學習結束來實作終結逆問題的方法。所提出的方法将經典變分架構與疊代展開組合，其基本上尋求最小化測量空間中預期變形的權重組合和重建和地面事實的分布之間的WasserSein 1距離。更具體地，變分設定中的規則器由深神經網絡參數化，并與展開的重建操作員同時學習。然後通過重建展開的操作員初始化變分問題并疊代地解決，直到收斂。值得注意的是，由于通過展開的營運商獲得的出色初始化，它需要較少的疊代率來融合。所得到的方法将端端結束的計算效率與變分設定的阱姿勢和噪聲穩定性保證結合到底展開重建。此外，我們用X射線計算斷層攝影CT的示例來證明我們的方法優于藝術藝術無監督方法的狀态，并且它優于或與藝術狀态的勝利，監督學習的重建方法。

Multi-Exit Semantic Segmentation Networks

Authors Alexandros Kouris, Stylianos I. Venieris, Stefanos Laskaridis, Nicholas D. Lane

語義分割是作為許多視覺系統的骨幹，從自動駕駛汽車和機器人導航到增強現實和電話會議。經常在有限資源信封内的嚴格延遲限制下運作，優化有效執行變得重要。為此，我們提出了一個架構，用于将藝術分割模型的狀态轉換為混亂網絡的特殊教育訓練的CNN，該網絡在其深度沿着它們的深度采用參數化的早期退出，以在更容易的樣本期間節省計算。設計和教育訓練此類網絡天真地傷害性能。是以，我們提出了兩個分階段的教育訓練過程，推動了網絡早期的語義重要功能。我們CO優化附加分割頭的數量，放置和架構以及退出政策，以适應裝置功能和應用特定要求。優化速度，混亂網絡可以通過無精度地降級實作最高可達2.83倍的延遲增益。是以，在相同的計算預算下，優化準确性，達到高達5.33磅的改善。

Self-supervised Depth Estimation Leveraging Global Perception and Geometric Smoothness Using On-board Videos

Authors Shaocheng Jia, Xin Pei, Wei Yao, S.C. Wong

近年來，自我監督的深度估計繪制了很多關注，因為它不需要标記的資料而是圖像序列。此外，它可以友善地用于各種應用，例如自主駕駛，機器人，現實導航和智能城市。然而，從圖像中提取全局上下文資訊并預測幾何自然深度圖仍然具有挑戰性。在本文中，我們借助我們深度的Linformer塊同時提取全局和局部特征的DLNET進行DLNET。該塊包括Linformer和創新的軟分裂多層Perceptron塊。此外，提出了三維幾何平滑度損失來通過對預測的三維點雲施加二階平滑度限制來預測幾何自然深度圖，進而實作改進的性能作為副産品。最後，我們探讨了多種規模預測政策，提出了用于進一步性能改進的最大保證金雙模預測政策。在Kitti和Make3D基準測試的實驗中，所提出的DLNET将分别為最先進的方法，減少時間和空間複雜性分别為62和56來實作性能。對各種現實世界情況的廣泛測試進一步展示了所提出的模型的強大實用性和泛化能力。

The Distance Transform and its Computation

Authors Tilo Strutz

距離變換是用于許多不同應用的圖像處理技術。與二進制圖像相關，一般思想是确定所有背景點到最近對象點的距離，反之亦然。在本教程中，使用示例詳細解釋不同的方法并使用示例進行比較。提供了相應的源代碼以促進自己的調查。本教程的特定目的是闡明任意距離變換和精确的歐幾裡德距離變換之間的差異。

Efficient training for future video generation based on hierarchical disentangled representation of latent variables

Authors Naoya Fushishita, Antonio Tejero de Pablos, Yusuke Mukuta, Tatsuya Harada

生成視訊預測給定序列的未來是近年來積極研究的一個領域。然而，重要的問題仍然是未解決的大多數方法需要大量的計算成本和用于訓練的記憶體使用情況。在本文中，我們提出了一種新的方法，用于産生未來的記憶體使用量的未來預測視訊而不是傳統方法。這是朝向具有高圖像品質的視訊的路徑中的臨界踩踏石，類似于圖像生成領域的最新作品中所生成的圖像的臨界石頭。我們通過在兩個階段1圖像重建中教育訓練我們的方法來實作高效率，以将視訊幀編碼為潛在變量，以及2個潛在的變量預測來生成未來序列。我們的方法通過根據其分層結構分解每個幀來實作視訊壓縮到低維潛變量。也就是說，我們認為視訊可以分成背景和前景對象，并且每個對象獨立地保持時間變化和時間資訊。我們的實驗表明，即使對于無法通過以前的方法處理的複雜資料集，所提出的方法也可以有效地生成未來的預測視訊。

Self-Supervision & Meta-Learning for One-Shot Unsupervised Cross-Domain Detection

Authors F. Cappio Borlino, S. Polizzotto, A. D Innocente, S. Bucci, B. Caputo, T. Tommasi

深層檢測模型在很大程度上被證明是在受控設定中非常強大，但在看不見的域上的架子上塗抹在架子上時顯得脆弱并失敗。開發用于修改此問題的所有自适應方法都在教育訓練時通路可大量的目标樣本，當目标未知時不适合的政策，其資料無法提前使用。例如，考慮從社交媒體上監視圖像饋送的任務，因為每個圖像都上傳到不同的使用者，它屬于在教育訓練期間不可能預見到不同的目标域。我們的工作解決了這個設定，呈現了一個對象檢測算法，其能夠通過僅在測試時間内看到的一個目标樣本來執行跨域的無監督适應性。我們介紹了一個多任務架構，即通過疊代解決它的自我監督任務來拍攝一個射擊對任何傳入樣本。我們進一步利用META學習來模拟單個樣本跨域學習劇集，并更好地對準測試條件。此外，跨任務僞标記過程允許專注于圖像前景并增強适應過程。針對最近的跨域檢測方法和詳細消融研究的徹底基準分析顯示了我們方法的優勢。

Exploiting Emotional Dependencies with Graph Convolutional Networks for Facial Expression Recognition

Authors Panagiotis Antoniadis, Panagiotis P. Filntisis, Petros Maragos

在過去的幾年裡，深入學習方法在許多面部相關任務中顯示出顯着的結果，包括野外的自動面部表情識别焦點。與此同時，心理學界提出了衆多模型，描述了人類情緒狀态。但是，我們沒有明确的證據表明，這是更合适的，大多數FER系統使用的影響或次元模型。靈感來自最近在多标簽分類中的工作，本文提出了一種新的多任務學習MTL架構，其利用圖形卷積網絡GCN識别野外的面部表情來利用這兩個模型之間的依賴性。具體地，在MTL設定中的離散和連續識别中學習共享特征表示。此外，面部表情分類器和價值喚醒回歸通過GCN學習，該GCN明确地捕獲它們之間的依賴關系。為了評估我們在真實世界條件下的方法的性能，我們教育訓練我們在EffectNet資料集上教育訓練我們的模型。我們的實驗結果表明，我們的方法優于離散FER的現有技術的目前狀态。

FINet: Dual Branches Feature Interaction for Partial-to-Partial Point Cloud Registration

Authors Hao Xu, Nianjin Ye, Shuaicheng Liu, Guanghui Liu, Bing Zeng

資料關聯在點雲注冊中很重要。在這項工作中，我們建議通過在特征提取階段的源和參考雲之間引入特征互動來解決部分地注冊，進而可以在沒有顯式掩模估計或注意事項的情況下實作注冊以前所采用的重疊檢測。具體地，我們呈現FinEt，基于特征互動的結構，具有能夠使能和加強在多個階段之間相關聯的資訊。為實作這一目标，我們首先将特征分成兩個元件，一個元件，一個用于旋轉和一個用于翻譯，基于它們屬于不同的解決方案空間，産生雙分支結構。其次，我們在資料關聯的特征提取器中插入多個互動子產品。第三，我們提出了一種轉型敏感性損失，以獲得旋轉細節和翻譯細節。實驗表明，與傳統和基于學習的方法的狀态相比，我們的方法具有更高的精度和魯棒性。

Shape As Points: A Differentiable Poisson Solver

Authors Songyou Peng, Chiyu Max Jiang, Yiyi Liao, Michael Niemeyer, Marc Pollefeys, Andreas Geiger

近年來，由于其表達性和靈活性，神經隐式表示在3D重建中獲得了普及。但是，神經隐式表示的隐式性質導緻緩慢的推理時間，并且需要仔細初始化。在本文中，我們重新審視經典但無處不在的點雲表示，并使用泊松表面重建PSR的可分辨率配方引入對網格層的可分化點，其允許GPU加速訓示燈函數的快速解決方案。可微分的PSR層允許我們通過隐式訓示器字段有效地和分散地橋接與3D網格的顯式3D點表示，使結束于諸如倒角距離的表面重建度量的結束優化。點和網格之間的這種二進制性是以允許我們以面向點雲表示形狀，這是明确的，輕量級和富有表現力的。與神經隐式表示相比，我們的形狀為點SAP模型是更可解釋，輕量級的，并通過一個級别加速推理時間。與其他顯式表示相比，如點，貼片和網格，SAP産生拓撲無止境，水密歧管表面。我們展示了SAP對無知點雲和基于學習的重建的表面重建任務的有效性。

supervised adptive threshold network for instance segmentation

Authors Kuikun Liu, Jie Yang, Cai Sun, Haoyuan Chi

目前，執行個體分割在機器學習區域中吸引了越來越多的注意。然而，在先前的掩碼R CNN和其他網絡模型中存在一些缺陷。在本文中，我們提出了監督自适應門檻值網絡，例如分段。具體地，我們采用基于自适應門檻值的掩模R CNN方法，并通過建立分層自适應網絡結構，它在掩模RCNN生成的機率圖上執行自适應二值化，以獲得更好的分割效果并降低誤差率。同時，自适應特征池設計用于使網絡的不同層之間的傳輸更加準确，有效，降低特征傳輸過程中的損耗，并進一步改進掩模方法。基準資料集的實驗表明所提出的模型的有效性

Unsupervised Learning for Cuboid Shape Abstraction via Joint Segmentation from Point Clouds

Authors Kaizhi Yang, Xuejin Chen

表示複雜的3D對象作為簡單的幾何基元，稱為形狀抽象，對于幾何模組化，結構分析和形狀合成是重要的。在本文中，我們提出了一種無監督的形狀抽象方法來将點雲映射到緊湊的長方體表示。我們共同預測，作為零件分割和長方體形狀，并強制實施分割與自學抽象之間的一緻性。對于長方體抽象任務，我們使用變化自動編碼器網絡将輸入點雲轉換為一組參數長方體。分割網絡将每個點配置設定到考慮點長方體親和力的長方體中。如果沒有手動注釋點雲，我們設計四種新穎的損失，以在幾何相似性和長方體緻密度方面共同監督兩個分支機構。我們在多種形狀集中評估我們的方法，并展示其在現有形狀抽象方法上的優越性。此外，基于我們的網絡架構和學習的表示，我們的方法支援包括結構化形狀生成，形狀插值和結構形狀聚類的各種應用。

Channel DropBlock: An Improved Regularization Method for Fine-Grained Visual Classification

Authors Yifeng Ding, Shuwei Dong, Yujun Tong, Zhanyu Ma, Bo Xiao, Haibin Ling

将對象的子類别從同一超級類别進行分類，例如，在細粒度的視覺分類FGVC任務中的鳥類高度依賴于采礦多種辨識特征。現有方法主要通過引入注意機制來定位辨識部分或特征編碼方法來提取歧視的時尚以弱監督的方式提取高度參數化特征來解決這個問題。在這項工作中，我們提出了一種名為Channel Dropblock CDB的輕量級又有效的正則化方法，與兩個替代相關度量組合，以解決此問題。關鍵的想法是在訓練期間随機掩蓋一組相關頻道，以毀壞CO适應，進而增強特征表示。在三個基準FGV資料集上進行廣泛的實驗表明，CDB有效提高了性能。

Source-Free Open Compound Domain Adaptation in Semantic Segmentation

Authors Yuyang Zhao, Zhun Zhong, Zhiming Luo, Gim Hee Lee, Nicu Sebe

在這項工作中，我們介紹了一個新的概念，命名為Source Free Open Compound Domain Adaption SF OCDA，并在語義細分中研究。 SF OCDA比傳統領域适應更具挑戰性，但它更加實用。它共同考慮了資料隐私和資料存儲的問題，以及2個方案的多個目标域和不均義的開放域。在SF OCDA中，隻有源預訓練模型和目标資料可以學習目标模型。該模型在目标和看不見的域的樣本上進行評估。為了解決這個問題，我們通過将教育訓練過程分為兩個階段1預先教育訓練了一個有效的架構，以預先教育訓練具有自我監督學習的廣義源模型和2。在我們的架構中，我們提出了交叉更新檔樣式交換CPS，以使特征級别的各種更新檔樣式多樣化樣品，這可以使兩個階段的教育訓練受益。首先，CPS可以顯着提高源模型的泛化能力，為後期階段提供更準确的僞标簽。其次，CPS可以減少嘈雜的僞标簽的影響，并且還避免了在自我監督學習期間對目标域的模型過度接受，始終如一地提高目标和開放域的性能。實驗表明，我們的方法在C駕駛資料集上産生最新的技術結果。此外，我們的模型還實作了域泛化的城市景觀的主要性能。

Multi-Target Domain Adaptation with Collaborative Consistency Learning

Authors Takashi Isobe, Xu Jia, Shuaijun Chen, Jianzhong He, Yongjie Shi, Jianzhuang Liu, Huchuan Lu, Shengjin Wang

由于現實世界圖像上的像素級别注釋的高成本，最近對語義分割任務的無監督域适應已經變得越來越受歡迎。但是，大多數域适應方法僅限于單源單個目标對，并且不能直接擴充到多個目标域。在這項工作中，我們提出了一個協作的學習架構來實作無監督的多目标域适應。首先為每個源目标對訓練一個無監督的域适配專家模型，并進一步鼓勵通過在不同目标域之間建立的橋梁彼此協作。通過添加與具有相同結構化上下文的每個樣本的一緻像素明智的預測的正則化進一步改進了這些專家模型。要獲得跨多個目标域工作的單個模型，我們建議同時學習一個學生模型，該模型不僅驗證了對應的目标域上的每個專家的輸出，而且還通過正規化拉動彼此的不同專家在他們的體重。廣泛的實驗表明，所提出的方法可以有效利用包含在标記的源域和多個未标記的目标域中的豐富的結構化資訊。它不僅跨多個目标域表現良好，而且還對藝術域無監督域适配方法的藝術狀态進行了有利的，而且在單一源目标對上專門教育訓練

Resolution learning in deep convolutional networks using scale-space theory

Authors Silvia L.Pintea, Nergis Tomen, Stanley F. Goes, Marco Loog, Jan C. van Gemert

深度卷積神經網絡中的分辨率CNN通常通過過濾尺寸的接收場大小，并在特征圖上的沖擊層或沖擊卷積。根據資料集，最佳分辨率可能顯着變化。現代CNNS寫死其在網絡架構中的分辨率超參數，這使得調整此類超參數麻煩。我們建議脫離寫死分辨率的超參數，并旨在從資料中學習适當的分辨率。我們使用刻度空間理論來獲得濾波器的自類似參數化，并利用N個噴射截斷的泰勒序列，以通過學習的高斯衍生濾光片的學習組合來近似濾波器。高斯基礎的參數Sigma控制濾波器編碼的詳細量和過濾器的空間範圍。由于Sigma是一個連續參數，我們可以在損失方面優化它。當在最先進的架構中使用時，所提出的N噴射層可實作相當的性能，同時自動在每個層中學習正确的分辨率。我們在分類和分割方面評估我們的N噴射層，我們表明學習Sigma對多種尺寸的輸入特别有益。

DINs: Deep Interactive Networks for Neurofibroma Segmentation in Neurofibromatosis Type 1 on Whole-Body MRI

Authors Jian Wei Zhang, Wei Chen, K. Ina Ly, Xubin Zhang, Fan Yan, Justin Jordan, Gordon Harris, Scott Plotkin, Pengyi Hao, Wenli Cai

神經纖維瘤病1型NF1是一種常染色體顯性惡性良性腫瘤傾斜綜合征，涉及中央和周圍神經系統。神經纖維瘤的準确檢測和分割對于評估惡性良性腫瘤負荷和縱向惡性良性腫瘤大小的變化是必不可少的。自動卷積神經網絡CNNS敏感，易受惡性良性腫瘤變性解剖位置和MRI的異質外觀。在這項研究中，我們提出了深度互動網絡浸入以解決上述限制。使用者互相作用指導模型以識别複雜的惡性良性腫瘤并快速适應異質惡性良性腫瘤。我們介紹了一個簡單但有效的指數距離變換expdt，将使用者互動轉換為先前被視為空間和外觀的指南地圖。 EXPDT與流行的歐幾裡德和測地距離相比，對各種圖像尺寸更加強大，可以保留互動式輸入的分布。此外，為了增強惡性良性腫瘤相關特征，我們設計一個深的互動子產品，将導向器傳播到更深層面。我們在NF1患者的三個MRI資料集上教育訓練和評估浸漬。實驗結果分别在與自動化和其他互動方法相比，在DSC比較44和14的顯着改善。我們還通過傳統互動方法進行比較時，通過實驗證明浸入效率降低了使用者負擔。我們的方法的源代碼可用于URL

ContourRender: Detecting Arbitrary Contour Shape For Instance Segmentation In One Pass

Authors Tutian Tang, Wenqiang Xu, Ruolin Ye, Yan Feng Wang, Cewu Lu

例如分割的直接輪廓回歸是一個具有挑戰性的任務。以前的作品通常通過學習逐漸改進輪廓預測或采用具有有限表現力的形狀表示來實作它。在這項工作中，我們認為，在一個通行證中回歸輪廓點的難度主要是由于在将光滑輪廓離散到多邊形時的模糊性。為了解決歧義，我們提出了一種名為TextBF Contourrender的新穎可分辨率渲染方法。在訓練期間，首先預測由可逆形狀簽名産生的輪廓，然後通過将其轉換為輪廓網并将網格渲染到2D地圖來利用更穩定的輪廓優化輪廓。

ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias

Authors Yufei Xu, Qiming Zhang, Jing Zhang, Dacheng Tao

由于它們使用自我注意機制模組化長距離依賴性的強大能力，變壓器在各種計算機視覺任務中表現出很大的潛力。然而，視覺變壓器将圖像視為1D視覺令牌的序列，缺乏内在的電感偏置IB，用于模組化局部視覺結構并處理比例方差。或者，它們需要大規模的教育訓練資料和更長的教育訓練計劃來隐含地學習IB。在本文中，我們提出了一種新的視覺變壓器，通過探索來自卷積的内在IB，即簡化。從技術上講，vitae有幾個空間金字塔減少子產品，通過使用具有不同擴張速率的多個卷積來将輸入圖像與豐富的多尺度上下文嵌入到令牌中。以這種方式，它擷取内在規模的不變性IB，并且能夠為各種比較的對象學習強大的特征表示。此外，在每個變壓器層中，Vitae具有與多頭自我注意子產品平行的卷積塊，其特征融合并饋入前饋網絡。是以，它具有内在的位置IB，并且能夠協同學習本地特征和全局依賴性。想象成的實驗以及下遊任務證明了基線變壓器和并發作品上的知識的優越性。源代碼和預用型号将在GitHub上獲得。

Wide-Baseline Relative Camera Pose Estimation with Directional Learning

Authors Kefan Chen, Noah Snavely, Ameesh Makadia

在兩個圖像之間回歸相對相機姿勢的現代深度學習技術難以處理具有挑戰性的場景，例如大型錄影機運動，導緻圖像之間留下很少重疊的遮擋和顯着變化。即使是大型監督教育訓練資料集的利益，這些模型也在繼續奮鬥。為了解決這些模型的局限性，我們采用了通過估計關鍵點位置的離散分布來提高2D和3D技術的啟發。類似地，在本文中，我們通過改善相機姿勢的離散分布來探索改進的相機姿勢回歸。為了實作這個想法，我們介紹了DirectionNet，其使用新穎的參數化估計了5D相對姿勢空間上的離散分布，以使估計問題釋出。具體而言，方向網絡将由3D旋轉和翻譯方向指定的相對相機姿勢，進入一組3D方向向量。由于可以用球體上的點識别3D方向，是以定向網絡估計球體上的離散分布作為其輸出。我們評估了從attryPort3D和Interiornet建構的挑戰合成和真實姿态估算資料集的挑戰性和真實姿态估算集。有希望的結果顯示出直接回歸方法誤差的近50次減少。

SelfDoc: Self-Supervised Document Representation Learning

Authors Peizhao Li, Jiuxiang Gu, Jason Kuen, Vlad I. Morariu, Handong Zhao, Rajiv Jain, Varun Manjunatha, Hongfu Liu

我們提出了Selfoc，一項任務不可知的文檔圖像了解訓練架構。由于文檔是多式聯數的，并且旨在順序讀數，我們的架構利用文檔中每個語義有意義的元件的位置，文本和視覺資訊，并且它模拟了每個内容塊之間的上下文化。與現有文檔預教育訓練模型不同，我們的模型是粗粒粒度，而不是将單個單詞視為輸入，是以避免過度細微粗糙，具有過度的上下文化。除此之外，我們在模型預訓練階段引入跨模型學習，以充分利用未标記檔案的多模式資訊。對于下遊使用，我們提出了一種通過自适應地強調語言和視覺信号來提出一種用于多模式特征融合的模型自适應機制。我們的架構從自我監督的預訓練中獲益于檔案，而無需通過一個特征掩蔽教育訓練政策的注釋。它在與以前的作品相比，在預訓練階段中使用的文檔圖像的多個下遊任務的卓越性能達到了多個下遊任務。

Contextual Guided Segmentation Framework for Semi-supervised Video Instance Segmentation

Authors Trung Nghia Le, Tam V. Nguyen, Minh Triet Tran

在本文中，我們在三次通過中提出了用于視訊執行個體分段的上下文引導分段CGS架構。在第一傳遞中，即預覽分段，我們提出了執行個體RE識别流以估計每個執行個體的主要屬性即，通過将其預覽掩模傳播到其他幀來估計每種執行個體的主要屬性。在第二次通過，即上下文分段，我們引入多個上下文分段方案。對于人類執行個體，我們在架構中開發骨架導向分割以及對象流程，以糾正并優化幀的結果。對于非人類執行個體，如果執行個體的外觀具有很大的變化，并且屬于可以從初始掩碼推斷的已知類别，我們采用執行個體分段。如果非人類執行個體幾乎是剛性的，則從視訊序列的第一幀教育訓練FCNS上的合成圖像。在最終通行證中，即，引導分割，我們開發了一個關于非矩形地區的新罰粒細分方法ROI。通過從電流的鄰居架構施加引導注意來産生自然形ROI，以減少不同重疊執行個體的分割中的模糊性。前向掩碼傳播之後是後向掩碼傳播，以進一步恢複由于RE出現的執行個體，快速運動，遮擋或重型變形而進一步恢複丢失的執行個體片段。最後，每個幀中的執行個體是基于其深度值合并的，以及人類和非人類對象互動以及罕見的執行個體優先級。對Davis測試挑戰資料集進行的實驗證明了我們提出的架構的有效性。我們在2019年達維斯挑戰2019年始終如一，分别在全球得分，區域相似性和輪廓準确性方面始終如一地持續達到2019年2019年。

A Comprehensive Survey on Image Dehazing Based on Deep Learning

Authors Jie Gui, Xiaofeng Cong, Yuan Cao, Wenqi Ren, Jun Zhang, Jing Zhang, Dacheng Tao

霧度的存在顯着降低了圖像的品質。研究人員設計了各種算法，用于圖像去吸附ID，以恢複朦胧圖像的品質。然而，很少有研究總結了基于深入的學習DL的脫水技術。在本文中，我們對最近提出的脫水方法進行了全面的調查。首先，我們總結了常用的資料集，丢失功能和評估度量。其次，我們将ID的現有研究分為兩個主要類别監督ID和無監督ID。介紹了各種影響脫水模型的核心思路。最後，指出了未來的ID研究的開放問題。

Exploring to establish an appropriate model for mage aesthetic assessment via CNN-based RSRL: An empirical study

Authors Ying Dai

為了建立适當的照片美學評估模型，本文介紹了反映CNN的最終層FC節點的解剖程度的D度量。通過将F測量與D度量組合以獲得FD測量，提出了一種确定基于CNN基于CNN的多拍攝照片評分預測模型的最佳模型的算法。此外，定義和計算模型的第一固定透視FFP和評估興趣區域空氣。實驗結果表明，FD測量有效地從具有不同CNN結構的多評分預測模型建立适當的模型。此外，與相對高FD的FD确定的最佳模型總是具有與享受照片時接近人類美學感覺的FFP空氣。

Video Instance Segmentation using Inter-Frame Communication Transformers

Authors Sukjun Hwang, Miran Heo, Seoung Wug Oh, Seon Joo Kim

我們提出了一種基于變壓器的視訊執行個體分段VI的結束結束解決方案。最近，每個剪輯管道顯示出從多個幀中利用更豐富的資訊的幀方法對卓越的性能。然而，以前的每個剪輯模型需要沉重的計算和記憶體使用，以實作幀到幀通信，限制實用性。在這項工作中，我們提出了幀間幀通信變換器IFC，其通過有效地編碼輸入剪輯内的上下文，顯着降低了在幀之間傳遞的資訊的開銷。具體地，我們建議利用簡潔的存儲令牌作為傳送資訊的平均值以及總結每個幀場景。通過在精确編碼的存儲器令牌之間交換資訊，每幀的特征與其他幀富集和相關。我們在最新的基準集上驗證了我們的方法，并在使用離線推理的情況下，實作了在YouTube VIS 2019 VAL上的最新狀态AP 44.6的狀态，同時具有相當快的運作時89.4 FPS。我們的方法也可以應用于線上推理附近，隻用小延遲處理視訊。代碼将可用。

Video Imprint

Authors Zhanning Gao, Le Wang, Nebojsa Jojic, Zhenxing Niu, Nanning Zheng, Gang Hua

基于所提出的視訊版本壓印表示，提出了一種新的統一視訊分析架構ER3，用于複雜的事件檢索，識别，識别和回顧，該視訊壓印表示，該視訊幀跨越視訊幀的圖像特征之間的時間相關性。通過視訊版本壓印表示，它友善地将映射回到視訊幀中的時間和空間位置，允許在每個幀内的密鑰幀辨別和密鑰區域定位。在所提出的架構中，專用特征對準子產品結合用于跨幀的備援移除以産生張量表示，即視訊版本。随後，視訊版本被單獨地饋送到推理網絡和特征聚合子產品，分别用于事件識别回憶和事件檢索任務。由于引起了語言模組化中使用的記憶體網絡的引起的引起的機制，所提出的推理網絡能夠同時進行事件類别識别和事件叙述的關鍵證據的本地化。此外，我們推理網絡中的潛在結構突出顯示視訊版本的區域，可以直接用于事件回憶。利用事件檢索任務，從視訊版本彙總的緊湊型視訊表示有助于更好地檢索結果，而不是現有的現有方法。

Highlighting the Importance of Reducing Research Bias and Carbon Emissions in CNNs

Authors Ahmed Badar, Arnav Varma, Adrian Staniec, Mahmoud Gamal, Omar Magdy, Haris Iqbal, Elahe Arani, Bahram Zonooz

卷積神經網絡CNNS在解決計算機視覺中的主要挑戰方面變得普遍。研究人員不僅提出了新的CNN架構，而且還研究了改善現有架構性能的不同技術。然而，在忽視某些重要變量的同時，傾向于強調性能改善，例如簡單，多功能性，比較的公平性和能效。在架構設計和評估中俯瞰這些變量導緻研究偏見和顯着負面的環境影響。此外，這可能會破壞研究使用深層學習模型來解決氣候變化的積極影響。在這裡，我們對許多提出的技術進行了廣泛和公平的實證研究，以衡量每種技術的效用進行分割和分類。我們的調查結果重申了在模型設計冬季剃刀方面贊同複雜性的重要性。此外，我們的結果表明，簡單的标準化實踐可能導緻對環境影響的顯着降低，表現較小。我們強調，需要重新思考CNNS的設計和評估，以減輕研究偏見和碳排放問題。

Few-shot segmentation of medical images based on meta-learning with implicit gradients

Authors Rabindra Khadga, Debesh Jha, Sharib Ali, Steven Hicks, Vajira Thambawita, Michael A. Riegler, P l Halvorsen

常用的經典監督方法經常遭受訓練樣本的限制數量的要求，并且無法在看不見的資料集上概括。結果，在臨床環境中，任何教育訓練模型的更廣泛應用非常有限。然而，很少有射擊方法可以最大限度地減少對既有勞動密集型和昂貴的巨大可靠地理标簽的需求。為此，我們建議利用基于優化的隐式模型不可知符元學習IMAML算法，用于醫學圖像分割的幾個拍攝設定。我們的方法可以利用來自各種教育訓練樣本的學習權重，并且可以部署在新的看不見的資料集上。我們表明，與古典少量射擊學習方法不同，我們的方法具有改善的泛化能力。為了我們的知識，這是第一個利用IMAML了解醫學圖像分割的工作。我們在公開的皮膚和息肉資料集上的定量結果表明，所提出的方法優于天真監督的基線模型和最近幾個射擊分割方法的大幅度。

Alpha Matte Generation from Single Input for Portrait Matting

Authors Dogucan Yaman, Haz m Kemal Ekenel, Alexander Waibel

肖像消光是一種重要的研究問題，具有廣泛的應用程式，如視訊會議應用程式，圖像視訊編輯和後期生産。目标是預測α遮罩，其識别每個像素對前台主題的效果。傳統方法和大多數現有作品利用額外的輸入，例如Trimap，背景圖像，以預測alpha遮罩。但是，提供額外的輸入并不總是實用的。此外，模型對這些附加輸入太敏感。在本文中，我們介紹了一種使用生成的對沖網GANS進行縱向消光的額外輸入的方法。我們将主要任務劃分為兩個子任務。為此，我們提出了用于人分割的分割網絡和用于alpha遮罩預測的alpha生成網絡。雖然分割網絡采用輸入圖像并産生粗略分割圖，但是alpha生成網絡利用相同的輸入圖像以及由分割網絡産生的粗略分割圖以預測α遮罩。此外，我們呈現了一個分割編碼塊來對粗略分割映射下映射并提供給殘差塊的特征表示。此外，我們提出了邊境損失，以單獨懲罰受試者的邊界，這更有可能具有挑戰性，我們還适應畫像消失的感覺損失。要教育訓練所提出的系統，我們将兩個不同的流行訓練資料集組合以提高資料量以及多樣性，以解決推理時間中的域移位問題。我們在三個不同的基準資料集中測試了我們的模型，即Adobe圖像消光資料集，縱向消光資料集和DISTINGS資料集。該方法優于Modnet方法，該方法也需要單個輸入。

Combinatorial Optimization for Panoptic Segmentation: An End-to-End Trainable Approach

Authors Ahmed Abbas, Paul Swoboda

我們提出了結束于最終教育訓練架構，用于同時語義和執行個體分割A.K.A.由卷積神經網絡和非對稱多道切割問題解決者組成的Panoptic分段。後者解決了組合優化問題，優雅地融入了語義和邊界預測，以産生Panoptic标簽。我們的配方允許通過優化問題反向衰減梯度來直接最大化Panoptic品質名額的平滑替代。實驗評估顯示結束到終學習的完善W.R.T. Citycapes和Coco Datasets上的可比方法。總體而言，我們的方法顯示了在挑戰大規模現實世界問題中使用組合優化的效用，在挑戰大規模的大規模現實世界問題中，展示了教育訓練這種建築結束的教育訓練和見解。

Transformer in Convolutional Neural Networks

Authors Yun Liu, Guolei Sun, Yu Qiu, Le Zhang, Ajad Chhatkuli, Luc Van Gool

我們解決了多頭自我關注MHSA的高計算空間複雜性引起的視覺變壓器的低效率漏洞。為此，我們提出了分層MHSA H MHSA，其表示以分層方式計算。具體而言，我們的H MHSA首先通過将圖像修補程式視為令牌來了解小網格中的功能關系。然後，将小網格合并到更大的網格中，通過将前一步的每個小網格視為令牌來學習特征關系。該過程疊代逐漸減少令牌的數量。 H MHSA子產品易于可插入任何CNN架構，并通過BackProjagation進行教育訓練。我們稱之為新的骨幹網，它基本上繼承了變壓器和CNN的優勢。實驗表明，Transcnn實作了用于圖像識别的技術精度的狀态。可以使用代碼和預磨料模型

Feature-based Style Randomization for Domain Generalization

Authors Yue Wang, Lei Qi, Yinghuan Shi, Yang Gao

作為最近的一個明顯的主題，域泛化DG旨在首先在多個源域中學習通用模型，然後直接概括到任意看不見的目标域，而無需任何額外的适應。在以前的DG模型中，通過生成虛拟資料以補充觀察到的源極域，基于資料的資料增強的方法顯示了其有效性。為了模拟可能的看不見的域，其中大多數通過圖像級式變換來豐富原始資料的多樣性。但是，我們認為，由于引用風格有限，難以徹底地說明和完全增強潛在風格，不能始終保證導緻多樣性。與圖像級别增強不同，我們在本文中開發了一個簡單但有效的功能的樣式随機化子產品，實作了功能級别增強，這可以通過将随機噪聲內建到原始樣式中産生随機風格。與現有的圖像級别增強相比，我們的特征級别增強有利于更具目标和樣本不同的方式。此外，為了充分探索所提出的子產品的功效，我們設計了一種新穎的漸進教育訓練政策，使網絡的所有參數都能完全教育訓練。與三個标準基準資料集，即PACS，VLC和Office Home的廣泛實驗，與最先進的方法相比，突出了我們方法的優越性。

Transformed ROIs for Capturing Visual Transformations in Videos

Authors Abhinav Rai, Fadime Sener, Angela Yao

模組化動作為某場景的視覺變化對視訊了解至關重要。目前，CNNS一次處理一個本地社群，是以較長範圍内的上下文關系，而仍然是可學習的間接。我們在中間級别的特征表示之間呈現Troi，即插即用子產品，以在空間和時間分開的中間級别特征表示。該子產品涉及局部視覺實體，例如手和互動對象，并直接在卷積層的特征圖中轉換它們的相應感興趣區域。通過TROI，我們達到了藝術行動識别結果的狀态，在大規模資料集上的一些v2和史詩廚房100。

Learning Video Models from Text: Zero-Shot Anticipation for Procedural Actions

Authors Fadime Sener, Rishabh Saraf, Angela Yao

我們可以教授機器人識别和做出預測，以便在我們通過學習來自文本的視訊模型來解決這個問題之前從未見過的活動。本文介紹了一個分層模型，概括了大規模文本語料庫的教學知識，并将知識轉移到視訊。鑒于一部分教學視訊，我們的模型承認并預測了一緻的和合理的行動将來多個步驟，所有這些都是豐富的自然語言。為了展示我們模型的能力，我們介紹了EMPH美味的視訊資料集V2，零射擊學習，識别和預期的4022個食譜。對于各種評估度量的廣泛實驗證明了我們泛化方法的潛力，給定有限的教育訓練模型的視訊資料。

Technical Report: Temporal Aggregate Representations

Authors Fadime Sener, Dibyadip Chatterjee, Angela Yao

本技術報告擴充了我們在9中介紹的工作，更有實驗。 9，我們解決長期視訊了解，需要推理目前和過去或未來的觀察，并提高了幾個基本問題。應該如何模組化時間或順序關系，需要在終止時間範圍内處理資訊範圍和上下文的時間範圍9與靈活的多粒時間聚合架構解決這些問題。在本報告中，我們在不同的任務和新資料集，史詩廚房100上進行此架構進行進一步的實驗。

Large-scale Unsupervised Semantic Segmentation

Authors Shang Hua Gao, Zhong Yu Li, Ming Hsuan Yang, Ming Ming Cheng, Junwei Han, Philip Torr

由ImageNet DataSet提供支援，對大規模資料的無監督學習已經對分類任務進行了重大進展。允許分割任務的這種有吸引力的學習模式有兩個主要挑戰我對評估算法的大規模基準缺少II無監督的形狀表示學習是困難的。我們提出了一個新建立的基準資料集的大規模無監督語義分割滑鼠的新問題，以跟蹤研究進展。基于ImageNet DataSet，我們提出了Imagenet的資料集，具有120萬次訓練圖像和40K高品質的語義分段注釋進行評估。我們的基準測試具有高資料分集和明确的任務目标。我們還提出了一種簡單但有效的基線方法，對LASS令人驚訝地工作。此外，我們基準與聯合國無弱監督的方法相應地，識别LASS的挑戰和可能的方向。

Oriented Object Detection with Transformer

Authors Teli Ma, Mingyuan Mao, Honghui Zheng, Peng Gao, Xiaodi Wang, Shumin Han, Errui Ding, Baochang Zhang, David Doermann

具有變壓器DETR的對象檢測已經實作了傳統探測器的競争性能，例如更快的R CNN。然而，對于任意面向對象檢測問題的更具挑戰性的任務，DETR的潛力基本上是未開發的。我們提供第一次嘗試并利用變壓器BF O 2Detr基于端到端網絡實作面向對象檢測。 RM O 2Detr包括1的貢獻，我們通過将變壓器直接和有效地本地化對象，在傳統的檢測器2中，通過将變壓器直接和有效地本地化對象，提供了對面向對象檢測的新洞察。用深井可分離卷積取代注意機制，這可以顯着降低在原始變壓器3中使用多尺度特征的存儲器和計算成本，我們的RM O 2Detr可以是面向對象檢測領域的另一個新基準，這實作了高達3.85通過更快的R CNN和RetinAnet進行地圖改進。我們隻需在級聯架構中調整安裝在RM O 2點頭上的頭部，并在DotA資料集中實作了SOTA的競争性能。

3D Convolution Neural Network based Person Identification using Gait cycles

Authors Ravi Shekhar Tiwari, Supraja P, Rijo Jackson Tom

人類識别在安全方面發揮着突出的作用。在現代，安全正成為個人或國家的關鍵期限，特别是對于面臨内部或外部威脅的國家。步态分析被解釋為人類機車的系統研究。它可用于提取個人的确切行走功能。步行功能取決于生物學以及物體的實體特征，是以每個人都是獨一無二的。在這項工作中，步态功能用于識别個人。這些步驟涉及對象檢測，背景減法，剪影提取，骨架化和教育訓練3D卷積神經網絡對這些步态特征。該模型在Casia B步态擷取的資料集上進行教育訓練和評估，該資料集由15000個拍攝的124個受試者行走模式的視訊組成，從11種不同的角度攜帶袋子和塗層捕獲物體。所提出的方法在下半身部分上側重于提取特征，例如膝蓋和大腿之間的角度，臀部角度，接觸角和許多其他特征。将實驗結果與剪影的準确性相比，作為教育訓練和骨架圖像的資料集作為訓練資料。結果表明，從骨架化資料中提取資訊産生提高了精度。

Go with the Flows: Mixtures of Normalizing Flows for Point Cloud Generation and Reconstruction

Authors Janis Postels, Mengya Liu, Riccardo Spezialetti, Luc Van Gool, Federico Tombari

最近，歸一化流量NFS在模組化3D點雲上展示了最先進的性能，同時允許在推理時間以任意分辨率進行采樣。然而，這些基于流的模型仍然需要長期的訓練時間和大型模型來代表複雜的幾何形狀。這項工作通過将NFS的混合物應用于點雲來增強它們的代表性。我們展示在更一般的架構中，每個元件都學會以完全無監督的方式專門化對象的特定子區域。通過将每個混合元件與相對小的NF執行個體化，我們通過基于單流基礎的模型來生成具有改進的細節的點雲，同時使用較少的參數，并且顯着減少推理運作時。我們進一步證明通過添加資料增強，各個混合元件可以學習專門以語義上有意義的方式。基于ShapEnet DataSet評估NFS對生成，自動編碼和單視圖重建的混合物。

MOC-GAN: Mixing Objects and Captions to Generate Realistic Images

Authors Tao Ma, Yikang Li

通過條件描述生成圖像近年來增加了興趣。然而，現有的條件輸入遭受非結構化形式标題或有限的資訊和昂貴的标記場景圖。對于目标場景，核心項，物體通常是明确的，而他們的互動是靈活的且難以清楚地定義的。是以，我們引入更合理的設定，從對象和标題生成現實圖像。在此設定下，對象顯式定義目标圖像中的關鍵角色，并且标題隐式描述其豐富的屬性和連接配接。相應地，提出了MOC GaN，以混合兩個模态的輸入來産生現實圖像。首先是從标題中介紹對象對之間的隐式關系，以建構隐藏狀态場景圖。是以，建構了包含對象，關系和标題的多層表示，其中場景圖提供了場景的結構，并且标題提供了圖像級引導。然後，級聯的細心生成網絡旨在通過關注标題中最相關的單詞來粗略生成短語修補程式。此外，提出了一句明智的損壞，以更好地監督細粒子句子更新檔一緻性。在Coco DataSet上，我們的方法優于現有方法和FID的現有方法，同時保持高視覺品質。廣泛的實驗表明了我們提出的方法的獨特功能。

Rethinking Training from Scratch for Object Detection

Authors Yang Li, Hong Zhang, Yu Zhang

ImageNet預訓練初始化是對象檢測的事實标準。他。發現可以從劃痕随機初始化教育訓練探測器，同時需要具有正确的歸一化技術的教育訓練計劃。在本文中，我們探索直接對目标資料集進行教育訓練進行對象檢測。在這種情況下，我們發現廣泛采用的大型調整政策如圖所示。将圖像調整為1333，800對于微調很重要，但沒有必要進行預教育訓練。具體地，我們提出了一種用于對象檢測的新教育訓練管道，其進行預訓練和微調，利用目标資料集中的低分辨率圖像以預訓練檢測器，然後用高分辨率圖像加載到微調調諧。通過這種政策，我們可以在預訓練期間使用具有大浴缸尺寸的批量标準化BN，它也可以在具有非常有限的GPU存儲器11G上将其應用于機器上的記憶力。我們稱之為直接檢測預教育訓練，并使用直接預訓練進行短暫的。實驗結果表明，直接預訓練将預訓練階段加速超過11倍11倍，而甚至1.8Map與Imagenet Pre訓練相比。此外，我們發現直接預教育訓練也适用于基于變壓器的骨幹。 Swin變壓器。代碼将可用。

Uformer: A General U-Shaped Transformer for Image Restoration

Authors Zhendong Wang, Xiaodong Cun, Jianmin Bao, Jianzhuang Liu

在本文中，我們呈現了UFFORER，一種有效和高效的變換器的架構，其中我們使用變壓器塊建構分層編碼器解碼器網絡以進行圖像恢複。 UFFARER有兩個核心設計，可以使其适合此任務。第一鍵元素是本地增強視窗變壓器塊，在那裡我們使用基于非重疊視窗的自我注意，以減少計算要求，并采用饋送前向網絡中的深度明智卷積，以進一步提高其捕獲本地上下文的可能性。第二個關鍵元素是我們探索三個跳過連接配接方案，以有效地将資訊從編碼器傳送到解碼器。由這兩個設計提供動力，UFFORER享有高能力，可用于捕獲用于圖像恢複的有用依賴性。關于幾種圖像恢複任務的廣泛實驗證明了UFFORER的優越性，包括圖像去噪，輻射，去紋理和發散。我們預計我們的工作将鼓勵進一步研究，探索基于變壓器的亞太願景任務的架構。代碼和模型将可用

Deep Matching Prior: Test-Time Optimization for Dense Correspondence

Authors Sunghwan Hong, Seungryong Kim

在視覺上或在語義上建立密集的技術的傳統技術集中于設計特定的比對之前的任務，這是難以模拟的。為了克服這一點，最近的基于學習的方法已經嘗試在大型訓練資料上之前學習模型本身的良好比對。表現改善是顯而易見的，但需要足夠的教育訓練資料和密集學習阻礙了他們的适用性。此外，在測試時間使用固定模型不會考慮到一對圖像可能需要其自身的事實，進而提供有限的性能和不良的通知來看不見的圖像。在本文中，我們示出了通過僅優化在輸入對圖像上的未教育訓練的比對網絡來捕獲特定于圖像對特定的。為密集對應的這種測試時間優化量身定制，我們呈現了一個剩餘的比對網絡和信心意識的對比喪失，以保證有意義的收斂。實驗表明，我們的架構，Dubbed Dub Bode的DMP，是對幾何比對和語義比對的幾個基準的最新基于基準的基于基準的最新學習方法，即使它不需要大型教育訓練資料也不需要密集的學習。通過預教育訓練網絡，DMP在所有基準上達到最先進的性能。

Referring Transformer: A One-step Approach to Multi-task Visual Grounding

Authors Muchen Li, Leonid Sigal

作為視覺推理的重要步驟，視覺接地，例如短語本地化，參考表達了解分割已經被廣泛探索了以前探讨了表達式了解REC或Semonation Res的先前接近性能，由于兩個階段設定，或者需要設計複雜任務特定的一個階段架構。在本文中，我們提出了一個簡單的一個階段多任務架構，用于視覺接地任務。具體而言，我們利用變壓器架構，其中兩個模态在視覺語言編碼器中融合。在解碼器中，該模型學習生成上下文化語言查詢，然後被解碼并用于直接回歸邊界框并為相應的參考區域生成分割掩碼。利用這種簡單但高度上下文化的模型，我們在REC和RES任務中通過大型裕量優于藝術方法的狀态。我們還表明，外部資料集的簡單預教育訓練計劃進一步提高了性能。廣泛的實驗和消融說明了我們的模型從上下文資訊和多任務教育訓練都受益匪淺。

Reducing the feature divergence of RGB and near-infrared images using Switchable Normalization

Authors Siwei Yang, Shaozuo Yu, Bingchen Zhao, Yin Wang

在農業領域的視覺模式識别是航空圖像處理的重要應用。在本文中，我們考慮了農業空中圖像的多模态性質，并表明在不考慮特征分歧的情況下膽怯地将不同的方式結合在一起，可以導緻次最佳結果。是以，我們将可切換的歸一化塊應用于我們的DEEPLABV3分段模型以減輕特征分歧。使用流行的對稱Kullback Leibler分解措施，我們表明我們的模型可以大大降低RGB和近紅外通道之間的分歧。與混合丢失功能一起，我們的模型達到了先前公布的基線的平均值近10個改進。

Neural Implicit 3D Shapes from Single Images with Spatial Patterns

Authors Yixin Zhuang, Yunzhe Liu, Baoquan Chen

從單個圖像的3D形狀重建一直是計算機視覺中的一個很長的問題。由于在圖像捕獲期間發生的資訊丢失和遮擋，問題均為不良且過于挑戰。與先前的學習整體形狀前導者的方法相比，我們提出了一種學習空間模式前沿的方法，用于推斷下面形狀的隐形區域，其中隐式形狀表示中的每個3D樣本與手工制作生成的一組點相關聯3D映射，以及他們的本地圖像功能。所提出的空間模式具有顯着的資訊性，并對可見和閉塞位置具有獨特的描述。最重要的是，我們工作的關鍵是橫跨形狀的空間模式的無處不在，這使得能夠推理底層物體的隐形部分，進而大大減輕了遮擋問題。我們設計了一種整合空間模式表示的神經網絡，并展示了在廣泛使用的名額上提出的方法的優越性。

Multi-Level Graph Encoding with Structural-Collaborative Relation Learning for Skeleton-Based Person Re-Identification

Authors Haocong Rao, Shihao Xu, Xiping Hu, Jun Cheng, Bin Hu

基于骨架的人RE識别RE ID是一種新興的開放主題，為安全關鍵應用提供了很大的價值。現有方法通常從身體關節的軌迹提取手工制作的特征或模型骨架動力學，而它們很少探索身體結構或運動中包含的有價值的關系資訊。為了充分探索身體關系，我們建構從不同層次模拟人類骷髅的圖表，并且首次提出了一種具有結構協作關系學習MGCR的多級圖形編碼方法，以編碼人物RE ID的鑒别圖曲線特征。具體地，考慮到在骨架中，考慮到結構連接配接的主體元件高度相關，我們首先提出了一種多頭結構關系層，以了解圖中鄰居身體部件節點的不同關系，這有助于實作有效節點表示的聚合鍵相關特征。其次，通過行走中的身體部件協作通常攜帶可識别的模式，我們提出了一種交叉級協同關系層，以推斷不同級别分量之間的協作，以捕獲更多辨識性的骨架圖特征。最後，為了增強圖形動态編碼，我們提出了一種用于模型預訓練的新型自我監督的稀疏連續預測任務，這有助于對人物重新ID編碼進階圖語義。 MG SCR優于現有技術的骨架方法的狀态，它可以實作具有額外RGB或深度特征的許多多模态方法的性能。我們的代碼可供選擇

Using GANs to Augment Data for Cloud Image Segmentation Task

Authors Mayank Jain, Conor Meegan, Soumyabrata Dev

雖然雲天空圖像分割具有廣泛的現實應用程式，但需要大量标記的資料來教育訓練高度準确的模型來執行任務。使用相應的地面真理二進制地圖的這種雲天空圖像的稀缺性使得訓練這種複雜的圖像分割模型非常困難。在本文中，我們展示了使用生成的對抗網絡GAN生成資料來增強訓練集的有效性，以提高圖像分割模型的預測精度。我們進一步提出了一種方法來估計GaN生成的圖像的基本實際映射，以便于他們有效地用作增強圖像。最後，我們用不同的統計技術驗證我們的工作。

Occlusion-aware Unsupervised Learning of Depth from 4-D Light Fields

Authors Jing Jin, Junhui Hou

深度估計是4 D光場處理和分析中的基本問題。雖然最近受監管的基于學習的光場深度估計方法顯着提高了基于傳統優化的準确性和效率，但這些方法依賴于訓練與地面真理深度映射有挑戰性，以獲得或甚至不可用的真實世界燈現場資料。此外，由于現實世界和合成資料之間的不可避免的差距或域差異，當概括使用合成資料訓練到現實世界資料的模型時，它們可能會遭受嚴重的性能劣化。相比之下，我們提出了一種無監督的基于學習的方法，這在教育訓練期間不需要地面真理深度作為監督。具體而具體基于光場資料獨特的幾何結構的基本知識，我們提出了一種遮擋意識政策來提高遮擋區域的準确性，其中我們探讨了光場視圖的子集之間的角度一緻性，以估計初始深度映射，利用受限制的無監督損失來學習其對最終深度預測的相應可靠性。此外，我們采用具有權重平滑度丢失的多尺度網絡來處理Textublifuel區域。合成資料的實驗結果表明，我們的方法可以顯着縮小先前無監督的方法和監督者之間的性能差距，并為傳統方法産生可比準确性的深度圖，具有明顯降低的計算成本。此外，關于現實世界資料集的實驗表明，我們的方法可以避免在監督方法中呈現的域移位問題，展示了我們方法的巨大潛力。

SADRNet: Self-Aligned Dual Face Regression Networks for Robust 3D Dense Face Alignment and Reconstruction

Authors Zeyu Ruan, Changqing Zou, Longhai Wu, Gangshan Wu, Limin Wang

野外的三維面部密集對準和重建是一個具有挑戰性的問題，因為部分面部資訊在封閉和大的姿勢面部圖像中常見。大頭姿勢變化也增加了解決方案空間并使模型更加困難。我們的主要思想是模拟遮擋和姿勢，以将這一具有挑戰性的任務分解為幾個相對更易于管理的子任務。為此，我們建議結束結束架構，被稱為自對準的雙面回歸網絡Sadrnet，其預測姿勢依賴面，姿勢獨立的臉部。它們通過遮擋感覺自對準組合以産生最終的3D面。在兩個流行的基準測試，AFLW2000 3D和佛羅倫薩的廣泛實驗表明，該方法在現有技術的現有狀态下實作了顯着的優越性。

An Adaptive Framework for Learning Unsupervised Depth Completion

Authors Alex Wong, Xiaohan Fei, Byung Woo Hong, Stefano Soatto

我們提出了一種方法來從彩色圖像和相關的稀疏深度測量推斷密集深度圖。我們的主要貢獻在于設計退火過程，用于确定CO可見性閉塞，脫膠和正規化程度，以施加模型。我們表明，正規化和CO可見性通過模型的适應性剩餘與資料的健身殘留相關，兩者都可以統一到一個架構中以改善學習過程。我們的方法是通過在每個訓練步驟中測量每個訓練步驟的每個像素位置來指導優化優化的自适應權重方案，用于估計軟可見性掩模和确定正則化量。我們通過将其應用于最近的一些無監督的深度完成方法并在公共基準資料集上提高其性能，而不會展示我們的方法，而不會産生額外的教育訓練參數或推理時間增加。可用的代碼

Learning Topology from Synthetic Data for Unsupervised Depth Completion

Authors Alex Wong, Safa Cicek, Stefano Soatto

我們通過利用合成資料來介紹從圖像和稀疏深度測量的推斷密集深度映射的方法，以學習稀疏點雲與密集的自然形狀，并使用圖像作為證據驗證預測深度圖的證據。我們在自然形狀之前的學到使用僅使用稀疏深度作為輸入，而不是圖像，是以在嘗試将學習模型從合成資料轉移到真實的時，該方法不受協變量的影響。這使我們能夠使用與地面真相的豐富的合成資料來學習重建過程的最困難的元件，即拓撲估計，并使用圖像基于光度證據來改進預測。我們的方法使用比以前的方法更少的參數，但是，在室内和室外基準資料集中實作了最先進的技術。可用的代碼

Self-Damaging Contrastive Learning

Authors Ziyu Jiang, Tianlong Chen, Bobak Mortazavi, Zhangyang Wang

對比度學習實作最近實作的突破加速了在現實世界資料應用上部署無監督教育訓練的步伐。然而，現實中的未标記資料通常是不平衡的并且顯示出長尾部分布，目前尚不清楚最新的對比學習方法可以在實際情況下表現出色。本文建議通過稱為自我損害對比學習SDCLR的原則架構明确解決這一挑戰，而不知道課程，自動平衡代表學習。我們的主要靈感來自最近發現深層模型難以記憶樣品，并且這些可能通過網絡修剪暴露。它進一步自然地假設長尾樣品對于模型而言，由于示例不足，學習的模型也更加艱難。是以，SDCLR中的關鍵創新是建立一個動态自競争對手模型，與目标模型形成對比，這是後者的修剪版本。在教育訓練期間，對比這兩種模型将導緻适應性線上挖掘目前目标模型最容易被遺忘的樣本，并在對比損失中隐含地強調它們更加強調它們。跨多個資料集和不平衡設定的廣泛實驗表明，在全拍攝和少量拍攝設定的線性評估方面，SDCLR不僅提高了整體準确性，而且還具有平衡。我們的代碼可供選擇

Visual Search Asymmetry: Deep Nets and Humans Share Similar Inherent Biases

Authors Shashi Kant Gupta, Mengmi Zhang, Chia Chien Wu, Jeremy M. Wolfe, Gabriel Kreiman

視覺搜尋是一項普遍存在的，經常具有挑戰性的日常任務，是通過在家中尋找汽車鑰匙或人群中的朋友。一些經典搜尋任務的有趣特性是一種不對稱性，使得在分散體B中找到目标A可以比發現B中的B.為了闡明對視覺搜尋中不對稱負責的機制，我們提出了一種占據目标和目标的計算模型将搜尋圖像作為輸入，并在找到目标之前産生一系列眼睛運動。該模型将偏心依賴性視覺識别內建了目标相關的頂部提示。我們将六種範式搜尋任務中的人類行為與人類的不對稱性的六種範式搜尋任務進行了比較。如果沒有先前接觸刺激或任務特定教育訓練，該模型提供了搜尋不對稱的合理機制。我們假設搜尋不對稱的極性來自自然環境的經驗。我們通過教育訓練模型在想象中的增強版本上進行了測試了這一假設，其中自然圖像的偏差被移除或逆轉。根據訓練協定，搜尋不對稱的極性消失或被改變。本研究突出了神經網絡模型中可以出現古典感覺性質的培養方式，而無需任務特定教育訓練，而是由于饋送到模型的發育飲食的統計性質的結果。所有源代碼和刺激都公開可用

Spectral Temporal Graph Neural Network for Trajectory Prediction

Authors Defu Cao, Jiachen Li, Hengbo Ma, Masayoshi Tomizuka

有效地了解周邊代理的上下文環境和準确的運動預測對于自主車輛和社會移動機器人的發展至關重要。這項任務是具有挑戰性，因為自主代理的行為不僅受到自己的意圖影響，而且由靜态環境和周圍的動态互動代理的影響。以前的作品專注于利用時域中的空間和時間資訊，同時不充分利用頻域中的線索。為此，我們提出了一種光譜時間圖神經網絡SpectGnn，除了時域之外，可以在頻域中同時捕獲代理相關的相關性和時間依賴性。 Spectgnn在具有動态狀态資訊的代理圖和環境圖中運作，其中包含從兩個流中的上下文圖像中提取的功能。該模型內建了圖形傅裡葉變換，光譜圖卷積和時間門控卷積，以編碼曆史資訊和預測未來軌迹。此外，我們納入了多頭時空關注機制，以減輕誤差傳播在很長的時間範圍内的影響。我們展示了Spectgnn對兩個公共軌迹預測基準資料集的性能，這在預測準确性方面實作了最新性能的狀态。

Feature Flow Regularization: Improving Structured Sparsity in Deep Neural Networks

Authors Yue Wu, Yuan Lan, Luchan Zhang, Yang Xiang

修剪是一種模型壓縮方法，可以在保持精度的同時消除深神經網絡DNN中的備援參數。最可用的過濾器修剪方法需要複雜的處理，例如疊代修剪，功能統計排名，或在教育訓練過程中的其他優化設計。在本文中，我們提出了一種簡單有效的正則化政策，從功能的進化的新視角下，我們呼叫特征流正規化FFR，用于改善DNN中的結構化稀疏性和過濾器。具體地，FFR沿神經網絡施加對梯度和曲率的梯度和曲率的控制，這隐含地增加了參數的稀疏性。 FFR背後的原理是，功能的連貫性和平滑演變将導緻避免備援參數的有效網絡。從FFR獲得的高結構稀疏性使我們能夠有效地修剪過濾器。使用VGGNETS的實驗，CIFAR 10 100上的RESENER和微小的想象資料集表明FFR可以顯着提高非結構化和結構稀疏性。我們的修剪在減少參數和拖波方面的結果與藝術修剪方法的狀态相當或甚至更好。

Dynamic Resolution Network

Authors Mingjian Zhu, Kai Han, Enhua Wu, Qiulin Zhang, Ying Nie, Zhenzhong Lan, Yunhe Wang

深度卷積神經網絡CNNS通常具有複雜的設計，具有許多卷積層和學習參數，用于準确性原因。為了減輕将它們部署到移動裝置上的昂貴成本，最近的作品使挖掘預定架構中的備援造成了巨大努力。然而，尚未完全研究現代CNN的輸入分辨率的備援，即，輸入圖像的分辨率是固定的。在本文中，我們觀察到使用相同的神經網絡的準确預測給定圖像的最小分辨率。為此，我們提出了一種新穎的動态分辨率網絡DRNET，其中分辨率基于每個輸入樣本動态确定。是以，通過所需網絡共同地探讨具有可忽略不計的計算成本的分辨率預測器。在實踐中，預測器學習可以保留的最小分辨率，甚至超過每個圖像的原始識别準确性。在推理期間，每個輸入圖像将被調整為其預測的分辨率，以最小化整體計算負擔。然後，我們對幾個基準網絡和資料集進行了廣泛的實驗。結果表明，我們的DRNET可以嵌入在貨架網絡架構中的任何偏移中，以獲得相當大降低的計算複雜性。例如，DRNET通過大約34個計算減少實作了類似的性能，同時增加了1.4在ImageNet上的原始Reset 50相比增加了10個計算減少的精度。

Category Contrast for Unsupervised Domain Adaptation in Visual Tasks

Authors Jiaxing Huang, Dayan Guan, Aoran Xiao, Shijian Lu

無監督代表學習的例子對比近年來取得了巨大的成功。在這項工作中，我們探讨了對無監督域适應UDA的執行個體對比學習的想法，并提出了一種新型對比度技術Caco，其在視覺UDA任務的執行個體辨識之上引入語義前瞻。通過考慮執行個體對比學習作為文字典查找操作，我們建構一個語義意識詞，其中來自兩個源和目标域的樣本，其中每個目标樣本都基于源樣本的類别代理配置設定僞類标簽。這允許類别查詢與類别對比學學習與類别判别且域名字典中的類别級别字典從任一源或目标域中的相同類别的樣本較近，而不同類别的同時被推開。多種視覺任務的廣泛UDA實驗例如，分割，分類和檢測表明，與高度優化的現有技術相比，Caco的簡單實作達到了卓越的性能。在分析和經驗上，實驗還證明了Caco與現有的UDA方法互補，并概括為其他學習設定，例如半監督學習，無監督的模型适應等。

RDA: Robust Domain Adaptation via Fourier Adversarial Attacking

Authors Jiaxing Huang, Dayan Guan, Aoran Xiao, Shijian Lu

無監督的域适應UDA涉及标記的源域中的監督損失以及未标記的目标領域的無監督損失，這通常面臨比經典監督學習更嚴重的過度，因為監督源損失具有明顯的域間隙，無監督的目标損失往往是嘈雜的由于缺乏注釋。本文介紹了RDA，一種強大的域适應技術，介紹了對UDA中的過度裝備緩解過度攻擊。我們通過新型傅裡葉逆勢攻擊FAA方法實作了強大的域改性，其允許大量的擾動噪聲，但具有最小的圖像語義的修改，是以由于域間隙的存在，前者對其産生的對抗性樣本的有效性至關重要。具體地，FAA通過僅擾亂捕獲幾乎語義資訊的某些FC來将圖像分解成多個頻率分量FCS并産生對抗性樣本。通過FAA生成的樣本，教育訓練可以繼續随機步行并漂移到具有平坦損失景觀的區域，導緻更強大的域适應。通過多個域适應任務的廣泛實驗表明RDA可以使用具有卓越性能的不同計算機視覺任務。

An End-to-End Breast Tumour Classification Model Using Context-Based Patch Modelling- A BiLSTM Approach for Image Classification

Authors Suvidha Tripathi, Satish Kumar Singh, Hwee Kuan Lee

研究整體幻燈片圖像計算分析的研究人員在組織病理學中，由于每個WSI的大量分辨率，主要采用基于更新檔的模組化。由于計算限制，大量的分辨率使得直接進入機器學習模型即可。但是，由于基于更新檔的分析，大多數目前方法都無法利用更新檔之間的底層空間關系。在我們的工作中，我們試圖将這種關系與來自特定惡性良性腫瘤區域的提取的斑塊之間的特征相關聯。對于定分的任務，我們已經使用Bilstms來模拟前向和向後的上下文關系。基于RNN的模型通過允許在深度學習模型中模組化可變尺寸圖像來消除序列大小的限制。我們還通過探索用于樣品貼片的不同掃描技術來融入空間連續性的影響。為了建立我們的方法的效率，我們在兩個資料集，顯微鏡圖像和WSI惡性良性腫瘤區域上教育訓練并測試了我們的模型。與當代文獻進行比較後，我們以微小圖像資料集的精度實作了更好的性能。對于WSI惡性良性腫瘤區域資料集，我們将分類結果與諸如Reset，DenSenet和Incepionv3等深度學習網絡進行了比較。我們實作了84的最高性能準确性。我們發現具有CNN特征的Bilstms在将更新檔模組化到結束到結束圖像分類網絡中的情況下更好地表現了更好。另外，WSI惡性良性腫瘤區域的可變尺寸用于分類而無需調整大小。這表明我們的方法獨立于惡性良性腫瘤圖像尺寸，并且可以在不丢失分辨率細節的情況下處理大的尺寸圖像。

Convolutional Neural Networks with Gated Recurrent Connections

Authors Jianfeng Wang, Xiaolin Hu

卷積神經網絡CNN已成為解決許多計算機視覺問題的基本模型。近年來，提出了一種新的CNN，經常性卷積神經網絡RCNN，受到動物視覺系統的豐富反複連接配接的啟發。 RCNN的臨界元件是複發卷積層RCl，其含有标準卷積層中神經元之間的複發性連接配接。随着經常性計算數量越來越多的，RCL中神經元的接受田RFS不合适地擴充，這與生物學事實不一緻。我們建議通過将栅極引入複發連接配接來調節神經元的RFS。門控制輸入到神經元的上下文資訊的量，是以神經元RFS變為自适應。得到的層稱為門控複發卷積層GRCL。多個GRCLS構成一個名為Gated RCNN GRCNN的深層模型。在包括對象識别，場景文本識别和對象檢測的幾個計算機視覺任務上評估GRCNN，并獲得比RCNN更好的結果。另外，當與其他自适應RF技術相結合時，GRCN在基準資料集上對本任務的基準資料集的狀态表現出競争性能。代碼在HREF釋放

Region-aware Adaptive Instance Normalization for Image Harmonization

Authors Jun Ling, Han Xue, Li Song, Rong Xie, Xiao Gu

圖像構成在照片編輯中起着常見但重要的作用。要獲得照片現實的複合圖像，必須調整前景的外觀和視覺風格，以與背景相容。用于協調合成圖像的現有深度學習方法直接從綜合到真實的圖像映射網絡，無需明确探索背景和前台圖像之間的視覺樣式一緻性。為了確定前景與背景之間的視覺風格一緻性，在本文中，我們将圖像協調視為風格轉移問題。特别是，我們提出了一個簡單但有效的區域意識的自适應執行個體标準化雨子產品，它明确地從背景中制定了視覺風格，并自适應地将它們應用于前景。通過我們的設定，我們的雨子產品可以用作現有圖像協調網絡的子產品中的下降，并且能夠帶來顯着的改進。對現有圖像協調基準資料集的廣泛實驗顯示了該方法的優異能力。代碼可用

Patch Slimming for Efficient Vision Transformers

Authors Yehui Tang, Kai Han, Yunhe Wang, Chang Xu, Jianyuan Guo, Chao Xu, Dacheng Tao

本文通過在給定網絡中挖掘備援計算來研究視覺變壓器的效率問題。最近的變壓器架構表明了實作在一系列計算機視覺任務上實作出色性能的有效性。然而，類似于卷積神經網絡的巨大計算成本仍然是一個嚴峻的問題。考慮到注意力機制通過層彙總不同的貼片層，我們提出了一種新穎的貼片纖細方法，丢棄在頂部下落範式中的無用斑塊。我們首先識别最後一層中的有效更新檔，然後使用它們來指導先前層的更新檔選擇過程。對于每層，貼片對最終輸出特征的影響是近似的，并且将删除具有較少影響的更新檔。基準資料集的實驗結果表明，該方法可以顯着降低視覺變壓器的計算成本，而不會影響其性能。例如，VIT TI模型的超過45幅拖鞋可以在ImageNet DataSet上僅用0.2前1個精度下降減少。

Semi-Supervised Domain Adaptation via Adaptive and Progressive Feature Alignment

Authors Jiaxing Huang, Dayan Guan, Aoran Xiao, Shijian Lu

當代域自适應語義細分旨在通過假設目标域完全未定位來解決資料注釋挑戰。然而，注釋幾個目标樣本通常是非常可管理的，并且特别是如果它基本上提高了适應性的性能。本文提出了SSDA，一個半監督域自适應圖像分割網絡，其中一些标記的目标樣本是用于标記源樣本和未标記的目标樣本之間的自适應和漸進特征對準的錨點。我們将少數标記的目标樣本定位為參考文獻，該參考資料衡量源和目标特征之間的相似性，并指導自适應域對齊以用于學習更類似的源特征。此外，我們在疊代訓練過程中連續替換不同意的源特征，在疊代訓練過程中持續高度置信目标，這在自信和不吻合目标特征之間實作了逐漸的域域對齊。廣泛的實驗表明，所提出的SSDA大大優于許多基線，即基于UDA的語義分割和基于SSDA的圖像分類。此外，SSDA是互補的，可以輕松地納入基于UDA的方法，具有域自适應語義分割的一緻性改進。

Multi-Camera Vehicle Counting Using Edge-AI

Authors Luca Ciampi, Claudio Gennaro, Fabio Carrara, Fabrizio Falchi, Claudio Vairo, Giuseppe Amato

本文介紹了一種新的解決方案，可以使用智能攝像頭捕獲的圖像自動計算停車場中的車輛。與此任務的大多數文獻不同，這側重于對單幅圖像的分析，本文提出了使用多種視覺源來監測不同的視角的更寬停車區。所提出的多相機系統能夠在邊緣裝置上直接估計整個停車場中存在的汽車數量。它包括關于基于裝置的深度學習的檢測器，其定位和計數來自捕獲的圖像的車輛和基于分散的基于幾何的方法，可以分析相機間共享區域并合并由所有裝置擷取的資料。我們對CNRPark Ext DataSet的擴充版本進行了實驗評估，一系列從意大利比薩的國家研究委員會CNR的停車場拍攝的圖像。我們表明我們的系統是強大的，并且利用來自不同錄影機的備援資訊，進而提高了整體性能，而無需任何額外的受監控場景的幾何資訊。

Making CNNs Interpretable by Building Dynamic Sequential Decision Forests with Top-down Hierarchy Learning

Authors Yilin Wang, Shaozuo Yu, Xiaokang Yang, Wei Shen

在本文中，我們提出了一種通用模型轉移方案，使令人惱火的神經網絡CNN解釋，同時保持其高分類精度。我們通過在CNN的頂部建構一個可微分的決定森林來實作這一目标，該森林在教育訓練期間享有兩個特征1，森林的樹層次在嵌入在預訓練的CNN重量2中的類别語義的指導下以頂級方式學習在推理期間，從森林中動态地選擇單個決策樹，用于每個輸入樣本，使得傳送的模型能夠使與由語義相似類别共享的屬性相對應的順序決策，而不是直接執行平坦分類。我們命名轉讓的模型深動态順序決策林DDSDF。實驗結果表明，DDSDF不僅可以達到更高的分類精度，而不是原始的CNN，而且具有更好的可解釋性，如定性，它具有合理的層次結構和定量，它導緻更精确的顯着性圖。

Web based disease prediction and recommender system

Authors Harish Rajora, Narinder Singh Punn, Sanjay Kumar Sonbhadra, Sonali Agarwal

在全球範圍内，由于偏遠地區的醫療保健支援良好，幾例案件未能。在這種情況下，需要一個集中式系統，以便有效監測和分析病曆。基于Web的患者診斷系統是一種用于存儲病史的中心平台，并根據患者經曆的目前症狀預測可能疾病，以確定更快和準确的診斷。早期疾病預測可以幫助使用者确定疾病的嚴重程度并采取快速行動。所提出的基于網的疾病預測系統利用基于機器學習的分類技術，從國家疾病控制NCDC中擷取的資料集。 k最近鄰居K NN，随機森林和天真凸床分類方法，還提出了一個集合投票算法，其中每個分類器基于預測置信度動态配置設定權重。建議的系統還配備了推薦方案，以推薦基于患者現有症狀的測試類型，進而可以采取必要的預防措施。集中式資料庫可確定保留醫療資料，系統中存在透明度。通過在建立診斷一旦建立診斷時，無法防止篡改系統。

T-Net: Deep Stacked Scale-Iteration Network for Image Dehazing

Authors Lirong Zheng, Yanshan Li, Kaihao Zhang, Wenhan Luo

朦胧圖像降低了圖像内容的可見性，并且霧霾将導緻處理後續計算機視覺任務的失敗。在本文中，我們通過提出名為T NET的脫水網絡來解決圖像脫水的問題，該網絡是基于U NET架構和雙關注子產品的骨幹網絡組成。它可以通過使用具有新融合政策的跳過連接配接來實作多尺度特征融合。此外，通過反複展開普通T網，提出堆棧T Net通過遞歸政策利用深度特征的依賴性。為了減少網絡參數，我們的堆棧T Net采用Reset的級常常遞歸計算。我們将階段明智結果和原始朦胧圖像作為輸入作為每個T網，最後輸出清潔圖像的預測。合成和現實世界形象的實驗結果表明，我們的普通T網和先進的堆棧T網對藝術脫水算法的狀态有利地表現出，并表明我們的堆棧T網可以進一步提高脫水效果，展示了效果遞歸政策。

Points2Polygons: Context-Based Segmentation from Weak Labels Using Adversarial Networks

Authors Kuai Yu, Hakeem Frank, Daniel Wilson

在應用的圖像分割任務中，提供衆多和精确标簽用于訓練的能力對于推理時間來說是模型的準确性。然而，這種開銷通常被忽視，最近提出的分割架構嚴重依賴于地面真理标簽的可用性和保真度，以實作最新的藝術準确性的狀态。未能承認創造足夠的地面真理的難度可能導緻過度依賴預訓練的模型或在現實世界應用中缺乏采用。我們引入Point2PolyGons P2P，一種模型，它利用直接解決這個問題的上下文度量學習技術。 Points2PolyGons針對現有的完全監督分段基線對具有有限教育訓練資料的現有完全監督的分段基線進行良好，盡管使用輕量級分割模型U Net與Reset18骨架，并且隻能以對象質心的形式通路弱标簽，并且沒有預先教育訓練。我們在幾個不同的小但非瑣碎的資料集中展示了這一點。我們表明，使用上下文資料的度量學習提供了一般的自我監督任務的關鍵見解，并且允許分段模型在計算機視覺中輕松地拓展傳統标記的強化域。

IPS300+: a Challenging Multimodal Dataset for Intersection Perception System

Authors Huanan Wang, Xinyu Zhang, Jun Li, Zhiwei Li, Lei Yang, Shuyue Pan, Yongqiang Deng

由于具有高複雜性和閉塞，在擁擠的城市交叉路口中的感覺不足可能是人類驅動程式和自主算法的嚴重安全風險，而CVIS合作車輛基礎設施系統是一個提出的解決方案，以便在這種情況下進行全面參與者的感覺。但是，對路邊多式化感覺的研究仍處于起步階段，并且此類方案沒有開源資料集。是以，本文填補了差距。通過安裝在交叉口對角線上的IPS交叉口感覺系統，本文提出了一種用于交叉口感覺任務的高品質多峰資料集。實驗交叉點的中心占地3000m2，延伸距離達到300米，這對于CVIS是典型的。第一批開源資料包括14198幀，每個幀的平均标簽平均為2019年最擁擠的資料集H3D資料集的9.6倍。為了友善進一步研究，該資料集嘗試将标簽文檔保留與基蒂資料集一緻，并為算法評估建立标準化的基準。我們的資料集可用

Radar-Camera Pixel Depth Association for Depth Completion

Authors Yunfei Long, Daniel Morris, Xiaoming Liu, Marcos Castro, Punarjay Chakravarty, Praveen Narayanan

雖然雷達和視訊資料可以在檢測水準處易于融合，但在像素級别融合它們可能更有益。由于雷達的稀疏性，這也是更具挑戰性的，而且還因為汽車雷達梁比相機和雷達之間的典型像素相結合的典型像素，這導緻雷達像素和彩色像素之間的差。結果是，為雷達和視訊而設計的LIDAR和視訊票價設計的深度完成方法。在這裡，我們向像素關聯階段提出了一種雷達，它學習從雷達傳回到像素的映射。此映射還用于緻密雷達傳回。使用這作為第一階段，其次是更傳統的深度完成方法，我們能夠通過雷達和視訊實作圖像引導深度完成。我們展示了在NUSCENES DataSet上單獨使用相機和雷達的性能。我們的源代碼可用

Visual communication of object concepts at different levels of abstraction

Authors Justin Yang, Judith E. Fan

人們可以生産特定實體的圖紙，例如，加菲爾德以及一般類别，例如，貓。什麼可以解釋産生甚至熟悉的對象概念的這種變化的能力我們假設不同水準的抽象繪制對象取決于感官資訊和代表性目标，使得旨在描繪最近看到的物體比預期的更多細節更加細節代表一個類别。參與者使用照片或類别标簽繪制了對象。對于每個CUE類型，參與者的一半旨在繪制另一個目标的特定示例，旨在繪制該類别。我們發現标簽CUED類别圖形是基本級别最識别的，而照片被提示的示例圖案是最不可識别的。這些發現共同突出了任務環境的重要性，以便解釋人們如何使用圖紙以不同方式傳達視覺概念。

GLSD: The Global Large-Scale Ship Database and Baseline Evaluations

Authors Zhenfeng Shao, Jiaming Wang, Lianbing Deng, Xiao Huang, Tao Lu, Ruiqian Zhang, Xianwei Lv, Qing Ding, Zhiqiang Wang

在本文中，我們介紹了一個挑戰的全球大規模船舶資料庫，稱為GLSD，專為船舶檢測任務而設計。設計的GLSD資料庫總共包括來自100,729個圖像的140,616個注釋執行個體。根據收集的圖像，我們提出了13個在國際航線中廣泛存在的類别。這些類别包括帆船，漁船，客船，戰艦，一般貨船，集裝箱船，散貨貨船，駁船，礦石承運人，速度船，獨木舟，油載體和拖船。開發GLSD的動機包括以下1，提供了一個完整的船舶檢測資料庫2，在一個統一的全球資料庫中提供船舶檢測和詳盡标簽資訊邊界框和船舶類标簽的全球研究人員，以及提供帶地理資訊端口的大型船舶資料庫以及利益多模态分析的國家資訊。此外，我們讨論了GLSD中給定圖像特征的評估協定，并分析了GSLD上的最佳物體檢測算法的所選狀态的性能，為未來的研究提供基線。有關設計GLSD的更多資訊可以在

Predify: Augmenting deep neural networks with brain-inspired predictive coding dynamics

Authors Bhavin Choksi, Milad Mozafari, Callum Biggs O May, Benjamin Ador, Andrea Alamia, Rufin VanRullen

深度神經網絡在圖像分類中Excel Excel，但它們的性能遠對輸入擾動而不是人類的感覺。在這項工作中，我們可以通過将腦在深度卷積網絡中的腦引發的經常性動态納入這種缺點來部分地解決這種缺點。我們從神經科學預測編碼中的一個流行架構中擷取靈感。在分層模型的每層，生成回報預測即，重建前一層中的活動模式。重建錯誤用于疊代地更新時間步驟中的網絡S表示，并優化通過天然圖像資料集的網絡的回報權重，這是一種無監督的訓練。我們展示将此政策實施到兩個流行的網絡中，VGG16和WeffernowNetB0，提高了對各種損壞的魯棒性。我們假設其他前饋網絡可以類似地受益于所提出的架構。為了促進朝着這種方向促進研究，我們提供一種稱為PRIGEIFY的開放的基于PYTORCH的包，其可用于實施和研究預測編碼動态在任何卷積神經網絡中的影響。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩請移步首頁

pic from pexels.com

【AI視野·今日CV 計算機視覺論文速覽第215期】Tue, 8 Jun 2021

Daily Computer Vision Papers

繼續閱讀

使用hector構圖_如何使用均衡的構圖拍攝更清晰的照片

GMS：基于網格運動統計的快速極度魯棒的特征比對摘要1 簡介2 本文的方法3 應用于快速記分的網格架構4 實驗 5 結論

如何使用前景和背景建立更清晰的照片

在Ubuntu16.04上提取相鄰序列圖像之間的ORB的特征點，并用暴力方法找到比對點并連線一、什麼是ORB特征二、什麼是暴力比對三、實作代碼四、運作方法

Matlab中将二維灰階圖像三維顯示

車道線檢測

自監督｜「CoCLR」視訊自監督對比學習筆記

視訊對象分割（Video Object Segmentation）研究小記任務定義與資料集技術路線分類基于神經網絡的模型總結

目标檢測：YOLOV3論文解讀一、yolov3論文解讀

PALM病理性近視預測 2021-07-04飛槳正常賽：PALM病理性近視預測 6月第3名方案一、賽題介紹

Pytorch機器學習（九）—— YOLO中對于錨框，預測框，産生候選區域及對候選區域進行标注詳解 Pytorch機器學習（九）—— YOLO中錨框，預測框，産生候選區域及對候選區域進行标注詳解前言一、基本概念二、代碼講解總結

opencv視覺跟蹤——消除背景模組化

圖形處理單元(GPU)的演進

2021-09-30三維點雲測量正方形包裹體積

DOG算子

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

【AI視野·今日CV 計算機視覺論文速覽 第215期】Tue, 8 Jun 2021

Daily Computer Vision Papers

繼續閱讀

【AI視野·今日CV 計算機視覺論文速覽第215期】Tue, 8 Jun 2021