【AI視野·今日CV 計算機視覺論文速覽第223期】Mon, 21 Jun 2021

AI視野·今日CS.CV 計算機視覺論文速覽

Mon, 21 Jun 2021

Totally 62 papers

👉上期速覽✈更多精彩請移步首頁

Daily Computer Vision Papers

End-to-end Temporal Action Detection with Transformer

Authors Xiaolong Liu, Qimeng Wang, Yao Hu, Xu Tang, Song Bai, Xiang Bai

時間動作檢測TAD旨在确定未經過微的視訊中每個動作執行個體的語義标簽和邊界。它是視訊了解的基本任務，在TAD中取得了重大進展。以前的方法涉及多個階段或網絡以及手動設計的規則或操作，進而效率和靈活性。在這裡，我們建構一個結束于變壓器的TAD的結束架構，被稱為Tadtr，它同時将所有動作執行個體預測為一組并行标簽和時間位置。 Tadtr能夠通過選擇性地參加視訊中的許多片段來自适應地提取制作動作預測所需的時間上下文資訊。它大大簡化了TAD的管道，比以前的探測器快得多。我們的方法在HACS段和Thumos14上實作了最新性能，以及ActivityNet 1.3上的競争性能。我們的代碼将在URL提供

How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers

Authors Andreas Steiner, Alexander Kolesnikov, Xiaohua Zhai, Ross Wightman, Jakob Uszkoreit, Lucas Beyer

視覺變壓器Vit已被證明可以對各種視覺應用進行高度競争的性能，例如圖像分類，對象檢測和語義圖像分割。與卷積神經網絡相比，視覺變壓器S較弱的電感偏差通常被發現在較小訓練資料集上訓練時，在短時間内依賴模型正則化或資料增強AuGreg。我們進行系統的實證研究，以更好地了解教育訓練資料量，Augreg，模型規模和計算預算之間的互相作用。作為本研究的一個結果，我們發現增加的計算和Augreg的組合可以産生具有與在競争中的教育訓練資料訓練的模型相同的性能的模型，我們在公共想象21K資料集上教育訓練各種尺寸的vit模型或者優于他們的對應物，教育訓練更大，但不公開的JFT 300M資料集。

Bridging the Gap Between Object Detection and User Intent via Query-Modulation

Authors Marco Fornoni, Chaochao Yan, Liangchen Luo, Kimberly Wilber, Alex Stark, Yin Cui, Boqing Gong, Andrew Howard

通過通過錄影機或圖檔與對象互動時，使用者通常具有特定的意圖。例如，他們可能想要執行視覺搜尋。但是，大多數對象檢測模型忽略了使用者意圖，依賴于圖像像素作為唯一輸入。這通常會導緻不正确的結果，例如對感興趣的對象缺乏高置信度檢測，或用錯誤的類标簽檢測。在本文中，我們調查調制标準對象探測器的技術，以明确占使用者意圖的，表示為簡單查詢的嵌入。與标準對象探測器相比，查詢調制檢測器在檢測對象的對象的對象時顯示出優異的性能。由于從标準對象檢測注釋合成的大規模訓練資料，查詢調制檢測器也可以優于專門的參考表達式識别系統。此外，它們可以同時教育訓練以解決查詢調制檢測和标準對象檢測。

VSAC: Efficient and Accurate Estimator for H and F

Authors Maksym Ivashechkin, Daniel Barath, Jiri Matas

我們展示了VSAC，Ransac類型強大的估算器，具有許多新奇。它從引入獨立内層的概念中提出了顯着提高了主導平面處理的功效，并且還允許在沒有誤報的情況下允許靠近錯誤拒絕錯誤。本地優化過程及其應用程式得到改善，以便平均僅運作一次。進一步的技術改進包括通過高斯消除的自适應順序假設驗證和有效的模型估計。四個标準資料集的實驗表明，VSAC比其所有前輩更快，并在CPU上平均運作1 2毫秒。它是兩個數量級，但像Magsac一樣更精确，目前最精确的兩個視圖幾何估計。在EVD，HPatches，Phototourism和Kusvod2資料集的重複運作中，它永遠不會失敗。

A Coarse-to-Fine Instance Segmentation Network with Learning Boundary Representation

Authors Feng Luo, Bin Bin Gao, Jiangpeng Yan, Xiu Li

自顯着效率以來，基于邊界的執行個體分割已經引起了很多關注。然而，現有方法遭受長距離回歸的困難。在本文中，我們提出了一個粗略的子產品來解決問題。在粗略階段生成近似邊界點，然後對這些點的特征進行采樣并饋送到精細預測的精細回歸。它結束了最終可訓練，因為子產品中的差分采樣操作很好地支援。此外，我們設計了一個整體邊界意識分支，并介紹了輔助回歸的執行個體。我們的方法配備了Reset 101，我們的方法在Coco DataSet上實作了31.7個掩模AP，具有單級教育訓練和測試，優于基線1.3掩模AP，具有少于1個參數和GFLOPS。實驗還表明，與具有輕型設計和簡單管道的現有邊界方法相比，我們的提出方法實作了競争性能。

A Dynamic Spatial-temporal Attention Network for Early Anticipation of Traffic Accidents

Authors Muhammad Monjurul Karim, Yu Li, Ruwen Qin, Zhaozheng Yin

最近，自動車輛和配備先進的駕駛員輔助系統ADA的人正在出現。他們與人類驅動因素經營的正常人員分享道路。為確定乘客和其他道路使用者的保證安全，自動車輛和ADA是必不可少的，以預測自然駕駛場景的交通事故。交通代理的動态空間時間互相作用是複雜的，并且在Dashcam視訊資料中深入地嵌入了預測未來事故的視覺提示。是以，早期的交通事故仍然是一個挑戰。為此，本文提出了一種動态的空間臨時注意DSTA網絡，用于從Dashcam視訊中提前預期交通事故。所提出的DSTA網絡學習選擇具有名為動态時間關注DTA的子產品的視訊序列的判别時間片段。它還學會專注于帶有名為動态空間注意DSA的另一個子產品的幀的資訊空間區域。事故的空間時間關系特征以及場景外觀特征與門控複發單元GRU網絡共同學習。 DSTA網絡對兩個基準資料集的實驗評估确認它已超過最先進的性能。徹底的消融研究評估了DSTA網絡的各個組成部分的貢獻，揭示了網絡如何實作這種性能。此外，本文提出了一種新的政策，這些政策融合了兩個互補模型的預測分數，并驗證了其有效性進一步提高了早期事故預期的性能。

Toward Fault Detection in Industrial Welding Processes with Deep Learning and Data Augmentation

Authors Jibinraj Antony, Dr. Florian Schlather, Georgij Safronov, Markus Schmitz, Prof. Dr. Kristof Van Laerhoven

随着計算機願景領域的深度學習模型的興起，其在工業過程中申請的新可能性證明了回報了很大的利益。盡管如此，對高度标準化的工業流程的機器學習的實際适合仍在辯論中。本文考慮了雷射束焊接品質控制的用例，解決了AI工具對AI工具的工業實作的挑戰。我們使用來自Tensorflow對象檢測API的對象檢測算法，并使用轉移學習使它們适應我們的用例。我們開發的基線模型被用作基準并評估，并與經過資料集縮放和超參數調諧的模型進行比較。我們發現，通過圖像增強的資料集的适度縮放導緻聯盟iou和召回交叉口的改進，而高水準的增強和縮放可能導緻結果的惡化。最後，我們将結果置于底層用例的角度，并評估其契合。

All You Can Embed: Natural Language based Vehicle Retrieval with Spatio-Temporal Transformers

Authors Carmelo Scribano, Davide Sapienza, Giorgia Franchini, Micaela Verucchi, Marko Bertogna

将自然語言與視力相結合代表了人工智能領域的獨特而有趣的挑戰。基于自然語言的車輛檢索的AI城市挑戰賽道賽道專注于将視覺和文本資訊相結合的問題，适用于智能城市用例。在本文中，我們展示了所有可以嵌入Ayce，一個子產品化解決方案，以将單車跟蹤序列與自然語言相關聯。所提出的架構的主構造塊是我伯特提供了嵌入文本描述，II卷積骨幹以及變壓器模型來嵌入視覺資訊。對于檢索模型的訓練，提出了三重級邊緣損失的變化來學習視覺和語言嵌入之間的距離測量。該代碼公開可用

Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting

Authors Martine Toering, Ioannis Gatopoulos, Maarten Stol, Vincent Tao Hu

執行個體級對比度學習技術依賴于資料增強和對比損失功能，在視覺表現學習領域找到了巨大的成功。然而，它們不适合利用視訊的豐富動态結構，因為在許多增強執行個體上進行操作。在本文中，我們提出了一種視訊十字流原型對比，這是一種從RGB和光學流程視圖中預測一緻的原型配置設定，在樣本組上操作。具體地，我們替換優化過程，同時優化其中一個流，所有視圖都映射到一組流原型向量。除了比對預測之外的所有視圖之外，預測每個作業都預先預測，推動較近其配置設定的原型的表示。結果，學習了更有效的視訊嵌入具有加入運動資訊的視訊嵌入，而不明确需要推斷期間光流量計算。我們在最近的鄰居視訊檢索和動作識别上獲得最新的狀态，在使用R 2 1 D骨架上的UCF101和17.2上使用S3D主幹90.5上的UCF101，優先于UCF101上的最佳選擇。

Virtual Temporal Samples for Recurrent Neural Networks: applied to semantic segmentation in agriculture

Authors Alireza Ahmadi, Michael Halstead, Chris McCool

本文探讨了在農業機器人背景下執行時間語義細分的可能性，而沒有時間标記的資料。我們通過建議從标記的靜止圖像生成虛拟時間樣本來實作這一目标。這允許我們沒有額外的注釋工作，以産生幾乎标記的時間序列。通常，為了訓練經常性神經網絡RNN，需要來自視訊時間序列的标記樣本，這是費力的，并且在這個方向上具有效仿的工作。通過生成虛拟時間樣本，我們證明可以訓練輕量級RNN以對兩個具有挑戰性的農業資料集進行語義分割。我們的結果表明，通過使用虛拟樣品教育訓練時間語義分段器，我們可以分别通過甜椒和甜菜Datasets上的4.6和4.9的絕對量增加性能。這表明我們的虛拟資料增強技術能夠在不使用複雜的合成資料生成技術的情況下在時間上準确地對農業圖像進行準确地分類農業圖像，也不是标記大量時間序列的開銷。

Towards Distraction-Robust Active Visual Tracking

Authors Fangwei Zhong, Peng Sun, Wenhan Luo, Tingyun Yan, Yizhou Wang

在積極的視覺跟蹤中，當分散注意力出現的物體時，它是衆所周知的困難，因為分散的人通常通過遮擋目标或帶來令人困惑的外觀來誤導跟蹤器。為了解決這個問題，我們提出了一個混合的合作競争多代理遊戲，其中目标和多個幹擾者形成一個合作團隊，以便對追蹤者進行競争，并使它無法遵循。通過在我們的遊戲中學習，多樣化分散注意力的分散注意力自然出現，進而揭示了跟蹤器的弱點，這有助于提高跟蹤器的分散穩健性。為了有效的學習，我們提出了一堆實用方法，包括獎勵功能，為追蹤者，跨莫代爾教師學生學習政策以及跟蹤器的經常性注意機制。實驗結果表明，我們的跟蹤器執行所需的分散穩健的活動視覺跟蹤，并且可以廣泛地概括為未經看不見的環境。我們還表明，多代理遊戲可用于對抗追蹤器的穩健性。

hSMAL: Detailed Horse Shape and Pose Reconstruction for Motion Pattern Recognition

Authors Ci Li, Nima Ghorbani, Sofia Broom , Maheen Rashid, Michael J. Black, Elin Hernlund, Hedvig Kjellstr m, Silvia Zuffi

本文介紹了我們對馬動運動模型的行為分析初步工作。我們的方法是基于Smal模型，一種鉸接式統計模型的動物形狀。根據從37匹馬玩具中學到的新模闆，骨架和形狀空間，我們為馬匹定義了一種新穎的Smal模型。我們在重建從3D MoCap資料和圖像中重建馬的漢姆爾模型的準确性。我們将HSMAL模型應用于視訊的跛足檢測問題，在那裡我們将模型符合圖像以恢複3D姿勢并在姿勢資料上教育訓練ST GCN網絡。與在MoCAP點上教育訓練的相同網絡的比較說明了我們方法的好處。

Discerning Generic Event Boundaries in Long-Form Wild Videos

Authors Ayush K Rai, Tarun Krishna, Julia Dietlmeier, Kevin McGuinness, Alan F Smeaton, Noel E O Connor

探測通用，分類免費事件邊界Invideos代表了朝向全球視訊了解的重大進步。在本文中，我們介紹了一種基于次流3D卷積架構中的兩條流的技術實作邊界檢測技術，其可以學習來自視訊的時空時間特征。我們的工作受到了CVPR2021長形視訊了解Loveu工廠中的房間的基因事件邊界檢測挑戰部分.Througoutoutouthout我們提供的紙張進行了深入分析，對所獲得的結果進行解釋。

Combined Person Classification with Airborne Optical Sectioning

Authors Indrajit Kurmi, David C. Schedl, Oliver Bimber

已經證明了完全自主的無人機，在強閉鎖的森林樹冠下發現丢失或受傷的人。空中光學切片AOS，一種新穎的合成孔徑成像技術，以及基于深度學習的分類，可以在現實的搜尋和救援條件下進行高檢測率。我們證明可以通過組合來自多個AOS的分類而不是單一積分圖像來顯着抑制錯誤檢測，并且可以通過組合分類來顯着抑制錯誤的檢測。這提高了尤其是在閉塞的情況下進行分類率。為了使這一點成為可能，我們修改了AOS成像過程，以支援随後的積分之間的大重疊，進而實作實時和船上掃描和處理高達10 M秒的地面。

Residual Contrastive Learning for Joint Demosaicking and Denoising

Authors Nanqing Dong, Matteo Maggioni, Yongxin Yang, Eduardo P rez Pellitero, Ales Leonardis, Steven McDonagh

對比學習CL的突破推動了RGB圖像進階視覺任務中自我監督學習SSL的最近成功。然而，CL仍然為低級視覺任務而仍然被定義，例如在原始領域中的聯合脫索和去噪JDD。為了彌合這種方法論差距，我們提出了一種關于原始圖像的新型方法，殘留對比學習RCL旨在為JDD學習有意義的表示。我們的工作是假設每個原始圖像中包含的噪聲依賴于信号，是以來自相同原始圖像的兩種作物應具有比來自不同原始圖像的兩種作物更類似的噪聲分布。我們使用殘留物作為歧視特征和地球移動器的距離，以測量對比損失的分布配置設定。為了評估所提出的CL政策，我們模拟了一系列無監督的JDD實驗，具有由合成信号依賴噪聲損壞的大規模資料，我們為無監督JDD任務設定了具有未知随機噪聲方差的新基準。我們的實證研究不僅驗證了CL可以應用于分布式C.F.特征，但在噪聲的統計資料未知時，還暴露了先前非ML和SSL JDD方法的魯棒性，進而提供了一些進一步的洞察信号依賴性噪聲問題。

Contrastive Learning of Generalized Game Representations

Authors Chintan Trivedi, Antonios Liapis, Georgios N. Yannakakis

通過他們的像素代表遊戲提供了一種有希望的建設通用和多功能遊戲模型的方法。雖然遊戲不僅僅是圖像，但在遊戲像素上教育訓練的神經網絡模型通常捕獲圖像的視覺風格而不是遊戲内容的差異。結果，即使在相同類型的類似遊戲中，這種模型也不能呈現良好。在本文中，我們建立了最近的對比學習的進步，并展示了在遊戲中的代表學習的好處。學習對比遊戲的圖像不僅以更有效的方式對遊戲進行分類，它還産生了通過忽略視覺風格和聚焦的更有意義的方式分隔遊戲的模型，而不是在他們的内容上。我們的成果在175場比賽中包含100K圖像的體育視訊遊戲的大型資料集，10場比賽的流派表明，與傳統的監督學習相比，對比學習更适合學習廣義遊戲表示。本研究的結果為我們越來越接近通用視覺編碼器，可以在以前看不見的遊戲中重複使用，而無需再教育訓練或微調。

Light Pollution Reduction in Nighttime Photography

Authors Chang Liu, Xiaolin Wu

夜間攝影師往往受到不必要的人造燈的光線污染的困擾。在大氣中的氣溶膠散射後，人造燈可以通過減少對比度和動态範圍并引起危險來淹沒星光并降低夜間圖像的品質。在本文中，我們開發了一種實體基礎的光污染降低LPR算法，可以大大緩解感覺品質的上述降解，并恢複夜空原始狀态。所提出的LPR算法成功的關鍵是一種逆方法，估計地面人造燈的空間輻射分布和光譜特征。進行了廣泛的實驗以評估LPR算法的功效和局限性。

Training or Architecture? How to Incorporate Invariance in Neural Networks

Authors Kanchana Vaishnavi Gandikota, Jonas Geiping, Zorah L hner, Adam Czapli ski, Michael Moeller

許多應用需要魯棒性，或理想地是神經網絡的不變性，以對輸入資料的某些變換。最常見的是，通過使用對抗性教育訓練或定義自動包括所需的不變性的網絡架構來解決這一要求。不幸的是，後者往往依賴于争取所有可能的變換的能力，這使得這種方法在很大程度上不可行，對于無限的無限變換，例如任意旋轉或縮放。在這項工作中，我們提出了一種通過根據固定标準從可能連續的軌道中選擇一個元素來提供針對組動作的可忽略網絡架構的方法。簡而言之，我們打算在将資料送入實際網絡之前撤消任何可能的轉換。我們分析這些方法的性質，将它們擴充到等值網絡，并在魯棒性方面展示其優勢以及在幾個數值示例中的計算效率。特别地，我們研究了對圖像的旋轉的魯棒性，這可能僅适用于離散僞影以及3D點雲分類的可提供的旋轉和縮放不變性。

Learning and Meshing from Deep Implicit Surface Networks Using an Efficient Implementation of Analytic Marching

Authors Jiabao Lei, Kui Jia, Yi Ma

對象或場景表面的重建在計算機視覺，計算機圖形和機器人中具有巨大的應用。在本文中，我們研究了關于從零電平集的隐式場函數恢複表面網格的基本問題，其零電平集捕獲底層表面。為了實作目标，現有方法依賴于傳統的網格化算法，同時承諾，由于使用離散空間采樣在遊行多元資料集中使用離散空間采樣，它們遭受了精度喪失。考慮到具有校正的線性單元的激活的MLP将其輸入空間分區為多個線性區域，我們有動力将此本地線性與多邊形網格所需的所需結果所擁有的相同屬性連接配接。更具體地，我們識别由線性區域，由基于MLP的隐式功能，分析單元和與函數S零電平IsoSurface相關聯的分析單元和分析面進行劃分。我們證明，在溫和條件下，已識别的分析面保證連接配接和形成封閉的分段平面表面。基于定理，我們提出了一種分析行進算法，分析單元中的遊行，以精确地恢複由隐式曲面網絡捕獲的網格。我們還表明，我們的理論和算法同樣适用于具有快捷連接配接和最大池的進階MLP。鑒于分析行進的并行性質，我們為AnalyticMesh提供了一種軟體包，該軟體包通過CUDA并行計算支援隐式曲面網絡的高效網格，以及用于高效下遊處理的網格簡化。我們使用隐式地面網絡将我們的方法應用于不同的生成形狀模組化的設定。廣泛的實驗表明了我們在齧合精度和效率方面對現有方法的優勢。

EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge for Action Recognition 2021: Team M3EM Technical Report

Authors Lijin Yang, Yifei Huang, Yusuke Sugano, Yoichi Sato

在本報告中，我們描述了向2021史詩廚房送出的技術細節100令人無監督的域名适應行動認可挑戰。已經證明利用多種方式使無監督的域适應UDA任務受益。在這項工作中，我們呈現多模态互相增強子產品M3EM，深度子產品，用于共同考慮來自多個模型的資訊，以查找域中最可轉換的表示。我們通過實作兩個子子產品來實作這一點，用于使用其他方式的上下文增強每個模态。第一子子產品通過語義空間交換跨模式的資訊，而第二子子產品基于所有方式的共識找到最可轉換的空間區域。

Shape Prior Non-Uniform Sampling Guided Real-time Stereo 3D Object Detection

Authors A. Gao, J. Cao, Y. Pang

由于其高精度，基于Pseudo Lidar的3D對象探測器具有普及。然而，這些方法需要密集的深度監督并遭受較差的速度。為了解決這兩個問題，最近引入的RTS3D建構了一個有效的4D特征一緻性嵌入FCE空間，用于對象的中間表示而無需深度監控。 FCE Space将整個對象區域分成3D均勻網格潛空間，用于特征采樣點生成，忽略不同對象區域的重要性。然而，我們認為，與内部區域相比，外部區域對準确的3D檢測起着更重要的作用。為了從外部區域編碼更多資訊，我們提出了一種現有的非統一采樣政策，其在内部區域中執行緻密采樣和内部區域的稀疏采樣。結果，從外部區域采樣更多點，提取更多有用的特征以進行3D檢測。此外，為了增強每個采樣點的特征辨識，我們提出了一個進階語義增強FCE子產品，以利用更加上下文資訊并更好地抑制噪聲。執行關于基提資料集的實驗以顯示所提出的方法的有效性。與基線RTS3D相比，我們所提出的方法幾乎沒有額外的網絡參數對AP3D有2.57個改進。此外，我們所提出的方法優于現有技術的狀态而無需實時速度的額外監督。

Equivariance-bridged SO(2)-Invariant Representation Learning using Graph Convolutional Network

Authors Sungwon Hwang, Hyungtae Lim, Hyun Myung

教育訓練卷積神經網絡CNN以穩健抵抗旋轉主要是通過資料增強完成的。在本文中，強調了研究方向的另一個漸進視野，以鼓勵通過實作網絡的結構旋轉不變性來促進對資料增強的依賴。提出了深度的裝置橋接是以2個不變網絡，以回應這種視覺。首先，提出自權重最近鄰居圖卷積網絡SWN GCN，用于在圖像的圖表表示上實作圖形卷積網絡GCN，以擷取旋轉等級的表示，因為GCN更适合于建構比基于光譜圖卷積的深度網絡的網絡。然後，最終通過全局平均池間隙獲得不變的表示，适用于從SWN GCN檢索的等級頂點集中聚合高維表示的置換不變操作。我們的方法在旋轉的MNIST和CIFAR 10圖像上實作了藝術圖像分類性能的狀态，其中模型僅使用非增強資料集進行教育訓練。對表示的不變性的定量驗證還展示了SWN GCN過度旋轉的深度表示的強不變性。

Advanced Hough-based method for on-device document localization

Authors D.V. Tropin, A.M. Ershov, D.P. Nikolaev, V.V. Arlazarov

對裝置文檔識别系統的需求随着更嚴格的隐私和安全要求的出現而增加。在這樣的系統中，沒有從終端裝置到第三方資訊處理伺服器的資料傳輸。響應時間對裝置文檔識别的使用者體驗至關重要。結合離散GPU的不可用，強大的CPU或智能手機等消費者級終端裝置上的大型RAM容量，時間限制對裝置執行的應用算法的計算複雜性進行了顯着的限制。

Towards interpreting computer vision based on transformation invariant optimization

Authors Chen Li, Jinzhe Jiang, Xin Zhang, Tonghuan Zhang, Yaqian Zhao, Dongdong Jiang, RenGang Li

解釋深度神經網絡DNN如何使預測是人工智能中的一個重要領域，其妨礙了DNN的廣泛應用。讀者的可視化有助于我們了解DNN的願景。在本工作中，可以通過後傳播方法生成可以激活到目标類的神經網絡的可視化圖像。這裡，應用旋轉和縮放操作來引入圖像生成過程中的變換不變性，我們在可視化效果中找到了顯着改善。最後，我們展示了一些案例，這種方法可以幫助我們深入了解神經網絡。

HifiFace: 3D Shape and Semantic Prior Guided High Fidelity Face Swapping

Authors Yuhan Wang, Xu Chen, Junwei Zhu, Wenqing Chu, Ying Tai, Chengjie Wang, Jilin Li, Yongjian Wu, Feiyue Huang, Rongrong Ji

在這項工作中，我們提出了一種高保真性面部交換方法，稱為HIFIFACE，可以很好地保護源面的面部形狀并産生照片現實結果。與其他現有面部交換工作不同，隻使用面部識别模型來保持身份相似性，我們提出了3D形狀意識的身份，以控制面部形狀與3DMM和3D面重建方法的幾何監控。同時，我們介紹了語義面部融合子產品，以優化編碼器和解碼器特征的組合，并使自适應混合使得結果更具照片逼真。野外面孔的廣泛實驗表明，我們的方法可以保持更好的身份，特别是在面部形狀上，并且可以産生比以前的現有技術的最新狀态更好的照片現實結果。

Multi-Granularity Network with Modal Attention for Dense Affective Understanding

Authors Baoming Yan, Lin Wang, Ke Gao, Bo Gao, Xiao Liu, Chao Ban, Jiang Yang, Xiaobo Li

視訊建立和推薦期望通過視訊内容預測誘發表達的視訊情感了解。在最近的EEV挑戰中，提出了一種密集的情感了解任務，需要幀級情感預測。在本文中，我們提出了一種具有模态注意力MGN MA的多粒度網絡，其采用多粒度特征，以更好地描述目标幀。具體地，可以将多粒度特征分成幀級，剪輯級别和視訊級别特征，其對應于視力突出内容，語義上下文和視訊主題資訊。然後，模态注意融合子產品旨在熔斷多粒度特征，并強調更多的感情相關子產品。最後，融合特征被送入專家Moe分類器的混合物中以預測表達式。進一步采用模型集合後處理，所提出的方法在EEV挑戰中實作了0.02292的相關得分。

Novelty Detection via Contrastive Learning with Negative Data Augmentation

Authors Chengwei Chen, Yuan Xie, Shaohui Lin, Ruizhi Qiao, Jian Zhou, Xin Tan, Yi Zhang, Lizhuang Ma

新穎性檢測是确定查詢示例是否與學習教育訓練分布不同的過程。以前的方法試圖通過生成的對抗網絡GAN學習正常樣本的表示。然而，它們将遭受不穩定的教育訓練，模式下降和低鑒别能力。最近，各種借口任務如圖所示。已經提出了新穎性檢測中自我監督學習的旋轉預測和聚類。然而，學習的潛在特征仍然是低鑒别性。我們通過引入新的解碼器編碼器架構來克服這些問題。首先，通過将初始化的潛伏向量映射到圖像來學習表示，解碼器來學習表示，生成網絡A.k.a.。特别地，通過考慮訓練資料的整個分布來初始化該向量，以避免模式下降問題。其次，對比網絡A.K.A.編碼器旨在通過互資訊估計來學習比較，該估計直接幫助生成網絡通過使用負資料增強政策來獲得更辨識的表示。廣泛的實驗表明，我們的模型在切割邊緣新奇探測器上具有顯着的優越性，并在一些新穎的檢測基準上實作了新的最新狀态，例如新穎的檢測基準。 cifar10和dcast。此外，與其他基于普遍的新穎性檢測方法相比，我們的模型對訓練訓練更穩定。

A Framework for Real-time Traffic Trajectory Tracking, Speed Estimation, and Driver Behavior Calibration at Urban Intersections Using Virtual Traffic Lanes

Authors Awad Abdelhalim, Montasir Abbas, Bhavi Bharat Kotha, Alfred Wicks

在以前的一項研究中，我們介紹了一個用于實時車輛檢測，跟蹤和在城市交叉路口的三步架構的三步架構。在這項研究中，我們展示了一種案例研究，其摻入了通過VT Lane獲得的高度精确的軌迹和運動分類，以便在城市交叉路口速度估算和駕駛員行為校準的目的。首先，我們使用高度儀表的車輛來驗證從視訊推斷獲得的估計速度。速度驗證的結果表明，我們的方法可以實時估計檢測到的車輛的平均行進速度，其誤差為0.19米秒，這相當于研究中的平均觀察到的行駛速度的2。發現分辨率為30Hz分辨率的瞬時速度估計，平均誤差分别為0.21米秒和0.86米秒，用于自由流動和擁擠的交通狀況。然後，我們使用估計的速度來校準研究領域的車輛的駕駛員行為模型的參數。結果表明，校準模型以平均誤差為0.45米秒的駕駛行為，表明使用該架構的高潛力，用于自動化的汽車的大規模校準，從路邊交通視訊資料的模型，這可能導緻大量改進通過微觀模拟在交通模組化中。

Light Lies: Optical Adversarial Attack

Authors Kyu Lim Kim, Jeong Soo Kim, Seung Ri Song, Jun Ho Choi, Chul Min Joo, Jong Seok Lee

對普發的攻擊進行了大量工作，該攻擊攻擊将難以察覺的噪聲注入圖像以惡化深層模型的圖像分類性能。然而，大多數現有研究考慮了數字像素域中的攻擊，其中已經記錄了由圖像傳感器擷取的圖像傳感器和量化的圖像。本文首次介紹了一種光學對抗攻擊，其實體地改變到達圖像傳感器的光場資訊，使得分類模型産生錯誤分類。更具體地，我們使用放置在照相系統中的空間光調制器來調制傅裡葉域中的光的相位。通過基于梯度的優化獲得調制器的操作參數，以最大化交叉熵并最小化失真。我們對基于模拟和真實硬體光學系統的實驗，證明了所提出的光學攻擊的可行性。還證明，在擾動模式和分類結果方面，所提出的攻擊與球形像差，散遊，散焦和散光等常見的光學疇畸變完全不同。

Medical Matting: A New Perspective on Medical Segmentation with Uncertainty

Authors Lin Wang, Lie Ju, Donghao Zhang, Xin Wang, Wanji He, Yelin Huang, Zhiwen Yang, Xuan Yao, Xin Zhao, Xiufen Ye, Zongyuan Ge

在醫學圖像分割中，難以用二進制面膜準确地标記含糊不清的區域，特别是在處理小病變時。是以，通過在多個注釋的條件下使用二進制掩模來達成共識是冒險家達成共識的挑戰。然而，這些區域可能包含有利于診斷的解剖結構。引入了不确定性來研究這些情況。然而，不确定性通常通過多種試驗方式預測之間的差異來衡量。它不直覺，圖像中沒有确切的對應。靈感來自圖像消光，我們将消光作為軟分割方法和新的視角來處理，代表不确定的地區進入醫學場景，即醫療墊子。更具體地說，因為沒有可用的醫療消光資料集，我們首先用alpha遮罩标記了兩個醫療資料集。其次，應用于自然形象的消光方法不适合醫療場景，是以我們提出了一種新的架構，以連續生成二進制面罩和alpha遮罩。第三，引入不确定性地圖以突出二進制結果的含糊不清地區，提高消光性能。在這些資料集上評估，所提出的模型通過大邊緣的藝術消光算法的表現優于狀态，并且α遮罩被證明是比二進制掩模更有效的标記形式。

Quantized Neural Networks via {-1, +1} Encoding Decomposition and Acceleration

Authors Qigong Sun, Xiufang Li, Fanhua Shang, Hongying Liu, Kang Yang, Licheng Jiao, Zhouchen Lin

深度神經網絡DNN的教育訓練總是需要進行計算和資料存儲的密集資源。是以，DNN不能有效地應用于行動電話和嵌入式裝置，這嚴重限制了它們在工業應用中的适用性。為了解決這個問題，我們提出了一種新穎的編碼方案，使用1,1，将量化的神經網絡Qnns分解為多分支二進制網絡，這可以通過按位操作提供有效地實作，即Xnor和BitCount來實作模型壓縮，計算加速度和資源儲存。通過使用我們的方法，使用者可以根據其要求和硬體資源任意實作不同的編碼校驗。所提出的機制非常适合在資料存儲和計算方面使用FPGA和ASIC，這為智能晶片提供了可行的想法。我們驗證了我們對大規模圖像分類的方法的有效性，例如，想象，對象檢測和語義分割任務。特别是，我們具有低比特編碼的方法仍然可以實作幾乎與其高比特對應物相同的性能。

Smoothed Multi-View Subspace Clustering

Authors Peng Chen, Liang Liu, Zhengrui Ma, Zhao Kang

近年來，多視圖子空間聚類因跨多種視圖的互補配置而導緻的性能令人印象深刻。但是，多視圖資料可能非常複雜，并且不容易在現實世界應用中群集。大多數現有方法在原始資料上運作，可能無法獲得最佳解決方案。在這項工作中，我們提出了一種新的多視圖聚類方法，通過采用新穎的技術，即圖表濾波來提出名為平滑的多視圖子空間聚類SMVSC的多視圖聚類方法，以獲得每個視圖的平滑表示，其中類似的資料點具有類似的特征值。具體地，它通過應用低通濾波器保留圖形幾何特征。是以，它産生了聚類友好表示，并極大地促進了下遊聚類任務。基準資料集的廣泛實驗驗證了我們方法的優勢。分析表明，圖形過濾增加了類的可分離性。

Towards Clustering-friendly Representations: Subspace Clustering via Graph Filtering

Authors Zhengrui Ma, Zhao Kang, Guangchun Luo, Ling Tian

在許多應用程式中顯示了特定任務的合适資料表示是至關重要的。子空間群集的成功取決于假設資料可以分為不同的子空間。但是，由于原始資料可能不可分為子空間，是以，這種簡單的假設并不總是保持。為了恢複聚類友好表示并促進随後的聚類，我們提出了一種圖形過濾方法，可以實作平滑的表示。具體地，它通過應用低通濾波器來提取用于聚類的有用資料表示來注入圖形相似度。關于圖像和文檔聚類資料集的廣泛實驗表明我們的方法改善了藝術子空間叢集技術的狀态。特别是，其具有深度學習方法的可比性表現強調了簡單的圖形過濾方案對許多現實世界應用的有效性。一個消融研究表明，圖形過濾可以去除噪聲，保持圖像中的結構，并提高類的可分離性。

Analyzing Adversarial Robustness of Deep Neural Networks in Pixel Space: a Semantic Perspective

Authors Lina Wang, Xingshu Chen, Yulong Wang, Yawei Yue, Yi Zhu, Xuemei Zeng, Wei Wang

深神經網絡對對抗的脆弱性的脆弱性，通過修改具有令人無法察覺的擾動到誤導網絡産生不正确的産出來制作的惡意制作的對抗性示例産生了不正确的産出，揭示了缺乏魯棒性并帶來安全問題。以前的作品研究了圖像水準上的圖像分類器的對抗魯棒性，并且不分青紅皂白地使用圖像中的所有像素資訊，缺乏圖像的像素空間中具有不同語義含義的區域的探索。在這項工作中，我們通過提出在分段圖像的不同區域中通過像素尋找可能的擾動像素來填充該間隙并探索對抗圖像的像素空間。 CIFAR 10和ImageNet上的廣泛實驗結果驗證了僅在圖像的某些像素中搜尋修改的像素，可以成功地啟動一個像素的對手攻擊而不需要整個圖像的所有像素，并且存在多個散落在不同的易受攻擊點圖像的區域。我們還表明，圖像上不同區域的對抗魯棒性因其包含的語義資訊的數量而變化。

Medical Image Analysis on Left Atrial LGE MRI for Atrial Fibrillation Studies: A Review

Authors Lei Li, Veronika A. Zimmer, Julia A. Schnabel, Xiahai Zhuang

晚钆增強磁共振成像LGE MRI通常用于可視化和量化左心房LA疤痕。疤痕的位置和程度提供了心理生理學和心房顫動AF的病理生理學和進展的重要資訊。是以，LGE MRI的LA ScAR分割和量化可用于AF患者的計算機輔助診斷和治療分層。由于手動描繪可能是耗時的并且受到内部和專家的可變性，是以非常需要自動化這種計算，這然事件仍在挑戰和研究。

RSG: A Simple but Effective Module for Learning Imbalanced Datasets

Authors Jianfeng Wang, Thomas Lukasiewicz, Xiaolin Hu, Jianfei Cai, Zhenghua Xu

在實踐中廣泛存在的不平衡資料集在訓練深度神經模型中造成巨大級别的普遍挑戰的巨大挑戰。在這項工作中，将一個新的稀有類樣本發生器RSG進行了一個唯一的問題。 RSG旨在在教育訓練期間生成一些新的樣品稀有階級，特别是以下優勢1，使用和高通用的友善，因為它可以很容易地內建到卷積神經網絡中，并且它與不同的丢失功能有效并且，在訓練階段期間使用了2，是以，在測試階段的深度神經網絡上沒有施加廣告的附加負擔。在廣泛的實驗評估中，憑借RSG的有效性。此外，通過Leveragingsrsg，我們獲得了競争結果，即在LT，ImageNet LT和Inattations 2018上的Provest Lt，ImageNet LT和Inattations的新技術上獲得了競争結果。源代碼可用

Effective Model Sparsification by Scheduled Grow-and-Prune Methods

Authors Xiaolong Ma, Minghai Qin, Fei Sun, Zejiang Hou, Kun Yuan, Yi Xu, Yanzhi Wang, Yen Kuang Chen, Rong Jin, Yuan Xie

深神經網絡DNNS在解決許多現實世界問題方面都是有效的。較大的DNN模型通常表現出更好的品質，例如，準确性，但它們過度的計算導緻長期訓練和推理時間。模型稀疏可以減少計算和記憶體成本，同時保持模型品質。大多數現有的稀疏算法單向移除權重，而其他人則随機或貪婪地探索每層中的小的權重子集。算法的低效率降低了可實作的稀疏性水準。此外，許多算法仍然需要預訓練的密集模型，是以遭受大的記憶體占地面積和長訓練時間。在本文中，我們提出了一種新穎的計劃生長和修剪差距方法，而無需預先教育訓練密集模型。它通過反複将層的子集重複地緻密，然後在一些訓練後重新修剪稀疏來解決以前的作品的缺點。實驗表明，這種模型可以在80個稀疏在各種任務上比對或擊敗高度優化的密集模型的品質，例如圖像分類，客觀檢測，3D對象分割和翻譯。它們還優于其他藝術SOTA修剪方法的其他狀态，包括從預訓練的密集模型中修剪。作為示例，通過間隙獲得的90稀疏RESET 50在想象中實作77.9前1個精度，提高了SOTA的結果1.5。

Dual-Teacher Class-Incremental Learning With Data-Free Generative Replay

Authors Yoojin Choi, Mostafa El Khamy, Jungwon Lee

本文提出了兩種新穎的知識轉移技巧，用于課堂增量學習CIL。首先，我們通過使用來自生成模型的合成樣本來提出資料免費生成重放DF GR來減輕CIL中的災難性遺忘。在傳統的生成重放中，生成模型是預先訓練的舊資料，并在額外的存儲器中共享以供以後的增量學習。在我們提出的DF GR中，我們根據過去訓練有素的分類模型，我們從劃痕中教育訓練一台生成模型，而無需使用任何教育訓練資料，是以我們縮短共享預教育訓練的生成模型的成本。其次，我們向兩位教師介紹雙人教師資訊蒸餾DT ID，從兩位教師到一名學生。在CIL中，我們使用DT ID基于舊類的預訓練模型和預先接受新類的新資料教育訓練的另一模型來逐漸學習新類。我們在最先進的CIL方法之一上實施了提出的方案，并顯示了CIFAR 100和Imagenet資料集的性能改進。

Deep reinforcement learning with automated label extraction from clinical reports accurately classifies 3D MRI brain volumes

Authors Joseph Stember, Hrithwik Shalu

目的圖像分類可能是成像AI中最基本的任務。但是，标記圖像是耗時和繁瑣的。我們最近展示了強化學習RL可以以高精度分類2D片MRI腦圖像。在這裡，我們首先使圖像分類進行超速圖像分類的兩個重要步驟，我們自動從臨床報告中提取類标簽。其次，我們将先前的2D分類工作擴充到我們機構的完全3D圖像卷。是以，我們在第1部分進行如下進行操作，我們使用SBERT自然語言處理方法自動提取來自報告的标簽。然後，在第2部分中，我們使用這些标簽與RL教育訓練一個用于3D圖像卷的分類Deep Q網絡DQN。

Guided Integrated Gradients: An Adaptive Path Method for Removing Noise

Authors Andrei Kapishnikov, Subhashini Venugopalan, Besim Avci, Ben Wedin, Michael Terry, Tolga Bolukbasi

內建梯度IG是深度神經網絡的常用特征歸因方法。雖然IG具有許多所需的屬性，但是該方法通常在應用于視覺模型時在與預測類相關的區域中産生虛假的噪聲像素歸屬。雖然此前已注意到，但大多數現有解決方案旨在通過明确降低所産生的歸屬中的噪聲來解決症狀。在這項工作中，我們表明問題的原因之一是沿IG路徑的噪聲累積。為了最大限度地減少噪聲源的效果，我們建議調整歸屬路徑本身将路徑調節不僅在圖像上，還要對所解釋的模型進行調節。我們将Adaptive Path方法推出APM，作為路徑方法的泛化，引導IG作為APM的特定執行個體。經驗上，引導IG産生與模型S預測和正在解釋的輸入圖像更好地對齊的顯着圖。我們通過定性和定量實驗表明，在幾乎每個實驗中引導IG優于其他相關方法。

Efficient Self-supervised Vision Transformers for Representation Learning

Authors Chunyuan Li, Jianwei Yang, Pengchuan Zhang, Mei Gao, Bin Xiao, Xiyang Dai, Lu Yuan, Jianfeng Gao

本文研究了兩個技術為顯影自我監督視覺變壓器ESVIT進行視覺表現學習。首先，我們通過全面的實證研究表明，具有稀疏自我關注的多階段架構可以顯着降低模組化複雜性，但具有損失圖像區域之間捕獲細粒度對應的能力的成本。其次，我們提出了一種新的預訓練任務，該區域比對允許模型捕獲細粒度的區域依賴性，結果顯着提高了學習的視覺表現的品質。我們的研究結果表明，組合兩種技術，ESVIT在想象齒線性探測評估上實作了81.3前面的1，優于現有技術，圍繞吞吐量的順序幅度。在轉移到下遊線性分類任務時，ESVIT在18個資料集中的17個中超過其監管對應物。代碼和模型将公開可用。

Discovering Relationships between Object Categories via Universal Canonical Maps

Authors Natalia Neverova, Artsiom Sanakoyeu, Patrick Labatut, David Novotny, Andrea Vedaldi

我們共同地解決了學習多種類别可變形對象的幾何形狀的問題。最近的工作表明，可以學習若幹類别的相關對象的統一密度姿态預測器。但是，教育訓練此類模型需要手動初始化分類間對應關系。這是次優，所得模型未能将正确的對應保持正确，因為學習單個類别。在本文中，我們表明，可以自動學習改進的對應關系作為學習類别特定密度姿态預測器的自然副産品。為此，我們使用統一嵌入的不同類别和圖像和類别之間表達對應關系。然後，我們使用後者來強制執行兩個限制對稱間域周期一緻性和新的非對稱圖像到類别周期一緻性。如果沒有任何手動注釋的幀間分類對應關系，我們獲得了最先進的對準結果，優于比對3D形狀的專用方法。此外，新型模型也比前後工作的密集姿态預測的任務更好。

DeepLab2: A TensorFlow Library for Deep Labeling

Authors Mark Weber, Huiyu Wang, Siyuan Qiao, Jun Xie, Maxwell D. Collins, Yukun Zhu, Liangzhe Yuan, Dahun Kim, Qihang Yu, Daniel Cremers, Laura Leal Taixe, Alan L. Yuille, Florian Schroff, Hartwig Adam, Liang Chieh Chen

Deebplab2是用于深層标記的Tensorflow庫，旨在提供一種技術，易于使用Tensorflow CodeBase進行計算機視覺中的一般密集像素預測問題。 Deeplab2包括我們最近開發的Deeplab模型變體，其中包含普拉的檢查站以及模型教育訓練和評估代碼，使社群能夠重制并進一步改進藝術系統的狀态。為了展示DEEPLAB2的有效性，我們的Panoptic Deeblab采用軸向腳踏闆作為網絡骨架，在CityScaspes驗證集中實作了68.0 PQ或83.5 Miou，隻有單級推斷和Imagenet 1K淨化檢查點。我們希望公開分享我們的圖書館可以促進未來對密集像素标簽任務的研究，并設想這項技術的新應用。代碼在URL上公開提供

CT Image Synthesis Using Weakly Supervised Segmentation and Geometric Inter-Label Relations For COVID Image Analysis

Authors Dwarikanath Mahapatra, Ankur Singh

雖然醫學圖像分割是計算機輔助診斷的重要任務，但PixelWise手動注釋的高專業知識要求使其成為一個具有挑戰性和耗時的任務。由于傳統的資料增強沒有完全代表訓練集的底層分布，是以在從不同源捕獲的圖像上測試時，訓練型的模型具有不同的性能。大多數關于資料增強的圖像合成的最新工作忽略了不同解剖标簽之間的交錯幾何關系。通過學習不同解剖标簽之間的關系，我們提出了對基于GaN的醫學圖像合成方法的改進。我們使用弱監管的分割方法來擷取使用的圖像的像素級語義标簽映射，這些标簽映射用于學習語義标簽的幾何形狀和形狀的内在關系。潛在空間可變采樣從基礎圖像中産生不同生成的圖像并提高穩健性。我們使用我們的方法從我們的方法中教育訓練從肺CT圖像分割Covid 19感染區域的網絡。所提出的方法優于公共資料集的藝術分段方法的狀态。消融研究還展示了整合幾何和多樣性的益處。

Residual Error: a New Performance Measure for Adversarial Robustness

Authors Hossein Aboutalebi, Mohammad Javad Shafiee, Michelle Karg, Christian Scharfenberger, Alexander Wong

盡管過去十年的深度學習的重大進展，但極為廣泛的深入學習的主要挑戰是他們對對抗攻擊的脆弱性。在普遍擾動資料存在下使錯誤預測的這種敏感性使得深度神經網絡難以為某些現實世界采用任務關鍵應用。雖然大部分研究重點圍繞着侵犯示例創造和對抗的硬化，但評估對抗魯棒性的性能措施領域并不熟悉。本研究提出了這種研究，呈現了殘餘誤差的概念，這是一種新的性能措施，不僅可以評估各種樣品水準的深神經網絡的對抗魯棒性，而且可以用于區分對抗性和非對手的例子以友善對于對抗的例子檢測。此外，我們介紹了一種混合模型，用于以易于易行的方式近似殘差誤差。使用圖像分類的實驗結果證明了所提出的剩餘誤差度量來評估幾個衆所周知的深神經網絡架構的有效性和功效。是以，這些結果說明了所提出的措施可以是一種有用的工具，不僅可以評估任務批判情景中使用的深度神經網絡的魯棒性，而且還在對流技術強大的模型的設計中。

Non-Iterative Phase Retrieval With Cascaded Neural Networks

Authors Tobias Uelwer, Tobias Hoffmann, Stefan Harmeling

傅立葉相檢索是僅給出其傅裡葉變換的大小的信号的問題。基于優化的方法，如建立的Gerchberg Saxton或混合輸入輸出算法，在重建來自不是超自采樣的幅度的重建圖像時鬥争。這激勵了學習方法的應用，該方法允許在學習階段之後從非過采樣幅度測量重建。在本文中，我們希望通過深度神經網絡級聯推動這些學習方法的極限，該級聯從其非過采樣的傅裡葉幅度上連續地重建圖像的不同分辨率。我們在四個不同的資料集Mnist，Emnist，Fashion Mnist和KMnist上評估我們的方法，并證明它能夠提高對其他非疊代方法和基于優化的方法的性能。

Steerable Partial Differential Operators for Equivariant Neural Networks

Authors Erik Jenner, Maurice Weiler

最近在等世地區的深度學習工作與實體學相同。基礎空間上的字段是兩個受試者中的基本實體，是以這些字段之間的成本映射。然而，在深度學習中，這些地圖通常由帶核心的卷曲定義，而它們是實體學中的部分差分運算符PDO。在深入學習的背景下，在深入學習的背景下發展方面的PDO理論可能會使這些科目更加緊密，并導緻更強烈的思想流動。在這項工作中，我們推出了G值的G值限制，其特征在于特征傳染媒介字段之間的PDO時，用于任意對稱組G.然後我們充分解決了幾個重要組的這一限制。我們将我們的解決方案用作卷積層的替代品的等價下降，并在該角色中基準。最後，我們基于Schwartz分布式為施瓦茨分布的架構開發了一個架構，統一了經典卷積和差分運算符，并介紹了兩者之間的關系。

World-GAN: a Generative Model for Minecraft Worlds

Authors Maren Awiszus, Frederik Schubert, Bodo Rosenhahn

這項工作介紹了世界GaN，從一個例子中通過機器學習執行資料驅動程式内容生成的第一種方法。基于3D生成對沖網絡GAN架構，我們能夠從給定的樣本建立任意大小的世界代碼段。我們評估了我們對社群的創作以及與Minecraft世界發生器産生的結構的方法。我們的方法是由使用Word2VEC 1引入的自然語言處理NLP中使用的密集表示的動機。拟議的Block2Vec表示使世界GAN獨立于不同塊的數量，這可以在MINECRAFT中變化很多，并且能夠産生更大的級别。最後，我們示範了改變這個新的表示空間允許我們更改已訓練的發生器的生成樣式。 World GaN使其使用者能夠根據他們的作品的部分生成Minecraft Worlds。

Debiased Subjective Assessment of Real-World Image Enhancement

Authors Cao Peibei. Wang Zhangyang, Ma Kede

在現實世界形象增強中，如果不可能擷取地面真理資料，則經常具有挑戰性，防止采用客觀品質評估的距離名額。是以，人們常常訴諸主觀品質評估，最簡單，最可靠的評估圖像增強方法。傳統的主觀測試需要手動預先選擇一小一組視覺示例，這可能由于所選擇的樣本2所選擇的樣本2算法偏差所選擇的樣本的極其稀疏的分布而受到三個偏置偏差偏差。由于進一步潛在的櫻桃采摘測試結果，主觀偏見。這最終使現實世界圖像的領域更加藝術而不是科學。在這裡，我們通過自動采樣一組自适應和不同的圖像來采取措施進行脫遍傳統主觀評估以進行後續測試。這是通過将樣品選擇鑄造成增強劑與所選輸入圖像之間的分集之間的關節最大化來實作的。對此産生的增強圖像的仔細視覺檢查提供了增強算法的脫疊排名。我們展示了我們使用三種流行的和實際要求的圖像增強任務脫落，超分辨率和低光增強的主觀評估方法。

Improved Radar Localization on Lidar Maps Using Shared Embedding

Authors Huan Yin, Yue Wang, Rong Xiong

我們提出了一種解決雷達全球本地化的異構定位架構，并在預建構的雷射雷達地圖上進行跟蹤。為了彌合傳感方式的差距，建構深度神經網絡以為雷達掃描和雷射雷達地圖建立共享嵌入空間。這裡學習的特征嵌入對于相似性測量支援，進而分别改善MAP檢索和資料比對。在Robotcar和Mulran資料集中，我們展示了建議架構的有效性與掃描上下文和rall的比較。此外，與原始競争相比，所提出的姿勢跟蹤管道具有較少的神經網絡。

Accumulative Poisoning Attacks on Real-time Data

Authors Tianyu Pang, Xiao Yang, Yinpeng Dong, Hang Su, Jun Zhu

從不受信任的來源收集教育訓練資料将機器學習服務暴露給中毒對手，惡意操縱教育訓練資料以降低模型精度。當在離線資料集接受教育訓練時，中毒對手必須在訓練前提前注入中毒資料，并且将這些中毒批次喂養到模型中的順序是随機的。相比之下，實用的系統更常見于依次捕獲的實時資料進行精細調整，在這種情況下，其中中毒對手可以根據目前模型狀态動态毒藥每個資料批次。在本文中，我們專注于實時設定，并提出了一種新的攻擊政策，該攻擊政策與中毒攻擊秘密地分擔了累計階段，即，不影響精度放大毒性觸發批次的破壞性效果。通過模拟線上學習和聯合學習CIFAR 10，我們表明模型精度将在累積階段後觸發批次上的單個更新步驟顯着下降。我們的工作驗證了一個精心設計但簡單的攻擊政策可以大大放大中毒效果，無需探索複雜的技術。

Indicators of Attack Failure: Debugging and Improving Optimization of Adversarial Examples

Authors Maura Pintor, Luca Demetrio, Angelo Sotgiu, Giovanni Manca, Ambra Demontis, Nicholas Carlini, Battista Biggio, Fabio Roli

評估機器學習模型的魯棒性對抗對抗例子是一個具有挑戰性的問題。已經證明許多防禦通過導緻基于梯度的攻擊失敗來提供虛假的安全感，并且在更嚴格的評估下被打破了。雖然已經提出了準則和最佳實踐來改善目前的對抗魯棒性評估，但缺乏自動測試和調試工具使得難以以系統的方式應用這些建議。在這項工作中，我們通過定義一組定量名額來克服這些限制，該限制揭示了在優化基于梯度的攻擊中的常見失敗，以及在系統評估協定中提出特定緩解政策。我們廣泛的實驗分析表明，該拟議的失效名額可用于可視化，調試和改善目前的對抗魯棒性評估，為自動化和系統化目前的對抗魯棒性評估提供第一步。我們的開源代碼可用

Evolving GANs: When Contradictions Turn into Compliance

Authors Sauptik Dhar, Javad Heydari, Samarth Tripathi, Unmesh Kurup, Mohak Shah

标簽資料的有限可用性使任何受監督的學習問題具有挑戰性。替代學習設定，如半監督和Universum學習減輕了對标記資料的依賴性，但仍需要大量的未标記資料，這可能無法獲得或昂貴。基于GaN的合成資料生成方法通過生成合成樣本來提高手頭的任務來顯示承諾。然而，這些樣品不能用于其他目的。在本文中，我們提出了一個GaN遊戲，在有限的資料設定下提供了改進的鑒别器精度，同時産生了現實的合成資料。這提供了添加的優勢，即現在生成的資料可以用于其他類似的任務。我們提供理論擔保和實證結果支援我們的方法。

A Unified Generative Adversarial Network Training via Self-Labeling and Self-Attention

Authors Tomoki Watanabe, Paolo Favaro

我們提出了一種新的GaN教育訓練計劃，可以以統一的方式處理任何級别的标簽。我們的計劃介紹了一種人為标記形式，可以在可用時納入手動定義的标簽，并在它們之間引起對齊。為了定義人為标簽，我們利用了假設，即神經網絡生成器可以更容易地教育訓練，以便将附近的潛在矢量映射到具有語義相似性的資料，而不是單獨的類别。我們使用生成的資料樣本及其相應的人工調節标簽來教育訓練分類器。然後将分類器用于自我标記真實資料。為了提高自我标簽的準确性，我們還使用分類器的指數移動平均值。但是，由于分類器仍然會造成錯誤，特别是在訓練的開始時，我們還通過自我注意，通過使用實際資料樣本的标簽來改進标簽，僅當分類器輸出高分類機率得分時。我們評估我們在CIFAR 10，STL 10和SVHN上的方法，并表明自我标簽和自我注意力始終如一地提高所産生資料的品質。更令人驚訝的是，我們發現所提出的計劃甚至可以傾向于課程的條件GAN。

Development of a conversing and body temperature scanning autonomously navigating robot to help screen for COVID-19

Authors Ryan Kim

在整個Covid 19大流行中，患者展示的最常見的症狀發燒，導緻使用溫度掃描作為先發制人的措施來檢測病毒的潛在載體。具有手持式溫度計的人類員工已被用來履行這項任務，但這會使它們面臨風險，因為它們不能實體偏移，這種方法的順序性導緻巨大的不便和效率低。該解決方案是一種自動導航的機器人，能夠對話和掃描人們的溫度來檢測Covid 19的Fredes和幫助螢幕。為了滿足這個目标，機器人必須能夠自主，2檢測和跟蹤人員，3擷取如果超過38℃，則個人溫度讀取和與它們相反。使用面部跟蹤算法和由熱攝像頭，智能手機和聊天裝置組成的端部執行器，使用自動導航移動機器人。目标是開發一個執行上述任務的功能解決方案。此外，将提出遇到的技術挑戰及其工程解決方案，并将為在接近商業化時納入的增強建議。

GEM: A General Evaluation Benchmark for Multimodal Tasks

Authors Lin Su, Nan Duan, Edward Cui, Lei Ji, Chenfei Wu, Huaishao Luo, Yongfei Liu, Ming Zhong, Taroon Bharti, Arun Sacheti

在本文中，我們将GEM作為多式化任務的一般評估基準。不同于現有的資料集，如膠水，超級格，XGLue和Xtreme，主要關注自然語言任務，寶石是一個大規模的視覺語言基準，由Gem I組成的圖像語言任務和Gem V用于視訊語言任務。與現有的多模式資料集（如Mscoco和Flicker30K為圖像語言任務，YouScook2和MSR VTT），用于視訊語言任務，GEM不僅是涵蓋圖像語言任務和視訊語言任務的最大的視覺語言資料集，而且還标記為多種語言。我們還為此基準提供了兩個基線模型。我們将釋出資料集，代碼和基線模型，旨在推進多語言多式化研究的發展。

AI-Enabled Ultra-Low-Dose CT Reconstruction

Authors Weiwen Wu, Chuang Niu, Shadi Ebrahimian, Hengyong Yu, Mannu Kalra, Ge Wang

由Alara與合理可取的原則一樣低，超低劑量CT重建是一個聖杯，以最大限度地減少癌症風險和遺傳損害，特别是兒童。随着醫療CT技術的發展，疊代算法廣泛用于從低劑量掃描重建體面的CT圖像。最近，人工智能AI技術在進一步減少CT輻射劑量到下一個水準方面表現出了很大的希望。在本文中，我們證明AI供電CT重建提供與射線照相相當的超低劑量水準的診斷圖像品質。具體地，在這裡，我們開發了一個分裂的展開網格，如替代重建糖網絡，其中深入學習，實體模組化和圖像是先前的。來自臨床資料集的重建結果表明，可以使用來自36個投影的糖來重建優異的圖像。這種方法有可能改變未來的醫療保健。

Hybrid graph convolutional neural networks for landmark-based anatomical segmentation

Authors Nicol s Gaggion, Lucas Mansilla, Diego Milone, Enzo Ferrante

在這項工作中，我們解決了解剖結構的基于地标的分割問題。我們提出Hybrodgnet，該編碼器解碼器神經結構，其結合了用于圖像特征編碼的标準卷積，具有圖形卷積神經網絡，用于解碼解剖結構的合理表示。考慮到胸部X射線圖像中的其他标準地标和基于像素基于解剖分割的标準地标和基于像素的模型來基準測試，發現Hybridgnet對圖像遮擋更加強大。我們還表明它可用于從像素級注釋建構基于地标基的分段。我們的實驗結果表明，Hybridgnet通過通過光譜卷積自然地結合在解碼過程中的形狀限制中産生準确和解剖學的地标的分割。

A Distance-based Separability Measure for Internal Cluster Validation

Authors Shuyue Guan, Murray Loew

為了評估聚類結果是叢集分析的重要組成部分。由于在典型的無監督學習中沒有針對群集的真實類标簽，是以已經建立了許多使用預測标簽和資料的内部群集有效性指數CVI。沒有真正的标簽，要設計有效的CVI難以建立聚類方法。并且具有更多的CVI至關重要，因為沒有通用的CVI，可用于測量所有資料集，并且沒有針對沒有真标選擇的群集選擇适當的CVI的具體方法。是以，要應用各種CVI來評估聚類結果是必要的。在本文中，我們提出了一種基于資料可分離性測量的新型内部CVI基于距離的可分離名額DSI。我們将DSI與八個内部CVI的DSI進行了比較，包括從早期DUNN 1974到最近的CVDD 2019和一個外部CVI作為地面真理，通過在12個真實和97個合成資料集上使用五個聚類算法的聚類結果。結果顯示DSI是一種有效，獨特，競争力的CVI，用于其他比較的CVI。我們還總結了一般過程來評估CVI，并建立了CVIS結果比較的秩差度量。

Synthetic COVID-19 Chest X-ray Dataset for Computer-Aided Diagnosis

Authors Hasib Zunair, A. Ben Hamza

我們介紹了一個名為Synthetic Covid 19胸X射線資料集的新資料集，用于訓練機器學習模型。 DataSet由21,295種合成Covid 19胸X射線圖像組成，用于計算機輔助診斷。通過無監督域适應方法産生的這些圖像具有高品質。我們發現合成型圖像不僅在大幅不平衡條件下用作額外的教育訓練資料時，不僅可以提高各種深度學習架構的性能，而且很快地檢測目标課程。我們還發現，當僅在合成圖像上教育訓練時也可以實作可比性的性能。此外，合成Covid 19圖像的凸起特征表明分布與非Covid 19類顯着不同，進而實作了正确的決策邊界。我們希望Covid 19的這種高保真胸部X射線圖像的可用性19将鼓勵診斷和或管理工具的開發進展。

PyKale: Knowledge-Aware Machine Learning from Multiple Sources in Python

Authors Haiping Lu, Xianyuan Liu, Robert Turner, Peizhen Bai, Raivo E Koot, Shuo Zhou, Mustafa Chasmai, Lawrence Schobs

機器學習是一項通用技術，持有許多跨學科研究問題的承諾。然而，當大多數機器學習工具分别在不同區域開發的大多數機器學習工具時，在交叉學科界限中存在重大障礙。我們為Pykale提供了一個Python庫，用于了解圖形，圖像，文本和視訊的知識意識機器，以啟用和加速跨學科研究。我們根據标準軟體工程實踐制定新的綠色機器學習指南，并提出了一種基于流水線的應用程式程式設計接口API。 Pykale側重于利用多種來源的知識，以實作準确和可解釋的預測，進而支援多式化學習和轉移學習，特别是具有最新的深度學習和次元減少模型的領域适應。我們在Pytorch上建構Pykale并利用豐富的Pytorch生态系統。我們的管道基礎設計通過減少重複和備援，重用現有資源以及跨區域的回收學習模型來實作标準化和極簡主義，采用标準化和極簡主義，擁有綠色機器學習概念。我們通過生物資訊學，知識圖形，圖像視訊識别和醫學成像中的示例展示其跨學科性質。

AtrialGeneral: Domain Generalization for Left Atrial Segmentation of Multi-Center LGE MRIs

Authors Lei Li, Veronika A. Zimmer, Julia A. Schnabel, Xiahai Zhuang

晚期钆增強磁共振成像LGE MRI的左心房LA分段是規劃心房顫動治療所需的關鍵步驟。然而，由于圖像品質差，La形狀的高度差，La形狀和洛基邊界不明顯，來自LGE MRI的自動LA分割仍然具有挑戰性。雖然基于深度學習的方法可以提供有前途的LA分段結果，但它們通常概括到看不見的域名，例如來自不同掃描器和或站點的資料。在這項工作中，我們從不同的中心收集210 LGE MRI，具有不同的圖像品質。為了評估LA分段任務上模型的域泛化能力，我們為來自多中心LGE MRI的LA分段采用了四個常用的語義分段網絡。此外，我們研究了三個域泛化政策，即直方圖比對，基于互信的表示，以及随機樣式傳輸，其中證明了一個簡單的直方圖比對是最有效的。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩請移步首頁

pic from pexels.com

【AI視野·今日CV 計算機視覺論文速覽第223期】Mon, 21 Jun 2021

Daily Computer Vision Papers

繼續閱讀

yolov7 tensorrt模型加速部署【實戰】

Android-opencv之CVCamera

基于ORB特征點比對的對極幾何限制實作（源碼+講解）

使用hector構圖_如何使用均衡的構圖拍攝更清晰的照片

GMS：基于網格運動統計的快速極度魯棒的特征比對摘要1 簡介2 本文的方法3 應用于快速記分的網格架構4 實驗 5 結論

如何使用前景和背景建立更清晰的照片

在Ubuntu16.04上提取相鄰序列圖像之間的ORB的特征點，并用暴力方法找到比對點并連線一、什麼是ORB特征二、什麼是暴力比對三、實作代碼四、運作方法

Matlab中将二維灰階圖像三維顯示

車道線檢測

自監督｜「CoCLR」視訊自監督對比學習筆記

視訊對象分割（Video Object Segmentation）研究小記任務定義與資料集技術路線分類基于神經網絡的模型總結

opencv視覺跟蹤——消除背景模組化

圖形處理單元(GPU)的演進

2021-09-30三維點雲測量正方形包裹體積

DOG算子

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

【AI視野·今日CV 計算機視覺論文速覽 第223期】Mon, 21 Jun 2021

Daily Computer Vision Papers

繼續閱讀

【AI視野·今日CV 計算機視覺論文速覽第223期】Mon, 21 Jun 2021