【AI視野·今日CV 計算機視覺論文速覽第217期】Thu, 10 Jun 2021

AI視野·今日CS.CV 計算機視覺論文速覽

Thu, 10 Jun 2021

Totally 60 papers

👉上期速覽✈更多精彩請移步首頁

Daily Computer Vision Papers

Semi-Supervised 3D Hand-Object Poses Estimation with Interactions in Time

Authors Shaowei Liu, Hanwen Jiang, Jiarui Xu, Sifei Liu, Xiaolong Wang

估計從單個圖像的3D手和對象姿勢是一個極具挑戰性的問題，手和物體通常在互動過程中自我封閉，并且甚至人類不能完全從單個圖像直接标記地面真理的稀缺。為了解決這些挑戰，我們提出了一個統一的架構，用于估計具有半監督學習的3D手和對象姿勢。我們建立一個聯合學習架構，在那裡我們通過變壓器在手和對象表示之間進行明确的上下文推理。超越在單個圖像中的3D注釋之外，我們将大規模手對象視訊中的空間時間一緻性作為在半監督學習中生成僞标簽的限制。我們的方法不僅在挑戰真實世界資料集中提高了手姿勢估計，而且還大大改善了每個執行個體的地面真理的對象姿勢。通過使用大規模多樣化視訊教育訓練，我們的模型也在域中的多個域資料集中概括。項目頁面和代碼

NeRF in detail: Learning to sample for view synthesis

Authors Relja Arandjelovi , Andrew Zisserman

神經輻射場NERF方法表現出令人印象深刻的新穎觀點合成性能。核心方法是通過在沿光線采樣的點處查詢神經網絡以獲得采樣點的密度和顔色來呈現各個光線，并使用渲染方程內建該資訊。由于緻密采樣是計算的，但是常見的解決方案是執行粗糙度至精細采樣。

We Can Always Catch You: Detecting Adversarial Patched Objects WITH or WITHOUT Signature

Authors Bin Liang, Jiachun Li, Jianjun Huang

最近，基于深度學習的對象檢測已被證明是易受對抗的更新檔攻擊攻擊。持有一個特制的貼片的攻擊者可以從藝術人員探測器，例如yolo，即使在實體世界中也可以隐藏自己。這種攻擊可以帶來嚴重的安全威脅，例如從監視錄影機逃脫。在本文中，我們深深探讨了對對象檢測的對抗修補程式攻擊的檢測問題。首先，我們從可視化解釋點識别現有的對抗性更新檔的杠杆簽名。提出了一種快速簽名的防禦方法，并證明是有效的。其次，我們設計了一種改進的更新檔生成算法，以揭示基于簽名的方式可以通過未來出現的技術繞過的風險。新生成的對抗性更新檔可以成功地逃避基于簽名的防禦。最後，我們提出了一種基于内部内容語義一緻性的新型簽名獨立檢測方法，而不是任何攻擊特定的先驗知識。基本直覺是對手對象可以在本地出現，但在輸入圖像中全局消失。實驗表明，簽名獨立方法可以有效地檢測現有和改進的攻擊。通過在沒有任何攻擊的現有知識的情況下，它還通過檢測不可預見的甚至其他類型的攻擊來證明是一種通用方法。兩個提出的檢測方法可以在不同的場景中采用，我們相信組合它們可以提供全面的保護。

Generative Models as a Data Source for Multiview Representation Learning

Authors Ali Jahanian, Xavier Puig, Yonglong Tian, Phillip Isola

生成模型現在能夠産生高度現實的圖像，從教育訓練的資料看起來幾乎無法區分。如果我們有足夠好的生成模型，這會提出這個問題，我們仍然需要資料集我們在從黑匣子生成模型的學習通用視覺表現中而不是直接從資料的設定中調查這個問題。給出了貨架圖像發生器而無需任何通路其教育訓練資料，我們從該發生器輸出的樣本中列出表示。我們使用生成器的潛像來比較可以應用于此設定的幾種表示學習方法，以生成相同語義内容的多個視圖。我們表明，對于對比方法，這種多視圖資料自然可用于識别附近的正面對，在潛在空間中遙遠的潛在空間和負對對。我們發現所産生的表示競争競争力直接從真實資料中學到的，但良好的性能需要在應用的抽樣政策中進行護理和教育訓練方法。生成模型可以被視為資料集的壓縮和有組織的副本，我們設想了未來，其中越來越多的型Zoos增殖，而DataSets越來越笨重，丢失或私有。本文介紹了在這種未來處理視覺表現學習的幾種技術。代碼在我們的項目頁面上釋出

Knowledge distillation: A good teacher is patient and consistent

Authors Lucas Beyer, Xiaohua Zhai, Am lie Royer, Larisa Markeeva, Rohan Anil, Alexander Kolesnikov

在大規模模型之間的計算機視覺中存在越來越多的差異，該模型達到了實際應用中實惠的現有性能和模型的狀态。在本文中，我們解決了這個問題，并顯着彌合了這兩種模型之間的差距。在我們的經驗調查中，我們并不旨在提出一種新的方法，而是努力确定在實踐中經濟實惠的藝術大規模模型的穩健和有效的配方。我們證明，當正确執行時，知識蒸餾可以是減少大型模型尺寸而不會影響其性能的強大工具。特别是，我們發現存在某些隐含的設計選擇，這可能會大大影響蒸餾的有效性。我們的主要貢獻是明确的這些設計選擇的識别，這些選擇選項以前沒有在文獻中闡述。我們通過全面的實證研究備份我們的調查結果，展示了廣泛的視覺資料集的令人信服的結果，特别是獲得了Atorenet的最先進的reset50模型，這實作了82.8前1個精度。

Analysis of convolutional neural network image classifiers in a hierarchical max-pooling model with additional local pooling

Authors Benjamin Walter

考慮圖像分類，介紹了具有額外本地池的分層最大池模型。這裡，附加的本地池使得可以将定影型模型組合将具有變量相對距離彼此的圖像的部分組合。鑒于它們的收斂速度，引入并比較了各種卷積神經網絡圖像分類器。通過将它們應用于模拟和實際資料來分析估算的有限樣本尺寸性能。

An ordinal CNN approach for the assessment of neurological damage in Parkinson's disease patients

Authors Javier Barbero G mez, Pedro Antonio Guti rrez, V ctor Manuel Vargas, Juan Antonio Vallejo Casas, C sar Herv s Mart nez

3D圖像掃描是帕金森S病PD患者神經損傷的評估工具。這種診斷過程可以自動化，以幫助醫務人員通過決策支援系統DSSS，并且卷積神經網絡CNN是良好的候選者，因為它們在應用于空間資料時是有效的。本文提出了一種用于評估PD患者水準或神經損傷的3D CNN序數模型。鑒于CNNS需要大型資料集以實作可接受的性能，資料增強方法适于使用空間資料。我們考慮通過最短路徑OGO SP方法基于過采樣的序數圖，該方法應用于幀内資料生成的伽馬機率分布。提出了對OGO SP的修改，ogoSPβ算法應用于在幀間區域中産生合成樣本的β釋出，與伽馬相比更好地分布。不同方法的評估是基于由西班牙CRDOBA的醫院大學雷納SOF提供的新型3D圖像資料集。我們展示了序數方法如何改善了标稱值的性能，以及OgoSPβ如何産生的性能比OGO SP更好。

A machine learning pipeline for aiding school identification from child trafficking images

Authors Sumit Mukherjee, Tina Sederholm, Anthony C. Roman, Ria Sankar, Sherrie Caltagirone, Juan Lavista Ferres

兒童販賣世界各地的嚴重問題。每年有400多萬販賣世界各地的兒童受害者，其中許多用于兒童性剝削的目的。在與英國警察和非營利性的合作中，專注于兒童濫用預防，全球解放網，我們制定了概念機器學習管道的證據，以幫助識别來自截取的圖像。在這項工作中，我們專注于包含佩戴校服的兒童的圖像來識别起源學校。在沒有機器學習管道的情況下，這一巨大耗時和勞動密集型任務由執法人員手動進行。是以，通過自動化學校識别過程的方面，我們希望大大影響本部分兒童識别的速度。我們所提出的管道由兩台機器學習模型I構成，識别兒童的圖像是否包含校服中的校服，以及襯衫，毛衣，燃料等顔色紋理等不同校服項目的屬性的識别。我們描述了資料收集，标簽，模型開發和驗證過程以及使用模型預測有效地搜尋學校的政策。

Rethinking Space-Time Networks with Improved Memory Coverage for Efficient Video Object Segmentation

Authors Ho Kei Cheng, Yu Wing Tai, Chi Keung Tang

本文介紹了在視訊對象分割的背景下模組化空間時間對應的簡單而有效的方法。與大多數現有方法不同，我們在不重新編碼每個對象的掩碼功能之間直接建立相應的對應關系，導緻高效且強大的架構。利用該對應關系，目前查詢幀中的每個節點都是通過以與關聯方式彙總到過去的特征來推斷出來的。我們将聚合過程作為投票問題，發現現有的内部産品親和力導緻存儲器利用較差，記憶體的小型記憶體節點的小型存儲器節點，無論查詢如何。鑒于這種現象，我們建議使用負平方歐幾裡德距離來計算親和力。我們經過驗證，每個記憶體節點現在都有機會貢獻，并通過實驗表明這種多樣化的投票有利于記憶體效率和推理準确性。通信網絡和多元化投票的協同作用非常好，在戴維斯和Youtubevos資料集中實作了新的最新狀态，同時在沒有鐘聲和口哨的多個物體的20 fps中運作得多。

Distilling Image Classifiers in Object Detectors

Authors Shuxuan Guo, Jose M. Alvarez, Mathieu Salzmann

知識蒸餾構成通過利用更強大的老師的知識來提高緊湊學生網絡的性能簡單而有效的方法。盡管如此，知識蒸餾文獻仍然僅限于學生和教師解決同一任務的場景。在這裡，我們調查不僅在跨架構中傳輸知識的問題，也可以跨出任務。為此，我們研究了物體檢測的情況，而不是按照标準探測器到檢測器蒸餾方法，而不是将分類器引入探測器知識轉移架構。特别是，我們提出了利用分類師的政策來改善探測器的識别準确性和本地化性能。我們對具有不同骨架的幾種探測器的實驗證明了我們方法的有效性，使我們能夠優于現有技術的狀态探測器蒸餾方法。

Geometry-Consistent Neural Shape Representation with Implicit Displacement Fields

Authors Wang Yifan, Lukas Rahmann, Olga Sorkine Hornung

我們呈現隐式位移字段，一種用于詳細的3D幾何的新穎表示。受到經典表面變形技術的啟發，位移映射，我們的方法表示作為平滑基表面的複雜表面加上沿着基部的正常方向的位移，導緻頻率的形狀分解，其中高頻信号由幾何限制低頻信号。重要的是，由于一定量身定制的建築設計，這種解剖更加無人駕駛，這些建築設計通過施工具有先天頻率層次結構。我們探索隐式位移場表面重建和細節傳輸，并展示優異的代表性功率，訓練穩定性和概括性。

Learning to Rank Words: Optimizing Ranking Metrics for Word Spotting

Authors Pau Riba, Adri Molina, Lluis Gomez, Oriol Ramos Terrades, Josep Llad s

在本文中，我們探索并評估基于排名的客觀函數來學習單詞字元串和單詞圖像編碼器。我們考慮檢索架構，其中使用者期望根據定義的相關評分排名的檢索清單。在單詞發現問題的上下文中，已根據Query從查詢字元串編輯距離設定相關性分數。我們通過字元串單詞斑點來通過實驗展示所提出的模型對查詢模型的競争性能。我們還通過示例單詞發現提供查詢的結果，盡管這不是這項工作的主要重點。

PCNet: A Structure Similarity Enhancement Method for Multispectral and Multimodal Image Registration

Authors Si Yuan Cao, Hui Liang Shen, Lun Luo, Shu Jie Chen, Chunguang Li

多光譜和多模式圖像處理在計算機視覺和計算攝影社群中很重要。由于所擷取的多級和多模式資料通常由于圖像裝置的交替或移動而導緻的，是以需要圖像登記過程。由于非線性強度和梯度變化，多光譜或多模式圖像的登記是具有挑戰性的。為了應對這一挑戰，我們提出了相等網絡PCNet，能夠增強結構相似性并減輕非線性強度和梯度變化。然後可以使用網絡産生的相似性增強功能對齊圖像。 PCNET在先前的相一緻性的指導下建構。網絡包含三層，根據相中理論，與改進的學習的Gabor核心一起陪同。由于先前的知識，PCNet非常重量輕，可以在相當少量的多光譜資料上教育訓練。 PCNET可以被視為完全卷積的，是以可以取消任意尺寸。曾經接受過教育訓練，PCNET适用于各種多光譜和多模式資料，如RGB NIR，無需額外進一步調諧，無閃光圖像。實驗結果驗證了PCNet優于最新的現有狀态的現有狀态，包括與PCNet相比具有數百次參數數量的基于深度學習的算法。由于相似性增強教育訓練，PCNet優于原始相變算法，具有三分之二的特征頻道。

Grounding inductive biases in natural images:invariance stems from variations in data

Authors Diane Bouchacourt, Mark Ibrahim, Ari S. Morcos

為了在看不見的看不見并潛在地出現分布樣本，希望機器學習模型對影響輸入變異因子的變換來具有可預測的響應。不變性通常通過手工工程資料增強實作，但是進行标準資料增強位址轉換，該轉換說明實際資料的變化，而在事先工作中專注于合成資料，我們在此嘗試表征真實資料集，想象成和學習中變異的因素标準殘差網絡的不變性和最近提出的視覺變壓器關于這些因素的變化。我們顯示标準增強依賴于轉換和規模的精确組合，盡管諸如卷積架構的翻譯不變性，但諸如殘留網絡等近似值的轉換不變性，但是譯價了大部分性能改進。事實上，我們發現規模和翻譯不變性在剩餘網絡和視覺變壓器模型中類似于它們顯着不同的歸納偏差。我們展示教育訓練資料本身是主要的不變性的主要來源，并且資料增強隻會進一步增加所學到的InorRARCECCE。有趣的是，從教育訓練過程中提出的InorRoughcce與我們發現的ImageNet因子對齊。最後，我們發現想象成的變化的主要因素主要與外觀相關，并且是每個班級的特定。

More than meets the eye: Self-supervised depth reconstruction from brain activity

Authors Guy Gaziv, Michal Irani

在過去的幾年裡，使用深層學習工具，重建來自FMRI腦記錄的觀察到的自然圖像的重大進步。在這裡，首次顯示觀察到的2D自然圖像的緻密3D深度圖也可以直接從FMRI腦記錄中恢複。我們使用了擱置方法來估計自然圖像的未知深度圖。這适用于I的少量圖像呈現給FMRI掃描器圖像中的對象的圖像，我們将FMRI記錄稱為配對資料，以及II非常數量的自然圖像，沒有FMRI記錄未配對資料。然後将估計的深度圖用作輔助重建标準，用于直接從FMRI訓練進行深度重建。我們提出了兩個主要方法深度恢複和聯合圖像深度RGBD恢複。由于具有FMRI的可用配對訓練資料圖像的數量很小，是以我們通過自我監督的周期來豐富教育訓練資料一緻教育訓練許多未配對的資料自然圖像深度映射而沒有FMRI。這是通過基于新定義的和訓練的深度的感覺相似度等來實作的，作為重建标準。我們表明，直接從FMRI預測深度映射優于從重建的圖像間接順序恢複。我們進一步表明，早期皮質視覺區域的激活占據了我們的深度重建結果，并提出了通過其深度資訊調整程度表征FMRI體素的意味着。這項工作增加了一個重要的解碼資訊層，擴充了視覺腦解碼能力的目前包絡。

An Efficient Point of Gaze Estimator for Low-Resolution Imaging Systems Using Extracted Ocular Features Based Neural Architecture

Authors Atul Sahay, Imon Mukherjee, Kavi Arya

使用者的眼睛為人機互動的手段提供了一種重要的模式作為一個重要的模态。目前對眼睛的科學探索的時間已經看到了從凝視估計到給定時間段看螢幕的使用者的注意力衡量的HCI應用中的益處的升高。眼睛跟蹤系統作為輔助，互動式工具可以通過實體殘障人士合并，适合那些隻有一組有限的通信的人。本文的三重目标是1.引入基于神經網絡的基于神經網絡的架構，以通過基于低分辨率的系統（例如網絡攝像頭）通過學習各個方面，在螢幕上顯示的9個位置以9個位置預測使用者凝視。眼睛作為眼鏡特征。 2.在實時獲得的粗略監督功能集的集合也通過紙張中提出的21個人17個男性和4名婦女的使用者案例研究驗證，其中4個女性從中獲得了35套執行個體，精度得分為82.36 F1得分為82.2和3.a對這種系統的适用性和潛在挑戰進行了詳細的研究。實驗結果驗證了所提出的眼睛凝視跟蹤模型的可行性和有效性。

ST++: Make Self-training Work Better for Semi-supervised Semantic Segmentation

Authors Lihe Yang, Wei Zhuo, Lei Qi, Yinghuan Shi, Yang Gao

在本文中，我們調查我們是否可以使自我訓練成為一個簡單但流行的架構，更好地為半監督分割工作。由于半監督設定中的核心問題是有效而有效地利用未标記資料，我們注意到增加未标記資料的多樣性和硬度至關重要，對性能改進至關重要。了解這一事實，我們建議采用最簡單的自我教育訓練方案，耦合與未标記資料的适當強大的資料增強，即ST為此任務，這令人驚訝地優于以前的各種設定，沒有任何響鈴和吹口哨。此外，為了減輕錯誤的僞标記圖像的負面影響，我們進一步提出了一種先進的自我訓練架構，即ST，通過選擇和優先考慮更可靠的未标記圖像來執行選擇性RE訓練。是以，所提出的ST提高了半導體監督模型的性能，并在Pascal VOC 2012和CityCapes基準測試中超越了現有方法。總的來說，我們希望這種簡單和簡單的架構将成為未來作品的強大基線或競争對手。代碼可用

Semi-supervised lane detection with Deep Hough Transform

Authors Yancong Lin, Silvia Laura Pintea, Jan van Gemert

目前的車道檢測工作依賴于大型手動注釋的資料集。我們通過利用大規模便宜的未标記資料來減少對注釋的依賴性。我們提出了一種新的損失函數，利用霍夫空間中的車道幾何知識，其中車道可以被識别為局部最大值。通過将車道分成單獨的頻道，我們可以通過簡單的全局最大池定向每個車道。最大位置對車道的布局進行編碼，而強度表示存在的車道的機率。最大化最大箱的日志機率有助于神經網絡在沒有标簽的情況下找到車道。在Culane和TusiMple資料集上，我們表明，通過從大量未标記的圖像學習，提出的Hough變換損失顯着提高了性能。

Agile wide-field imaging with selective high resolution

Authors Lintao Peng, Liheng Bian, Tiexin Liu, Jun Zhang

廣場和高分辨率HR成像對于航空偵察，地形映射和安全監測等各種應用至關重要。現有技術需要大規模的探測器陣列來捕獲整個場的HR圖像，進而産生高複雜性和重度。在這項工作中，我們報告了一個有選擇性高分辨率的靈活寬野成像架構，隻需要兩個探測器。它建立在自然場景之前的統計稀疏性，重要的目标僅在興趣的小區地區找到ROI，而不是整個領域。在此假設下，我們使用短焦相機以具有一定的低分辨率的圖像寬場，并使用長焦會相機擷取ROI的HR圖像。要實時地自動定位ROI，我們提出了一個高效的基于深度學習的多尺度注冊方法，這是兩個錄影機之間的大型設定差異焦點，白平衡等的強大和盲目。使用注冊位置，安裝在GIMBAL上的長焦相機可以實時跟蹤ROI以進行連續的HR成像。我們通過僅以1181克重量建構概念設定證明，并将其組裝在無人駕駛飛行器上，以展示新的成像架構。實驗表明，設定維護了120個Circ寬視野FoV，選擇性0.45Mrad瞬時FOV。

Towards Training Stronger Video Vision Transformers for EPIC-KITCHENS-100 Action Recognition

Authors Ziyuan Huang, Zhiwu Qing, Xiang Wang, Yutong Feng, Shiwei Zhang, Jianwen Jiang, Zhurong Xia, Mingqian Tang, Nong Sang, Marcelo H. Ang Jr

随着近期視覺變壓器的研究浪潮，它們對各種具有挑戰性的計算機視覺應用的潛力表現出顯着的潛力，例如圖像識别，點雲分類以及視訊了解。在本文中，我們在史詩廚房100行動識别資料集上教育訓練更強大的視訊視覺變壓器的經驗結果。具體而言，我們探索視訊視覺變壓器的教育訓練技術，例如增強，分辨率以及初始化等。在我們的訓練配方中，單一的Vivit模型實作了47.4的驗證廚房100個資料集的驗證組的性能，表現優于什麼在原文中報告3.4。我們發現視訊變壓器特别擅長預測動詞名詞動作預測任務中的名詞。這使得視訊變壓器的整體動作預測精度明顯高于卷積器。令人驚訝的是，即使是最佳的視訊變壓器也在動詞預測上表現出卷積網絡。是以，我們将視訊視覺變壓器和一些卷積視訊網絡結合起來，并将我們的解決方案展示了史詩廚房100行動識别競争。

Salient Object Ranking with Position-Preserved Attention

Authors Hao Fang, Daoxin Zhang, Yi Zhang, Minghao Chen, Jiawei Li, Yao Hu, Deng Cai, Xiaofei He

執行個體分段可以檢測對象在圖像中的位置，但很難了解它們之間的關系。我們注意一個典型的關系，相對顯着性。密切相關的任務，突出的對象檢測，預測突出顯示視覺突出區域的二進制圖，同時難以區分多個物體。直接通過後處理結合兩個任務也會導緻性能不佳。目前缺乏對相對顯着性的研究，限制了内容感覺圖像裁剪，視訊摘要和圖像标記等實際應用。

Towards Defending against Adversarial Examples via Attack-Invariant Features

Authors Dawei Zhou, Tongliang Liu, Bo Han, Nannan Wang, Chunlei Peng, Xinbo Gao

深度神經網絡DNN易受對抗性噪音。通過利用對抗性示例可以改善它們的對抗性魯棒性。然而，鑒于連續不斷發展的攻擊，教育訓練的模型在所見的對手執行個體上教育訓練通常不能呈很好地呈良好，以易于看不見的對抗性執行個體。為了解決這個問題，在本文中，我們建議通過在維護語義分類資訊的攻擊中學習更廣泛的不變特征來消除對抗性噪聲。具體而言，我們引入了對來自對抗噪聲的不變特征的對抗性特征學習機制。在攻擊不變特征的編碼空間中提出了歸一化術語，以解決所看到和看不見的攻擊類型之間的偏置問題。實證評價表明，與以前的現有技術的方法相比，我們的方法可以提供更好的保護，特别是針對看不見的攻擊和适應性攻擊。

Dual-Modality Vehicle Anomaly Detection via Bilateral Trajectory Tracing

Authors Jingyuan Chen, Guanchen Ding, Yuchen Yang, Wenwei Han, Kangmin Xu, Tianyi Gao, Zhe Zhang, Wanping Ouyang, Hao Cai, Zhenzhong Chen

交通異常檢測在智能交通系統中發揮了至關重要的作用。這項任務的主要挑戰位于高度多元化的異常場景和變分的照明條件。雖然有很多工作已經設法識别同質天氣和場景中的異常，但很少有決定應對複雜的異常。在本文中，我們提出了一種适用于異常車輛的魯棒檢測的雙子產品化方法。我們介紹了一個內建的異常檢測架構，包括以下子產品背景模組化，具有檢測的車輛跟蹤，掩模結構，感興趣區域ROI回溯，以及雙模追蹤。具體地，我們使用背景模組化來過濾運動資訊并留下靜态資訊以供以後的車輛檢測。對于車輛檢測和跟蹤子產品，我們采用YOLOV5和多尺度跟蹤來定位異常。此外，我們利用幀差和跟蹤結果來識别道路并獲得掩模。此外，我們介紹了多個相似性估計名額來通過反向特性來優化異常時期。最後，我們提出了一種雙模雙邊跟蹤子產品來進一步改進時間。在NVIDIA 2021 Ai City挑戰的軌道4測試集上進行的實驗産生了0.9302 F1得分和3.4039根均方誤差RMSE，表明我們架構的有效性。

Salient Positions based Attention Network for Image Classification

Authors Sheng Fang, Kaiyu Li, Zhe Li

自我關注機制吸引了廣泛的宣傳，為其模組化長依賴性的最重要的優勢，以及計算機視覺任務的變化，非本地塊試圖模拟輸入特征映射的全局依賴性。收集全球上下文資訊将不可避免地需要大量的記憶體和計算資源，這在過去幾年中已被廣泛研究過。然而，自我關注方案存在另一個問題是從全球範圍收集的所有資訊都有助于對我們的知識的背景模組化，很少有研究則重點是該問題。本文針對這兩項問題提出了基于突出的關注方案SINCEL，這是由一些關于自我注意方案中産生的關注圖和親和力矩陣的一些有趣的觀察。我們認為，這些觀察是有益的，可以更好地了解自我關注。 SINCET使用突出位置選擇算法來僅選擇有限量的突出點來參加注意地圖計算。這種方法不僅将備份很多記憶體和計算資源，還可以嘗試從輸入特征映射的轉換中蒸餾出正面資訊。在實作中，考慮與通道高次元的特征映射，它們與一般視覺圖像完全不同，我們将特征映射的平方功率沿信道次元作為位置的顯着度量。通常，與非本地塊方法不同，S33，S3MET沿着信道維數而不是空間次元使用所選位置而不是全部使用所選擇的位置。我們的源代碼可用

CLCC: Contrastive Learning for Color Constancy

Authors Yi Chen Lo, Chia Che Chang, Hsuan Chao Chiu, Yu Hao Huang, Chia Ping Chen, Yu Lin Chang, Kevin Jou

在本文中，我們呈現CLCC，這是一種用于色恒定的新型對比學習架構。對圖形分類的學習高品質的視覺表現已經應用了對比學習。為圖像分類産生有用表示的一個關鍵方面是設計光源不變的增強。然而，光源不變假設與顔色恒定任務的性質沖突，旨在估計給定原始圖像的發光體。是以，我們建構有效的對比對來通過新穎的原域顔色增強學習更好的光源依賴性特征。在NUS 8資料集上，我們的方法提供了17.5的相對改進，在強大的基線上，達到了最新的現實性能而不提高模型複雜性。此外，我們的方法在Gehler DataSet上實作了競争性能，而參數比較排名較大的深度學習方法相比，參數較少3倍。更重要的是，我們表明我們的模型在密切關注的光源下對不同場景更加強大，顯着減少了資料稀疏區域中的28.7個最壞情況。

Towards Explainable Abnormal Infant Movements Identification: A Body-part Based Prediction and Visualisation Framework

Authors Kevin D. McCay, Edmond S. L. Ho, Dimitrios Sakkos, Wai Lok Woo, Claire Marcroft, Patricia Dulson, Nicholas D. Embleton

提供腦癱CP的早期診斷是加強受影響人的發展結果的關鍵。診斷工具如一般運動評估GMA，在早期診斷中産生了有希望的結果，但這些手動方法可能是費力的。

Real Time Egocentric Object Segmentation: THU-READ Labeling and Benchmarking Results

Authors E. Gonzalez Sosa, G. Robledo, D. Gonzalez Morin, P. Perez Garcia, A. Villegas

由于它們在混合現實MR應用程式中，Egocentric細分已經吸引了最近對計算機視覺界的興趣。雖然最先前的作品一直專注于分割Egentric人體部位，但對Egentric物品的注意力很少。由于缺少像素的Pixel的資料集，在本文中，我們用來自RGB D THU讀取資料集的2124個圖像子集的語義明智标記。我們還通過Thundernet，實時語義分段網絡報告基準測試結果，這可能允許未來內建與結束以結束先生應用程式。

Self-supervision of Feature Transformation for Further Improving Supervised Learning

Authors Zilin Ding, Yuhang Yang, Xuan Cheng, Xiaomin Wang, Ming Liu

自我監督的學習，它通過預先設計的借口任務自動建構标簽，最近申請加強監督學習。由于以前的自我監督的借口任務基于輸入，是以它們可能會産生巨大的額外教育訓練開銷。在本文中，我們發現CNN中的功能也可以用于自我監督。是以，我們創造性地設計了基于EMPH功能的借口任務，該任務隻需要少量的額外訓練開銷。在我們的任務中，我們丢棄了不同特定的功能區域，然後教育訓練模型以區分這些不同的功能。為了在監督學習中完全應用基于借口任務，我們還提出了一種新的學習架構，其中包含多分類器以進一步改進。通過自我監督，原始标簽将擴充到聯合标簽。通過我們自我監督任務提供的更多語義資訊，這種方法可以更有效地訓練CNN。關于各種監督學習任務的廣泛實驗表明了我們方法的準确性提高和廣泛适用性。

Self-supervised Feature Enhancement: Applying Internal Pretext Task to Supervised Learning

Authors Yuhang Yang, Zilin Ding, Xuan Cheng, Xiaomin Wang, Ming Liu

傳統的自我監督學習需要使用外部借口任務的CNN，圖像或視訊基于基于視訊的任務來編碼高電平語義視覺表示。在本文中，我們顯示CNN内的功能轉換也可以被視為監督信号來建構自我監督任務，稱為EMPH内部借口任務。而這樣的任務可用于增強監督學習。具體地，我們首先通過丢棄不同的通道來轉換内部特征映射，然後定義附加的内部借口任務以識别丢棄的通道。 CNN教育訓練以預測自我監督标簽和原始标簽的組合産生的關節标簽。通過這樣做，我們可以讓CNNS知道在對擠出更豐富的功能資訊的希望中進行分類時缺少哪些頻道。廣泛的實驗表明，我們的方法對各種模型和資料集有效。值得注意的是，我們隻會産生可忽略不計的計算開銷。此外，我們的方法也可以與其他方法相容以獲得更好的結果。

Cervical Cytology Classification Using PCA & GWO Enhanced Deep Features Selection

Authors Hritam Basak, Rohit Kundu, Sukanta Chakraborty, Nibaran Das

宮頸癌是全世界婦女最緻命和常見的疾病之一。如果在早期階段診斷，它是完全可固化的，但繁瑣且昂貴的檢測程式使其無法進行人口明智的篩選。是以，為了增加臨床醫生的努力，在本文中，我們提出了一種完全自動化的架構，利用深度學習和特征選擇，使用進化優化進行細胞學圖像分類。所提出的架構從多個卷積神經網絡模型中提取深度特征，并使用兩步的特征減少方法來確定計算成本和更快的收斂性。從CNN模型中提取的特征形成了一個大的特征空間，其使用主成分分析減少了次元，同時保留了差異的99。使用灰狼優化器，灰狼優化器的進化優化算法，從這個特征空間中選擇非備援，最佳的特征子集，進而提高了分類性能。最後，所選特征子集用于訓練SVM分類器以生成最終預測。拟議的架構是在三個公開可用的基準資料集Mendeley液體細胞學4類資料集，Herlev PAP塗片7類資料集中進行評估，以及Sipakmed PAP塗片5類資料集分别實作了99.47,98.32和97.87的分類精度，進而證明了可靠性該方法。可以找到所提出的方法的相關代碼

Exploiting Learned Symmetries in Group Equivariant Convolutions

Authors Attila Lengyel, Jan C. van Gemert

集團的等級卷積GConvs使卷積神經網絡能夠對各種轉換組等于各種變換組，而是額外參數和計算成本。我們調查GConvs學習的過濾器參數，并找到它們變得高度多餘的某些條件。我們表明GConvs可以有效地分解成深度可分離的卷曲，同時保留了标準性屬性，并在兩個資料集上展示了改進的性能和資料效率。所有代碼都公開提供

Deep Tiny Network for Recognition-Oriented Face Image Quality Assessment

Authors Baoyun Peng, Min Liu, Heng Yang, Zhaoning Zhang, Dongsheng Li

由于深度卷積神經網絡CNN，近年來，人臉識别取得了重大進展。在許多面部識别場景中，從具有巨大幀内變化的序列擷取面部圖像。這些主要由低品質面部圖像影響的幀内變化導緻識别性能的不穩定性。以前的作品專注于臨時方法，以從視訊或使用面部圖像品質評估FIQA方法中選擇幀，這僅考慮幾種扭曲的特定或組合。

Tracking by Joint Local and Global Search: A Target-aware Attention based Approach

Authors Xiao Wang, Jin Tang, Bin Luo, Yaowei Wang, Yonghong Tian, Feng Wu

通過檢測跟蹤是一種非常流行的架構，用于單個對象跟蹤，該架構是嘗試在每個幀的本地搜尋視窗中搜尋目标對象。雖然這種本地搜尋機制适用于簡單的視訊，但是，它使跟蹤器對極其具有挑戰性的情景敏感，例如沉重的遮擋和快速運動。在本文中，我們提出了一種新的和一般的目标意識到的注意力機制，被稱為Tanet并通過檢測架構進行跟蹤，以進行聯合本地和全球搜尋的魯棒跟蹤。具體而言，我們提取目标對象更新檔和連續視訊幀的特征，然後我們連接配接并饋送到解碼器網絡中以生成目标了解全局注意圖。更重要的是，我們求助于對抗教育訓練以獲得更好的注意預測。外觀和運動鑒别器網絡旨在確定其在空間和時間視圖中的一緻性。在跟蹤過程中，我們通過探索候選搜尋區域進行魯棒跟蹤，将目标意識注意與多個跟蹤內建在一起。關于短期和長期跟蹤基準資料集的廣泛實驗全部驗證了算法的有效性。本文的項目頁面可以在URL找到

CoAtNet: Marrying Convolution and Attention for All Data Sizes

Authors Zihang Dai, Hanxiao Liu, Quoc V. Le, Mingxing Tan

變形金剛引起了計算機願景的越來越興趣，但它們仍然落後于藝術卷積網絡的狀态。在這項工作中，我們表明，雖然變壓器往往具有更大的模型能力，但由于缺乏正确的歸納偏差，它們的概括可能比卷積網絡更差。為了有效地結合兩種架構的優勢，我們呈現衣帽藤發音衣網，這是一個由兩個關鍵洞察的一個混合模型的混合模型1深度卷積和自我注意，可以通過簡單的相對關注2垂直堆疊卷積層和注意層。原則性的方式令人驚訝地有效地改善泛化，能力和效率。實驗表明，我們的衣帽在各種資料集的不同資源限制下實作了最新的現有性能。例如，Toodnet實作86.0 ImageNet Top 1的1精度，無需額外資料，89.77，具有額外的JFT資料，優于卷積網絡和變壓器的現有技術。值得注意的是，當預先教育訓練13米的圖像從Mimagenet 21K中，我們的衣帽達到88.56前1個精度，比對vIT巨大的預先訓練，使用JFT的300M圖像，同時使用23倍的資料。

Point Cloud Upsampling via Disentangled Refinement

Authors Ruihui Li, Xianzhi Li, Pheng Ann Heng, Chi Wing Fu

3D掃描産生的點雲通常稀疏，非均勻和嘈雜。最近的上采樣方法旨在産生密集點集，同時實作分布均勻性和鄰近的表面，并且可能在一個網絡中修改小孔。重新審視任務後，我們建議根據其多目标性質解開任務，并制定兩個級聯子網，密集發電機和空間煉油廠。密集的發電機縮小粗糙但緻密的輸出，粗略地描述下面的表面，而空間煉油廠通過調整每個點的位置來進一步精細調諧粗輸出。具體而言，我們在空間煉油廠中設計一對本地和全球細化單元，以發展粗略的特征圖。此外，在空間煉油廠中，我們将偏移偏移矢量退回以進一步調整精細量表的粗略輸出。合成和真實掃描資料集的廣泛定性和定量結果證明了我們對現有技術的方法的優勢。

SHARP: Shape-Aware Reconstruction of People In Loose Clothing

Authors Sai Sagar Jinka, Rohan Chacko, Astitva Srivastava, Avinash Sharma, P.J. Narayanan

3D單眼圖像的人體重建是在多個域中具有更廣泛應用的計算機視覺中有趣和不良的問題。在本文中，我們提出了一款新穎的終端訓練網絡，精确地恢複了從單眼圖像的松散衣物中的3D人的詳細幾何和外觀。在衣服模型的非參數去皮深度圖表示之前，我們提出了參數體的稀疏和有效的融合。參數正文先前的限制我們的模型首先，網絡保留了不受衣服封閉的幾何一緻身體部位，而第二，它提供了改善剝離深度圖的預測的體形上下文。這使得在給定輸入圖像的情況下，通過在2D地圖上的L1損耗僅恢複細粒度的3D幾何細節。我們在公開可用的布料3D和Thuman資料集中評估夏普，并向最先進的方法報告卓越的性能。

VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation

Authors Linjie Li, Jie Lei, Zhe Gan, Licheng Yu, Yen Chun Chen, Rohit Pillai, Yu Cheng, Luowei Zhou, Xin Eric Wang, William Yang Wang, Tamara Lee Berg, Mohit Bansal, Jingjing Liu, Lijuan Wang, Zicheng Liu

大多數現有的視訊和語言Vidl研究側重于單個資料集或單個任務的多個資料集。實際上，預計真正有用的VIDL系統将很容易地概括為不同的任務，域和資料集。為了促進這些系統的評估，我們引入了視訊和語言了解評估值基準，這是11個vidl資料集的組合，超過3個流行的任務我文本到視訊檢索II視訊問題應答和III視訊字幕。價值基準旨在涵蓋廣泛的視訊流域，視訊長度，資料卷和任務難度級别。同時隻關注單個頻道視訊，而不是僅關注單個頻道視訊，促使利用視訊幀及其關聯的字幕的資訊以及跨多個任務共享知識的模型來促進利用資訊的模型。我們評估各種基線方法，無需大規模VIDL預教育訓練，并系統地研究視訊輸入通道，融合方法和不同視訊表示的影響。我們還研究了任務之間的可轉換性，并在不同的設定下進行多項任務學習。我們最佳模型與人類性能之間的重大差距來呼籲進行進階VIDL模型的未來研究。價值可用

PAM: Understanding Product Images in Cross Product Category Attribute Extraction

Authors Rongmei Lin, Xiang He, Jie Feng, Nasser Zalmout, Yan Liang, Li Xiong, Xin Luna Dong

了解産品屬性在提高客戶的線上購物體驗方面發揮着重要作用，并作為建構産品知識圖形的組成部分。大多數現有方法專注于文本描述的屬性提取或利用來自産品圖像（如形狀和顔色）的可視資訊。與先前作品中考慮的輸入相比，産品形象實際上包含更多資訊，由豐富的單詞和視覺線索混合表示，具有仔細設計給客戶留下深刻印象的布局。這項工作提出了一種更具包容性架構，它充分利用了這些不同的屬性提取模式。靈感來自最近的作品在視覺問題的回答中，我們使用基于變壓器的序列來序列模型，以融合産品文本的融合表示，光學字元識别OCR令牌和在産品圖像中檢測到的可視對象。該架構通過教育訓練解碼器來預測産品類别和屬性值以及在産品類别上的輸出，進一步擴充了具有單個模型的多個産品類别跨多個産品類别的屬性值的功能。該模型提供了在電子商務平台上可取的統一屬性提取解決方案，該平台提供具有多種産品屬性的産品類别。我們在兩個産品屬性上進行了評估模型，一個具有許多可能的值，一個具有一小一小一組可能的值，超過14個産品類别，并且發現該模型可以在召回的召回和10個增益與現有方法相比，F1分數可以實作15個增益。僅使用文本功能。

Check It Again: Progressive Visual Question Answering via Visual Entailment

Authors Qingyi Si, Zheng Lin, Mingyu Zheng, Peng Fu, Weiping Wang

雖然複雜的視覺問題應答模型取得了顯着的成功，但它們傾向于根據問答之間的膚淺相關性僅回答問題。已經開發了幾種最近的方法來解決此語言前提問題。然而，它們中的大多數預測了根據一個最佳輸出的正确答案，而無需檢查答案的真實性。此外，他們隻探讨了圖像和問題之間的互動，忽略了候選答案的語義。在本文中，我們提出了一種基于視覺素食的選擇和重演SAR漸進式架構。具體來說，我們首先選擇與問題或圖像相關的候選答案，然後我們通過視覺征征任務重新恢複候選答案，該任務驗證圖像是否針對問題的合成聲明和每個候選答案。實驗結果表明了我們提出的架構的有效性，該架構在VQA CP V2上建立了新的技術準确性，具有7.55的改進。

Multi-Facet Clustering Variational Autoencoders

Authors Fabian Falck, Haoting Zhang, Matthew Willetts, George Nicholson, Christopher Yau, Christopher C Holmes

在深度叢集中的工作側重于找到一個資料分區。然而，諸如圖像的高維資料通常可以聚集多個有趣的特征。例如，可以通過背景的顔色分開地聚集在對象的形狀上并通過背景的顔色來聚集對象的圖像。在本文中，我們介紹了多面聚類變形變形AutoEncoders MFCVAE，一種新型的變形自動碼器，具有潛在變量的層次，每個分層都具有高斯的混合，即同時學習多個群集，并訓練完全無監視并結束結束。 MFCVAE使用逐漸訓練有素的梯形架構，這導緻高度穩定的性能。我們為分析分析分析後分布分析，提供了對優化ELBO的新穎理論結果，并糾正早期的影響力理論上。在圖像基準上，我們證明我們的方法在資料的不同方面分開和叢集以解除一緻的方式。我們還顯示了我們模型的其他優勢，其潛在空間的合成性，它提供了受控的樣品。

I Don't Need $\mathbf{u}$: Identifiable Non-Linear ICA Without Side Information

Authors Matthew Willetts, Brooks Paige

在這項工作中，我們為可識别的非線性ICA模型引入了一種新方法。最近，在深度生成模型中，尚未成為非線性ICA的内部生成模型的文藝複興。然而，這些先前的作品假設了對足夠豐富的輔助觀察組的通路，表示MathBF U。我們在這裡展示了在不存在此側面資訊的情況下如何獲得可識别性，呈現可能的完全無監督的可識别非線性ICA。雖然以前的理論結果已經在存在無限柔性的通用函數近似器存在下建立了可識别的非線性ICA的不可能性，但在這裡我們依賴于深生成模型的任何特定所選擇的參數的本質上有限的模組化能力。特别是，我們專注于在其潛在空間中執行聚類的生成模型，該模型結構與以前的可識别模型比對，而是使用學習群集提供合成形式的輔助資訊。我們在合成和圖像資料集中使用VAES評估我們的提案，并發現學習的叢集功能有效地具有潛在群集的深層生成模型是經驗識别的，與依賴側面資訊的模型相同。

Implicit field learning for unsupervised anomaly detection in medical images

Authors Sergio Naval Marimont, Giacomo Tarroni

我們提出了一種基于隐式場圖像表示的醫學圖像的分發檢測方法的小說。在我們的方法中，自動解碼器饋送前向神經網絡以在組織類型的代理上的空間坐标和機率之間的映射形式中學習健康圖像的分布。在推斷時間，學習分布用于從給定的測試圖像檢索恢複，即，與輸入一個，但屬于健康分布的圖像最大限度地保持一緻。使用我們的模型預測的恢複圖像預測的Voxel明顯機率是本地化的。我們在腦MR圖像上無監督定位的任務中測試了我們的方法，并将其與其他幾種基于VAE的異常檢測方法進行比較。結果表明，對于最佳性能的vae的替代，所提出的技術基本上呈現0.640 Vs 0.518的平均骰子0.640 Vs 0.518，同時也需要相當較少的計算時間。

Rethink Transfer Learning in Medical Image Classification

Authors Le Peng, Hengyue Liang, Taihui Li, Ju Sun

通過深度卷積神經網絡轉移學習TL DCNNS在醫學圖像分類麥克風中成功。然而，目前的做法是令人費解的，因為麥克風通常僅依賴于在DCNN的底層中學到的低和或中間級别特征上。在這種直覺之後，我們質疑MIC中TL的目前政策。在本文中，我們使用不同的TL政策對兩個胸部X射線資料集進行分類的淺層和深網絡之間的仔細實驗比較。我們發現深層模型并不總是有利的，截斷的深層模型幾乎總是産生最佳性能，特别是在資料差的制度中。

A multi-stage GAN for multi-organ chest X-ray image generation and segmentation

Authors Giorgio Ciano, Paolo Andreini, Tommaso Mazzierli, Monica Bianchini, Franco Scarselli

X射線圖像的多器官分割對于計算機輔助診斷系統具有基本重要性。然而，最先進的語義分割方法依賴于深度學習并且需要大量标記的圖像，這很少由于人力資源的高成本以及标記所需的時間而獲得。在本文中，我們介紹了一種基于生成的對抗網絡GAN的新型多階段生成算法，其可以與其語義标簽一起生産合成圖像，并且可以用于資料增強。該方法的主要特征是，與其他方法不同，生成在幾個階段發生，這簡化了過程，并允許它在非常小的資料集上使用。該方法已經在胸部放射線圖像的分割上進行了評估，呈現出有前途的結果。多級方法實作了現有技術，當使用極少的圖像來訓練GAN時，優于相應的單級方法。

Gaussian Mixture Estimation from Weighted Samples

Authors Daniel Frisch, Uwe D. Hanebeck

我們考慮估計高斯混合密度的參數，其具有最佳代表給定的一組權重樣品的元件數量。我們通過将它們視為具有權重組分的連續結構域的離散Dirac混合密度來采用樣品的密度解釋。是以，高斯混合拟合被視為密度重新近似。為了加速計算，提出了期望最大化方法，其不僅考慮了樣本位置，還考慮了相應的權重。結果表明，文獻的方法不正确地治療權重，導緻錯誤的估計。這是用簡單的反例來證明。所提出的方法在任何數量的尺寸下工作，該尺寸與用于未權重樣品的标準高斯混合估計相同的計算負載。

No Fear of Heterogeneity: Classifier Calibration for Federated Learning with Non-IID Data

Authors Mi Luo, Fei Chen, Dapeng Hu, Yifan Zhang, Jian Liang, Jiashi Feng

現實世界聯邦系統中教育訓練分類模型中的中央挑戰正在使用非IID資料學習。要應對這一點，現有的大多數作品都涉及在本地優化中強制正則化或在伺服器上提高模型聚合方案。其他作品還分享公共資料集或合成樣本，以補充所代表的課程的教育訓練或引入一定程度的個性化。雖然有效，但它們缺乏對資料異質性如何影響深度分類模型的每層的深刻了解。在本文中，我們通過對不同層學于學習的陳述進行實驗分析來彌合這種差距。我們的觀察結果令人驚訝地1在分類器中存在比其他層更大的偏差，并且通過在聯合訓練後校準分類器後，可以顯着改善分類性能。通過上述調查結果，我們提出了一種新穎的和簡單的算法，稱為分類器校準，虛拟表示CCVR，其使用從近似高斯混合模型采樣的虛拟表示調整分類器。實驗結果表明，CCVR在包括CIFAR 10，CIFAR 100和CICIC 10中的流行聯合學習基準上實作了最新的藝術表現狀态。我們希望我們的簡單而有效的方法能夠在未來對非IID資料的未來研究的闡明。。

It Takes Two to Tango: Mixup for Deep Metric Learning

Authors Shashanka Venkataramanan, Bill Psomas, Yannis Avrithis, Ewa Kijak, Laurent Amsaleg, Konstantinos Karantzalos

度量學習涉及學習歧視性表示，使得鼓勵類似課程的嵌入是關閉的，而不同的類别的嵌入是相距較遠的。最先進的方法主要關注複雜的損失功能或采礦政策。一方面，度量學習損失一次考慮兩個或更多個例子。另一方面，現代資料增強方法一次考慮兩個或更多示例。研究了兩種想法的組合。

Spatio-Temporal Dual-Stream Neural Network for Sequential Whole-Body PET Segmentation

Authors Kai Chieh Liang, Lei Bi, Ashnil Kumar, Michael Fulham, Jinman Kim

序貫全身18F氟脫氧葡萄糖FDG正電子發射斷層掃描PET掃描被認為是評估淋巴瘤中治療響應的選擇的成像模型，因為當解剖學成像可能沒有變化時檢測治療響應。全身寵物淋巴瘤的任何計算機化分析都需要自動分割研究，以便可以随時間定量監測疾病部位。藝術寵物圖像分割方法的狀态基于卷積神經網絡CNN，因為它們能夠利用帶注釋的資料集來導出關于疾病過程的進階特征。然而，這種方法專注于來自單個時間點的PET圖像并從其他掃描丢棄資訊或朝向特定器官靶向，并且不能迎合全身PET圖像中的多個結構。在這項研究中，我們提出了一個季度時間雙流神經網絡ST DSNN，以段序列整體寵物掃描。我們的ST DSNN學習并累積随時間完成的PET圖像的圖像特征。累積的圖像特征用于增強随時間一緻的器官結構，以便更容易地識别活性淋巴瘤的部位。我們的結果表明，我們的方法優于藝術寵物圖像分割方法的狀态。

Continuous-discrete multiple target tracking with out-of-sequence measurements

Authors ngel F. Garc a Fern ndez, Wei Yi

本文在連續時間内源于多個目标跟蹤的連續時間出來的最佳貝葉斯處理。我們考慮在連續時間内模組化的多目标系統，該系統在接收到根據标準點目标模型分布的測量時在時間步驟在時間步驟進行離散的。在采樣時間步驟中的所有關于該系統的資訊都是由所有軌迹集的後密度提供的。這種密度可以通過連續的離散軌迹泊松多Bernoulli混合物TPMBM濾波器來計算。當我們收到OOS測量時，最佳貝葉斯處理執行改造步驟，該轉換步驟在OOS測量時間戳下方添加軌迹資訊，然後是更新步驟。在OOS測量更新之後，後部保留在TPMBM形式中。我們還提供基于軌迹泊松多Bernoulli濾波器的計算方式替代品。通過模拟評估兩種處理OOS測量方法的方法的有效性。

Fast Computational Ghost Imaging using Unpaired Deep Learning and a Constrained Generative Adversarial Network

Authors Fatemeh Alishahi, Amirhossein Mohajerin Ariaei

未配對的教育訓練可以是基于快速深度學習的鬼成像的唯一選擇，其中獲得每個低SNR Ghost圖像的高信噪比SNR圖像副本可能是實際耗時和具有挑戰性的。本文探讨了深度學習的能力在缺乏配對訓練圖像時利用計算鬼成像。這裡提出的深度學習方法能夠通過使用受限制的Wassersein生成的對沖網絡從微弱和匆忙拍攝Ghost圖像重建高SNR圖像來快速鬼映像。在提出的方法中，客觀函數正規化，以強制生成忠誠和相關的高SNR圖像到鬼副本。該正則化測量由陰影網絡生成的低噪聲歧管中重建圖像和微弱重影圖像之間的距離。被限制網絡的性能顯示為具有低SNR的鬼圖像尤為重要。所提出的管道能夠從Ghost圖像重建高品質圖像，SNR值不一定等于訓練集的SNR。

Accelerating Neural Architecture Search via Proxy Data

Authors Byunggook Na, Jisoo Mok, Hyeokjun Choe, Sungroh Yoon

盡管對神經結構的興趣日益增加，但NAS的顯着計算成本是研究人員的障礙。是以，我們建議使用代理資料，即目标資料的代表子集來降低NAS的成本，而不會犧牲搜尋性能。盡管在各種領域使用了資料選擇，但我們對NAS Bench 1shot1提供的NAS算法的現有選擇方法的評估表明它們并不總是适用于NAS，并且需要新的選擇方法。通過通過資料熵分析使用各種選擇方法構造的代理資料，我們提出了一種針對NAS定制的新型代理資料選擇方法。為了憑經驗展示有效性，我們對各種資料集，搜尋空間和NAS算法進行了徹底的實驗。是以，NAS算法與所提出的選擇發現架構，這些架構與使用整個資料集獲得的架構具有競争力。它顯着降低了所提出的選擇的搜尋成本執行飛镖，在Cifar 10和7.5小時内隻需要40分鐘，在ImageNet上具有單個GPU。另外，當使用所提出的選擇上搜尋的架構上搜尋到圖中的架構倒到CiFar 10時，産生了2.4的最先進的測試誤差的狀态。我們的代碼可供選擇

Uncovering Closed-form Governing Equations of Nonlinear Dynamics from Videos

Authors Lele Luan, Yang Liu, Hao Sun

蒸餾來自資料的分析模型有可能推進我們對非線性動力學的了解和預測。盡管基于觀察到的系統狀态的控制方程的發現，但是，軌迹時間序列在廣泛的非線性動力學中揭示了成功，直接從原始視訊揭開封閉形式方程仍然是一個開放的挑戰。為此，我們介紹了一個新穎的端到結束無監督的深度學習架構，以發現揭示控制視訊中移動物體動态的方程的數學結構。這樣的架構由1個編碼器解碼器網絡組成，該編碼器解碼器網絡學習移動對象的低維空間像素坐标，2是從提取的空間像素坐标和動态的潛在實體狀态之間建立映射的學習空間實體轉換元件，以及3個數字基于內建器的稀疏回歸子產品，其揭示了學習實體狀态的管理方程的解析閉合形式，同時是對AutoEncoder的限制。通過揭示通過在視訊中移動對象所描繪的各種非線性動力系統的控制的控制方程來證明所提出的方法的功效。由此産生的計算架構可以在僅可用視訊的靈活和可通路的感測環境中發現解析解釋模型。

Ex uno plures: Splitting One Model into an Ensemble of Subnetworks

Authors Zhilu Zhang, Vianne R. Gao, Mert R. Sabuncu

Monte Carlo MC辍學是一種簡單而有效的合奏方法，可以提高高容量深度神經網絡模型的準确性和置信度校準。但是，MC辍學并不像更加計算的密集型方法，如深融合一樣有效。這種性能差距可以歸因于MC辍學集合中各個模型的品質相對較差及其缺乏多樣性。這些問題又可以追溯到耦合訓練和大量參數共享的辍學模型。通過這種觀點，我們提出了一種政策來計算子網的集合，每個政策對應于通過修剪政策計算的非重疊丢棄掩碼并獨立教育訓練。我們表明，所提出的子網合并方法可以在準确性和不确定性估算中執行和标準的深度內建，但具有類似于MC辍學的計算效率。最後，使用像CiFar10 100，Cub200和微小想象的多個電腦視覺資料集，我們通過實驗證明了Subnetworks合奏，最近還始終呈現出高效集合神經網絡的方法。

AdaMatch: A Unified Approach to Semi-Supervised Learning and Domain Adaptation

Authors David Berthelot, Rebecca Roelofs, Kihyuk Sohn, Nicholas Carlini, Alex Kurakin

我們将半監督學習擴充到域适應問題，以了解在一個資料分布上教育訓練的明顯更高的準确性模型和不同的準确性模型。憑借普遍的目标，我們介紹了模拟，這是一種統一無監督域适應的任務的方法，半監督學習SSL和半監督域适應SSDA。在一個廣泛的實驗研究中，我們将其與來自SSL，SSDA和UDA的各自的現有技術的行為進行比較，在視覺分類任務上。我們發現比對無論資料集或任務如何，都使用相同的超參數比對或顯着超過本領域的狀态。例如，與在DomainNet的UDA任務上的現有技術相比，模拟近似的準确性差異，甚至超過使用預訓練的先前現有技術的準确性，當模拟教育訓練完全從頭開始教育訓練。此外，通過從目标域的每個類與目标域的一個标記示例提供模拟，我們通過SSDA設定，通過額外的6.1增加目标精度，并且用5個标記的示例，13.6。

Tiplines to Combat Misinformation on Encrypted Platforms: A Case Study of the 2019 Indian Election on WhatsApp

Authors Ashkan Kazemi, Kiran Garimella, Gautam Kishore Shahi, Devin Gaffney, Scott A. Hale

WhatsApp是一個全球超過20億使用者使用的受歡迎聊天應用程式。但是，由于結束到結束加密，目前沒有簡單的方法可以在ScaleSapp上檢查内容。在本文中，我們分析了在WhatsApp上的人群源系統的有用性，使用者可以送出包含他們想要檢查的消息的提示。我們将發送到2019年印度全國選舉中的WhatsApp Tipline運作的提示與在同一時期内的WhatsApp和其他社交媒體平台上的大型公共集團傳播的資訊。我們發現，Tiplines是一個非常有用的鏡頭，進入WhatsApp對話的大部分消息和圖像發送到Tipline的圖像和圖像與在公共WhatsApp組和其他社交媒體上共享的内容。我們的分析還表明，Tiplines覆寫了最流行的内容，并且在出現大公共WhatsApp群體之前，大多數此類内容通常是分享到翻倍。總的來說，分析表明，Tiplines可以是發現内容以進行事實檢查的有效源。

OODIn: An Optimised On-Device Inference Framework for Heterogeneous Mobile Devices

Authors Stylianos I. Venieris, Ioannis Panopoulos, Iakovos S. Venieris

深度學習DL領域的激進進展導緻了不同推理任務的前所未有的準确性。是以，在移動平台上部署DL模型對于下一代智能應用程式的開發和廣泛可用性至關重要。然而，DL模型的廣泛和優化的部署目前受到移動裝置的廣大系統異質性的阻礙，不同DL模型的不同計算成本和DL應用中的性能需求的可變性。本文提出了OODIN，該架構是在異構移動裝置上進行了優化部署DL應用的架構。 OODIN包括一種新型DL特定軟體體系結構，以及用于模組化DL應用的分析架構，其通過高度參數化的多層設計和2對模型和系統級參數進行了原理優化的原因優化，實作了DL應用程式的分析架構。通過多目标配方，專為DL推理應用而設計，以便将部署調整到使用者指定的性能要求和裝置功能。定量評估表明，所提出的架構始終如一地優于異構裝置的狀态QUO設計，并分别提供高度優化平台和模型意識設計的高達4.3倍和3.5倍的性能增益，同時有效地調整了資源可用性的動态變化。

TED-net: Convolution-free T2T Vision Transformer-based Encoder-decoder Dilation network for Low-dose CT Denoising

Authors Dayang Wang, Zhan Wu, Hengyong Yu

低劑量計算斷層掃描是臨床應用的主流。與正常劑量CT相比，在低劑量CT LDCT圖像中，存在更強的噪音和更多的僞像，這是實際應用的障礙。在過去的幾年裡，基于卷積的結束到最終深度學習方法已被廣泛用于LDCT圖像去噪。最近，變壓器在具有更多功能互動的卷積方面表現出卓越的性能。然而，它在LDCT去噪中的AP斑層尚未完全培養。在這裡，我們提出了一種無卷積T2T視覺變壓器基于編碼器解碼器擴張網工作TED網來豐富LDCT去噪算法的系列。該模型沒有卷積塊，包括帶有唯一變壓器的對稱編碼器解碼器塊。我們的模型在AAPM Mayo診所LDCT Grand Challenge DataSet上進行了評估，結果表現出對現有的藝術發展方法的表現。

Densely connected normalizing flows

Authors Matej Grci , Ivan Grubi i , Sini a egvi

歸一化流量是輸入和潛在表示之間的映射映射，具有完全分解的分布。由于精确的似然評估和有效的抽樣，它們非常有吸引力。然而，由于殺矽限制限制了模型寬度，是以它們的有效容量通常不足。我們通過用噪音逐漸填充中間表示來解決這個問題。我們根據先前可逆的機關預處理噪聲，我們将其描述為交叉單元耦合。我們可逆發光，如子產品，表達内部仿射耦合作為密集連接配接的塊和NYSTR M自我關注的融合。我們将我們的架構引用為緻密流，因為交叉單元和内部單元聯軸器都依賴于密集的連接配接。實驗表現出由于拟議的貢獻而顯着改善，并在适度計算預算下揭示所有生成模型中的最新密度估算的狀态。

Self-Supervised Learning with Data Augmentations Provably Isolates Content from Style

Authors Julius von K gelgen, Yash Sharma, Luigi Gresele, Wieland Brendel, Bernhard Sch lkopf, Michel Besserve, Francesco Locatello

自我監督的代表學習在許多領域中表現出顯着的成功。常見做法是通過手工制作的轉換進行資料增強，旨在離開資料不變的語義。我們試圖從理論的角度來了解這種方法的經驗成功。通過将潛像元件的分區假設到内容元件将潛像元件的分區假設為增強，将增強過程作為潛在變量模型制定為潛在變量模型，這是允許改變的不變性的。與事先有關解剖和獨立分量分析的情況不同，我們允許在潛在空間中的非活動統計和因果依賴關系。我們研究了基于觀察的視圖的潛在表示的可識别性，并證明了足夠的條件，使我們能夠将不變内容分區識别到生成和識别設定中的可逆映射。我們發現具有依賴潛在變量的數值模拟與我們的理論一緻。最後，我們介紹了CareAl3dident，一個高維，視覺複雜圖像的資料集，具有豐富的因果依賴性，我們用于研究在實踐中進行的資料增強的影響。

XIRL: Cross-embodiment Inverse Reinforcement Learning

Authors Kevin Zakka, Andy Zeng, Pete Florence, Jonathan Tompson, Jeannette Bohg, Debidatta Dwibedi

我們調查了視覺橫跨實施例的模仿設定，其中代理商學習來自其他代理的視訊的政策，例如人類展示相同的任務，但在其實施例中具有缺點差異，在這項工作中，我們展示了在這項工作中的形狀，動作，終末效應器動态等。從橫跨實施例示範視訊可以自動發現和學習基于視覺的獎勵功能，這些視訊對這些差異很強。具體地，我們介紹了一種用于橫跨實施例的自我監督方法，其利用時間周期一緻性限制來學習從多個專家代理的示範的脫機視訊中捕獲任務進展的深度視覺嵌入，每個都是由于實施例差異而不同地執行相同的任務。在我們的工作之前，從自我監督嵌入産生獎勵通常需要與參考軌迹的對齊，這可能難以擷取。我們憑經驗表明，如果嵌入式了解任務進度，隻需在學習的嵌入空間中占據目前狀态和目标狀态之間的負距離是有用的，這是對教育訓練政策的教育訓練政策。我們發現我們的學習獎勵功能不僅适用于在訓練期間看到的實施例，而且還推廣到完全新的實施例。我們還發現，Xirl政策比基線更高效，并且在某些情況下，超過了與地面真理稀疏獎勵的相同藥劑的樣本效率。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩請移步首頁

pic from pexels.com

【AI視野·今日CV 計算機視覺論文速覽第217期】Thu, 10 Jun 2021

Daily Computer Vision Papers

繼續閱讀

基于ORB特征點比對的對極幾何限制實作（源碼+講解）

使用hector構圖_如何使用均衡的構圖拍攝更清晰的照片

GMS：基于網格運動統計的快速極度魯棒的特征比對摘要1 簡介2 本文的方法3 應用于快速記分的網格架構4 實驗 5 結論

如何使用前景和背景建立更清晰的照片

在Ubuntu16.04上提取相鄰序列圖像之間的ORB的特征點，并用暴力方法找到比對點并連線一、什麼是ORB特征二、什麼是暴力比對三、實作代碼四、運作方法

Matlab中将二維灰階圖像三維顯示

Linux下安裝OpenCV 3.0

車道線檢測

自監督｜「CoCLR」視訊自監督對比學習筆記

Holistically-Nested Edge Detection讀書筆記

視訊對象分割（Video Object Segmentation）研究小記任務定義與資料集技術路線分類基于神經網絡的模型總結

opencv視覺跟蹤——消除背景模組化

圖形處理單元(GPU)的演進

2021-09-30三維點雲測量正方形包裹體積

DOG算子

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

【AI視野·今日CV 計算機視覺論文速覽 第217期】Thu, 10 Jun 2021

Daily Computer Vision Papers

繼續閱讀

【AI視野·今日CV 計算機視覺論文速覽第217期】Thu, 10 Jun 2021