【AI視野·今日CV 計算機視覺論文速覽第194期】Mon, 10 May 2021

AI視野·今日CS.CV 計算機視覺論文速覽

Mon, 10 May 2021

Totally 54 papers

👉上期速覽✈更多精彩請移步首頁

Interesting:

📚*****NTIRE 2021, 總結！(from cvpr2012)

web:https://data.vision.ee.ethz.ch/cvl/ntire21/

*****📚基于transformer的端到端多目标跟蹤技術, (from 曠視)

【AI視野·今日CV 計算機視覺論文速覽第194期】Mon, 10 May 2021

code: https://github.com/megvii-model/MOTR

*****📚ResMPL, 一種基于殘差多層感覺機的新型網絡 (from Facebook)

【AI視野·今日CV 計算機視覺論文速覽第194期】Mon, 10 May 2021

*****📚Salient Objects in Clutter, 遮擋物的顯著性檢測資料集(from 南開程明明課題組 TPAMI)

【AI視野·今日CV 計算機視覺論文速覽第194期】Mon, 10 May 2021

文章中對于顯著性檢測算法和資料集有非常豐富的總結, 寫作方法和論文結構值得借鑒

link：http://dpfan.net/SOCBenchmark/

📚NeRD, 基于神經網絡和幾何模組化的的對稱性檢測 (from 伯克利)

【AI視野·今日CV 計算機視覺論文速覽第194期】Mon, 10 May 2021

link: https://github.com/zhou13/nerd

📚三維點雲包絡重建, (from 慕尼黑大學LMU)

【AI視野·今日CV 計算機視覺論文速覽第194期】Mon, 10 May 2021

***📚微生物目标檢測和圖像分析技術綜述, (from 東北大學)

【AI視野·今日CV 計算機視覺論文速覽第194期】Mon, 10 May 2021

📚螃蟹檢測,海底找螃蟹 (from 英國南安普頓大學)

【AI視野·今日CV 計算機視覺論文速覽第194期】Mon, 10 May 2021

📚sky image 和太陽輻射值資料集, (from ETHz)

【AI視野·今日CV 計算機視覺論文速覽第194期】Mon, 10 May 2021

dataset： https://github.com/vglsd/SkyCam

📚基于sky image的短時天氣預報, (from 奧地利克拉根福阿爾卑斯-亞德裡大學 )

【AI視野·今日CV 計算機視覺論文速覽第194期】Mon, 10 May 2021

dataset：

1 https://maps.nrel.gov/nsrdb-viewer/

2 https://midcdmz.nrel.gov/apps/sitehome.pl?site=OAHUGRID

3 https://www.esrl.noaa.gov/gmd/grad/surfrad/dataplot.html

4 http://www.soda-pro.com/web-services

5 http://https://dds.cr.usgs.gov/srtm/

📚基于掃描點雲的棚戶區形态學分析

【AI視野·今日CV 計算機視覺論文速覽第194期】Mon, 10 May 2021

dataset: https://www.brtech3d.com.br/

Daily Computer Vision Papers

ResMLP: Feedforward networks for image classification with data-efficient training

Authors Hugo Touvron, Piotr Bojanowski, Mathilde Caron, Matthieu Cord, Alaaeldin El Nouby, Edouard Grave, Armand Joulin, Gabriel Synnaeve, Jakob Verbeek, Herv J gou

我們呈現RESMLP，這是一個完全基于多層Perceptrons的架構進行圖像分類。它是一種簡單的殘餘網絡，其替換I一種線性層，其中圖像更新檔在通道上獨立地且相同地互相作用，并且II在每個貼片中獨立地互相互動的兩層饋送前進網絡。使用繁重的資料增強和任選地蒸餾有現代教育訓練政策教育訓練時，它可以在想象中獲得驚人的良好精度複雜性貿易。我們将根據Timm Library和預訓練模型分享我們的代碼。

Foreground-guided Facial Inpainting with Fidelity Preservation

Authors Jireh Jam, Connah Kendrick, Vincent Drouard, Kevin Walker, Moi Hoon Yap

面部圖像染色，具有高保真儲存的圖像現實主義，是一個非常具有挑戰性的任務。這是由于關鍵面部特征元件的微妙紋理，這些元件不易轉移。已經提出了許多圖像染色技術，具有出色的能力和記錄的高量值性能。然而，通過面部染色，特征更加顯着，混合的染色區域的視覺品質更為重要。基于這些事實，我們設計了一種前景導遊的面部染色架構，可以使用卷積神經網絡層提取和産生面部特征。它介紹了前景分割面罩的使用以保持保真度。具體而言，我們提出了一種新的損失功能，具有面部表情的語義能力推理，自然和不自然的特征構成。我們使用Celeba HQ資料集進行實驗，來自Celebamask總部的分段掩碼，用于前景指導和缺失區域的快速繪制蒙版。我們所提出的方法在與現有技術相比但定性時，實作了類似的定量結果，展示了面部部件的高保真儲存。

Exploring Instance Relations for Unsupervised Feature Embedding

Authors Yifei Zhang, Yu Zhou, Weiping Wang

盡管在無監督的功能嵌入方面取得了巨大進展，但現有的對比學習方法通常通過吸引積極樣本對和在嵌入空間中排斥負樣品對來追求不變的表示，同時忽略系統地探索執行個體關系。在本文中，我們探讨了執行個體關系，包括用于無監督功能嵌入的IntraIntual Multi View關系和Inter執行個體内插關系。具體地，我們通過對準執行個體S不同增強樣本和負樣本之間的距離的分布來嵌入内部執行個體多視圖關系。我們通過将圖像樣本插值的資訊與從像素空間傳送到特征嵌入空間來探索Inter執行個體插值關系。所提出的方法稱為EIR，簡單而且有效，并且可以輕松插入現有的視圖不變的對比基于學習的方法。對圖像分類和檢索報告最新狀态或可比性的公共基準測試的實驗。

Towards Real-World Category-level Articulation Pose Estimation

Authors Liu Liu, Han Xue, Wenqiang Xu, Haoyuan Fu, Cewu Lu

人類的生命被鉸接物填充。目前類别級化剖形姿勢估計CAPE方法在單個執行個體設定下進行了針對每個類别的固定運動結構進行研究。考慮到這些限制，我們改革了真實世界環境的這個問題設定，并建議了Cape Real Caper任務設定。此設定允許在語義類别中的各種運動結構，以及在現實世界的觀察中存在多個執行個體。為了支援此任務，我們建構了一個鉸接式模型存儲庫後部48并呈現了一個有效的資料集生成管道，其中包含快速鉸接的對象模組化Faom和半正宗混合現實技術Samert。伴随管道，我們建構了一個大規模混合現實資料集後退和Rearttval。我們還提出了一種有效的架構Reartnoc，該架構Reartnocs利用RGB D輸入來估算單個前向通過中多個執行個體的零件級别姿勢。廣泛的實驗表明，所提出的Resttnocs可以在普通帽和鬥篷設定上實作良好的性能。我們認為它可以作為普通任務的未來研究的強大基準。

MOTR: End-to-End Multiple-Object Tracking with TRansformer

Authors Fangao Zeng, Bin Dong, Tiancai Wang, Cheng Chen, Xiangyu Zhang, Yichen Wei

多目标跟蹤MOT任務中的關鍵挑戰是軌道下對象的時間模組化。通過檢測方法現有的跟蹤采用簡單的啟發式，例如空間或外觀相似性。盡管它們的共性，這種方法是過于簡單且不足地模拟複雜變化，例如通過遮擋跟蹤。本質上，現有方法缺乏學習與資料的時間變化的能力。在本文中，我們呈現MOTR，第一個完全結束到結束多個對象跟蹤架構。它學會模拟對象的長距離時間變量。它隐含地執行時間關聯，并避免以前的顯式啟發式。基于變壓器和DETR，MOTR介紹了軌道查詢的概念。每個軌道查詢模拟整個對象的軌道。它通過幀傳送和更新幀，以無縫方式執行對象檢測和跟蹤。建議将時間聚合網絡與多幀訓練相結合，以模拟遠端時間關系。實驗結果表明，MOTR實作了現有性能的狀态。代碼可用

Adaptive Focus for Efficient Video Recognition

Authors Yulin Wang, Zhaoxi Chen, Haojun Jiang, Shiji Song, Yizeng Han, Gao Huang

在本文中，我們探讨了視訊識别中的空間備援，旨在提高計算效率。觀察到視訊的每個幀中最具資訊豐富的區域通常是一個小圖像貼片，其在幀上平滑地移動。是以，我們将更新檔定位問題模拟作為順序決策任務，并提出了一種基于加強學習的方法，用于高效的空間自适應視訊識别Adafocus。具體而言，首先采用光權重ConvNet來快速處理完整的視訊序列，其功能由經常性政策網絡本地化最多的相關區域。然後通過用于最終預測的高容量網絡推斷出所選擇的貼片。在離線推斷過程中，一旦生成了資訊性修補程式序列，可以并行完成大量計算，并且在現代GPU裝置上是有效的。另外，我們證明了所提出的方法可以通過進一步考慮時間備援，例如，動态跳過更少的有價值幀來容易地擴充。關于五個基準資料集，即ActivityNet，FCVID，Mini動力學，一些V1 V2的大量實驗表明，我們的方法比競争基線更有效。代碼将可用

Mini-batch graphs for robust image classification

Authors Arnab Kumar Mondal, Vineet Jain, Kaleem Siddiqi

計算機視覺中的分類任務的目前深度學習模型使用迷你批次教育訓練。在本文中，我們利用了使用圖形神經網絡在迷你批進行中的樣本之間的關系來聚合來自類似圖像的資訊。這有助于減輕改變對分類性能的輸入圖像的不利影響。在基于圖像的物體和場景分類上的不同實驗表明，這種方法不僅提高了分類器的性能，而且增加了對圖像擾動和對抗攻擊的魯棒性。此外，我們還表明，迷你批量圖神經網絡可以有助于緩解生成對抗網絡中的模式崩潰問題。

Towards Accurate Text-based Image Captioning with Content Diversity Exploration

Authors Guanghui Xu, Shuaicheng Niu, Mingkui Tan, Yucheng Luo, Qing Du, Qi Wu

基于文本的圖像标題TextCAP，其旨在閱讀和具有文本的圖像對機器來說是一個對了解詳細和複雜的場景環境的機器，考慮到日常生活中的全部。然而，這項任務非常具有挑戰性，因為圖像通常包含複雜的文本和難以全面描述的視覺資訊。現有方法嘗試擴充傳統的圖像标題方法來解決此任務，專注于描述一個全局标題的圖像整體場景。這是不可行的，因為在一個字幕中，不能良好描述複雜的文本和可視資訊。為了解決這個困難，我們尋求生成一系列準确描述圖像的不同部分的标題。為實作此目的，有三個關鍵挑戰1，很難确定要複制或解釋2的圖像文本的部分，是以捕獲圖像3中不同文本之間的複雜關系是如何生成多個标題的不同的内容仍然是一個公開問題。為了征服這些，我們提出了一種新穎的錨标題方法。具體來說，我們首先找到應該得到更多關注的重要令牌，并将它們視為錨點。然後，對于每個所選擇的錨定，我們将其相關文本分組以構造相應的錨點居中圖ACG。最後，基于不同的ACG，我們進行多視圖字幕生成，以改善生成标題的内容分集。實驗結果表明，我們的方法不僅達到了SOTA性能，還可以生成不同的标題來描述圖像。

Favelas 4D: Scalable methods for morphology analysis of informal settlements using terrestrial laser scanning data

Authors Arianna Salazar Miranda, Guangyu Du, Claire Gorman, Fabio Duarte, Washington Fajardo, Carlo Ratti

十億人生活在全球的非正式定居點。複雜和多層空間，表征了這種無計劃的城市化形式的挑戰對傳統的繪圖和形态分析的方法構成挑戰。本研究提出了一種方法來研究基于地面LIDAR光探測和羅西島，巴西裡約熱内盧最大的Favela收集的陸地潮汐光檢測和測距資料的形态學性能。我們的分析在兩項決議下運作，包括EMPH全球分析，專注于将Favela的不同街道互相比較，以及揭開街道内形态學名額的變化的局部分析。我們表明我們的方法論在街道上的全球形态特征和當地分布方面都揭示了有意義的差異和共性。最後，我們在LIDAR資料中建立了高空間分辨率的形态圖，可以為城市規劃評估與福管中擁擠，結構安全，空氣品質和可通路性有關。本研究的方法是自動的，可以很容易地擴充以分析整個非正式的結算，利用諸如手機等便攜式裝置上的廉價LIDAR掃描器的增加的可用性。

Regression on Deep Visual Features using Artificial Neural Networks (ANNs) to Predict Hydraulic Blockage at Culverts

Authors Umair Iqbal, Johan Barthelemy, Wanqing Li, Pascal Perez

交叉排水液壓結構I.，涵洞，城市景觀中的橋梁易于被運輸的碎片阻擋，這通常會導緻閃蒸洪水。在澳洲的背景下，卧龍崗市議會WCC阻止導管政策是唯一需要在設計過程中堵塞的正式指導方針。但是，許多人認為這一政策是基于普通洪水的視覺檢查，是以不能被認為是液壓阻塞的準确表示。由于這争議，視覺堵塞和液壓堵塞被認為是兩個不同的術語，而且兩者之間沒有建立的可量化關系。本文試圖通過提出在給定涵洞的液壓堵塞預測液壓阻塞的深度視覺特征來改變兩種術語。将終端機器學習管道的結束占據了涵洞作為輸入的圖像，使用深度學習模型提取視覺特征，預先處理視覺特征并進入回歸模型以預測相應的液壓堵塞。 DataSet I.e.，水文實驗室資料集HD，在本研究中使用的Visual Hydology Lab資料集VHD從使用尺度複制的涵洞的尺度的實體模型進行的實驗室實驗中收集了該研究的實驗室實驗。使用标準評估度量評估回歸模型的性能。此外，根據模型和硬體需求分析的相對比較，評估整體機器學習管道的性能。從MobileNet中使用的結果，提取的視覺特征實作了最佳回歸性能，R 2得分為0.7855。 R 2得分的正值表明了視覺特征與液壓阻塞之間的相關性，并建議兩者都可以互相互相關聯。

Automating Visual Blockage Classification of Culverts with Deep Learning

Authors Umair Iqbal, Johan Barthelemy, Wanqing Li, Pascal Perez

通過運輸的碎片材料堵塞涵洞作為主要貢獻者源于城市閃現洪水。傳統的模組化方法在很大程度上沒有成功地解決了問題，因為峰值洪水液壓資料和抑制碎片的高度線性行為的不可用。本文探讨了一個新的次元來調查問題，提議使用智能視訊分析IVA算法來提取堵塞相關資訊。使用現有卷積神經網絡CNN算法IE，DAMIDNET53，DENSENET121，InceptionResNetv2，Inceptionv3，MobileNet，Reset50，VGG16，WefferenceNetB3，NASNet進行研究，IE，涵洞開放的圖像和阻塞ICOB以預測阻塞給定的圖像。基于對測試資料集的性能進行評估模型，即，準确性，丢失，精度，召回，F1分數，Jaccard索引，每秒拖出的浮點操作以及響應時間來處理單個測試執行個體。從結果中，NASNET在分類堵塞時最有效地分類為85的準确性，但是，建議為硬體實作而建議有效，因為其具有與NASNet I.E.，83相當的準确性的改進的響應時間。假陰性FN執行個體，假陽性FP執行個體和CNN層激活表明，背景噪聲和超薄标記标準是現有CNN算法的降低性能的兩個貢獻因素。

NeRD: Neural 3D Reflection Symmetry Detector

Authors Yichao Zhou, Shichen Liu, Yi Ma

最近的進展表明，對稱性，在大多數物體展覽之前的結構，可以支援各種單視圖3D了解任務。然而，檢測來自圖像的3D對稱仍然是一個具有挑戰性的任務。以前的作品假設給出了對稱性或通過基于啟發式方法檢測對稱性的。在本文中，我們呈現Nerd，一種神經3D反射對稱檢測器，其結合了基于學習的識别和基于幾何重建的強度，以精确地恢複物體鏡面平面的法線方向。具體地，我們首先用粗略政策枚舉對稱平面，然後通過建立3D成本卷來查找最佳的政策，以檢查與對稱性的圖像内圖像像素對應關系。我們的實驗表明，通過在合成和現實世界資料集中的直接CNN回歸的平面，通過我們的方法檢測到的對稱平面明顯更準确。我們還證明，檢測到的對稱性可用于改善下遊任務的性能，例如姿勢估計和深度映射回歸。本文的代碼已公開

A^2-FPN: Attention Aggregation based Feature Pyramid Network for Instance Segmentation

Authors Miao Hu, Yali Li, Lu Fang, Shengjin Wang

學習金字塔特征表示對于識别不同尺度的對象執行個體至關重要。特征金字塔網絡FPN是經典的架構，用于建構具有進階語義的特征金字塔。然而，特征提取和融合中的内在缺陷抑制FPN進一步聚集更多辨識特征。在這項工作中，我們提出了關注的基于聚合的特征金字塔網絡A 2 FPN，通過注意引導特征聚合來改善多尺度特征學習。在特征提取中，它通過收集分布多級全局上下文特征來提取識别特征，并降低由于速度較小的通道引起的語義資訊丢失。在特征融合中，它聚合來自相鄰功能的互補資訊，以生成用于内容感覺采樣的位置明智的重新組裝核心，并采用頻道明智重新重量來增強元素明智添加之前的語義一緻性。 2 FPN顯示不同執行個體分段架構的一緻增益。通過将FPN用2 FPN替換為Mask R CNN，當使用Reset 50和Reset 101作為骨幹時，我們的模型将在2.1和1.6掩模AP中提高了表現。此外，在內建到諸如級聯掩模R CNN和混合任務級聯等強基線時，2 FPN實作了2.0和1.4掩模AP的改進。

Autoencoder Based Inter-Vehicle Generalization for In-Cabin Occupant Classification

Authors Steve Dias Da Cruz, Bertram Taetz, Oliver Wasenm ller, Thomas Stifter, Didier Stricker

常見域移位問題配方考慮在教育訓練期間的多個源域或目标域的內建。關于不同汽車内飾之間的機器學習模型的概括，我們制定單個車輛中訓練的标準，無需通路車輛的目标分布，該模型将在訓練期間可以通路多輛車輛。我們對背景替補的乘員分類進行了對SVIRO資料集的調查，并提出了一種基于自動化的方法來提高可轉移性。當從頭開始教育訓練時，AutoEncoder符合常用的分類模型，有時突出執行預先教育訓練的模型在大量資料上。此外，AutoEncoder可以将來自未知車輛的圖像轉換為教育訓練的車輛。這些結果通過來自兩個車輛内部的真實紅外圖像的評估來證明。

Adv-Makeup: A New Imperceptible and Transferable Attack on Face Recognition

Authors Bangjie Yin, Wenxuan Wang, Taiping Yao, Junfeng Guo, Zelun Kong, Shouhong Ding, Jilin Li, Cong Liu

已經顯示出深度神經網絡，特别是面部識别模型，易受數字和實體對抗的例子。然而，針對面部識别系統的現有的對抗例缺乏對黑匣子模型的可轉移性，或者無法在實踐中實施。在本文中，我們提出了一個統一的對抗性面部生成方法ADV化妝，這可以在黑匣子環境下實作難以置信和可轉移的攻擊。 ADV化妝開發了一個任務驅動的化妝方法，其中混合子產品将難以察覺的眼影合成在臉上的軌道區域。為了實作可轉移性，Adv化妝實作了一個細粒度的Meta學習對抗攻擊戰略，以了解各種型号的更多普遍攻擊功能。與現有技術相比，足夠的可視化結果表明，ADV化妝能夠在數字和實體方案下産生更不可察覺的攻擊。同時，廣泛的定量實驗表明，ADV化妝可以顯着提高黑匣子環境下的攻擊成功率，甚至攻擊商業系統。

More Separable and Easier to Segment: A Cluster Alignment Method for Cross-Domain Semantic Segmentation

Authors Shuang Wang, Dong Zhao, Yi Li, Chi Zhang, Yuwei Guo, Qi Zang, Biao Hou, Licheng Jiao

域之間的特征對齊是無監督域适應UDA語義分段的主流方法之一。對于語義分割的現有特征對齊方法通過對抗訓練來學習域不變特征以減少域差異，但它們具有兩個限制1，像素之間的一個關聯，2在源域上訓練的分類器可能很好地适應目标。在本文中，我們提出了一種基于領域親密假設的新的UDA語義分割方法，以減輕上述問題。具體地，将原型聚類政策應用于具有相同語義的叢集像素，這将在特征對準期間更好地維護目标域像素之間的關聯。在聚類之後，為了使分類器更自适應，利用基于目标域的親和性曲線圖的歸一化切割損耗，這将使特定于決策邊界目标。在GTA5 Rightarrow Citycapes和Synthia Rightarow Citycapes上進行了足夠的實驗證明了我們方法的有效性，這表明我們的結果實作了最新的現有技術。

A State-of-the-art Survey of Object Detection Techniques in Microorganism Image Analysis: from Traditional Image Processing and Classical Machine Learning to Current Deep Convolutional Neural Networks and Potential Visual Transformers

Authors Chen Li, Pingli Ma, Md Mamunur Rahaman, Yudong Yao, Jiawei Zhang, Shuojia Zou, Xin Zhao, Marcin Grzegorzek

微生物在人類生命中發揮着至關重要的作用。是以，微生物檢測對人類具有重要意義。然而，傳統的手動微觀檢測方法具有長檢測周期的缺點，較低的檢測精度低，檢測罕見的微生物很大。是以，将計算機圖像分析技術應用于微生物檢測領域是有意義的。計算機圖像分析可以實作高精度和高效率檢測微生物。在本綜述中，首先，我們以時間順序分析現有的微生物檢測方法，從傳統的圖像處理和傳統機器學習到深度學習方法。然後，我們分析和總結這些現有方法并引入一些潛在的方法，包括可視變壓器。最後，讨論了微生物檢測的未來發展方向和挑戰。一般來說，我們總結了1985年的137個相關的技術檔案至現在。該審查将幫助研究人員更全面地了解微生物檢測領域的開發過程，研究現狀和未來趨勢，并為其他領域的研究人員提供參考。

An Intelligent Passive Food Intake Assessment System with Egocentric Cameras

Authors Frank Po Wen Lo, Modou L Jobarteh, Yingnan Sun, Jianing Qiu, Shuo Jiang, Gary Frost, Benny Lo

營養不良是低收入和中等收入國家的主要公共衛生問題。了解社群，家庭和個人的食物和營養攝入量對衛生政策和幹預措施的發展至關重要。為了簡化開展大規模膳食評估的程式，我們建議通過在加納和烏幹達的家庭專用的自我監視錄影機實作智能被動食品攝入評估系統。首先設計算法以删除備援圖像以最小化存儲存儲器。在運作時，基于深度學習的語義分割應用于識别多種食物類型，并提取新設計的手工特征以進一步消耗的食物重量監測。進行綜合實驗，以驗證我們在捕獲的網站集中捕獲的網站集的方法，這些設定與加納和肯亞原産地區的參與者進行了普通的加納肯亞菜肴的獨特LMIC條件。為了展示效力，經驗豐富的營養師參與該研究以進行視覺部分大小估計，并且将其預測與我們所提出的方法進行比較。有希望的結果表明，我們的方法能夠可靠地監測食物攝入，并對使用者進食行為提供回報，為正常飲食評估提供營養師的指導。

Probabilistic Ranking-Aware Ensembles for Enhanced Object Detections

Authors Mingyuan Mao, Baochang Zhang, David Doermann, Jie Guo, Shumin Han, Yuan Feng, Xiaodi Wang, Errui Ding

模型集合成為改善為單個檢測器已經優化的對象檢測性能的最有效的方法之一。正常方法直接熔斷邊界盒，但通常無法考慮在組合探測器時的提案品質。這導緻了對探測器合并的置信性的新問題。信心對單次探測器影響不大，但顯着影響探測器集合。為了解決這個問題，我們提出了一個名為機率排名的新穎的合奏，稱為探測器的束縛箱的置信度。通過同時考慮同一驗證集上的類别和位置，我們基于統計機率獲得更可靠的置信度。然後，我們可以對檢測到的綁定框進行排序組裝。我們還介紹了一種強盜方法來解決所造成的置信不平衡問題，以處理不同置信水準的不同數量的盒子。我們使用基于PRAE的非最大抑制P nms來替換集合學習中的傳統NMS方法。 Pascal VOC和Coco2017資料集上的實驗表明，我們的PRAE方法通過顯着的邊緣來始終如一地優于現有技術的狀态。

Interpretable Social Anchors for Human Trajectory Forecasting in Crowds

Authors Parth Kothari, Brian Sifringer, Alexandre Alahi

人類軌迹預測在人群中，其核心是一個序列預測問題，具有捕獲序列依賴性社交互動的具體挑戰，進而預測社會相容的多峰分布。近年來，已顯示基于神經網絡的方法對基于距離的名額來說傾斜的手工制作方法。然而，這些資料驅動方法仍然遭受一個至關重要的限制缺乏可解釋性。為了克服這種限制，我們利用離散選擇模型的力量來學習基于可解釋的規則的意圖，随後利用神經網絡的表現性來模拟場景特定的殘差。互動中心基準Trajnet的廣泛實驗展示了我們所提出的架構的有效性，以解釋其預測而不會影響精度。

Neural 3D Scene Compression via Model Compression

Authors Berivan Isik

渲染3D場景需要通路場景的任意視點。這種3D場景的存儲可以以兩種方式完成1存儲從3D場景拍攝的2D圖像，該圖像可以通過插值重建場景，或者2存儲已經從所有方向編碼視圖的3D場景本身的表示。到目前為止，傳統的3D壓縮方法專注于第一類存儲，并通過圖像壓縮技術壓縮原始的2D圖像。利用這種方法，使用者首先對存儲的2D圖像進行解碼，然後呈現3D場景。然而，由于必須存儲大量的2D圖像，是以該分離的過程效率低下。在這項工作中，我們采取了不同的方法并壓縮了3D場景的功能表示。特别是，我們介紹一種方法來通過壓縮代表場景的神經網絡來壓縮3D場景作為神經輻射場。我們的方法提供了3D場景的更有效存儲，因為當我們從神經功能表示時，它不會存儲備援的2D圖像。

Contrastive Learning for Unsupervised Image-to-Image Translation

Authors Hanbit Lee, Jinseok Seol, Sang goo Lee

圖像到圖像翻譯的旨在學習不同群體的視覺可區分圖像之間的映射。雖然最近的方法表明了令人印象深刻的改變圖像的複雜外觀的能力，但它們仍然依賴于教育訓練模型來區分不同的視覺特征。這種對标簽的這種依賴性通常會顯着限制應用範圍，因為一緻和高品質的标簽昂貴。相反，我們希望捕獲圖像本身的視覺功能，并應用它們以實作現實翻譯，而不會生成的标簽。為此，我們向基于對比學習的圖像翻譯方法提出了一個無監督的圖像。關鍵的想法是學習一個區分的鑒别者，這些判别者區分了獨特風格，讓鑒别者監督發電機以在圖像上傳輸這些樣式。在教育訓練期間，我們随機地樣本一對圖像并訓練發電機，以在保持原始結構的同時将一個朝向另一個圖像的外觀。實驗結果表明，我們的方法在視覺品質和翻譯準确性方面優于領先的無監督基線。

Probabilistic Visual Place Recognition for Hierarchical Localization

Authors Ming Xu, Niko S nderhauf, Michael Milford

視覺本地化技術通常包括分層定位流水線，其視覺放置識别子產品用作粗定定型器以初始化姿勢細化階段。雖然提高了姿勢細化步驟一直是最近研究的重點，但大多數在粗糙定位階段的工作都集中在改進等于外觀變化的不變性，而不會改善可能松動的誤差容差。在這封信中，我們提出了兩種方法，該方法适應用于視覺地位識别的圖像檢索技術，以識别貝葉斯狀态估計用于本地化。我們用途證明了利用我們的方法對粗糙定位階段的定位精度進行了顯着改進，而在嚴重的外觀變化下保持最先進的技術性能。在牛津機器人資料集上使用廣泛的實驗，結果表明，我們的方法在精确召回了本地化圖像序列的精确召回性能方面優于現有技術的相當狀态。此外，我們提出的方法提供了對上下文規模定位延遲的靈活性，以實作這些改進。改進的初始本地化估計估計開辟了改進的整體定位性能和改進的姿勢細化技術的可能性，這些技術利用了這種改進的空間。

Human Object Interaction Detection using Two-Direction Spatial Enhancement and Exclusive Object Prior

Authors Lu Liu, Robby T. Tan

人體對象互動Hoi檢測旨在檢測人體和物體之間的視覺關系。 Hoi檢測的一個重大問題是非互動式人體對象對可以容易地分組并被錯誤分類為動作，尤其是當人類靠近并在場景中執行類似的動作時。為了解決MIS分組問題，我們提出了一種空間增強方法，以在人體部位到物體中心的兩個方向上強制實施細水位空間限制，以及從物體部門到人類中心的物體部分。在推理時，我們提出了一種通過考慮動作的對象專用屬性來提出人類對象重新組合方法，其中目标對象不應由多于一個人共享。通過抑制非互動式對，我們的方法可以降低誤報。 V Coco和HiCO DEC資料集的實驗證明了我們的方法與現有的現有方法在現場存在的存在下的現有方法比較更加強大。

Toward Interactive Modulation for Photo-Realistic Image Restoration

Authors Haoming Cai, Jingwen He, Qiao Yu, Chao Dong

調制圖像恢複水準旨在通過改變表示恢複強度的因子來生成恢複的圖像。以前的作品主要集中在優化平均平方重建誤差，這帶來了高重建精度，但缺乏更精細的紋理細節。本文介紹了一個可控的UNET生成的敵對網絡Cugan，用于在調制任務中産生高頻紋理。 CUGAN由兩個子產品基礎網絡和條件網絡組成。基礎網絡包括發電機和鑒别器。在發電機中，我們通過在UNET架構中調整不同尺度的不同特征的權重來實作恢複水準的互動式控制。此外，我們根據降解的嚴重程度自适應地調制鑒别器中的中間特征。條件網絡接受條件向量編碼的劣化資訊作為輸入，然後為發電機和鑒别器生成調制參數。在測試期間，使用者可以通過調整條件向量來控制輸出效果。我們還通過簡單的轉換方法提供GaN和MSE效果之間的平滑過渡。廣泛的實驗表明，拟議的CUGAN在圖像恢複調制任務上實作了出色的性能。

Self-paced Resistance Learning against Overfitting on Noisy Labels

Authors Xiaoshuang Shi, Zhenhua Guo, Fuyong Xing, Yun Liang, Xiaofeng Zhu

由正确和損壞的标簽組成的嘈雜标簽在實踐中是普遍存在的。它們可能會顯着惡化卷積神經網絡CNN的性能，因為CNNS在損壞的标簽上很容易被接收。為了解決這個問題，受到觀察的啟發，深度神經網絡可能首先記住可能是正确的标簽資料，然後是腐敗的标簽樣本，我們提出了一種新穎但簡單的自定位阻力架構來抵抗損壞的标簽，而無需使用任何清潔驗證資料。拟議的架構首先利用CNN的記憶效果來學習課程，其中包含自信的樣本，并為其他教育訓練樣本提供有意義的監督。然後，它采用所選的自信樣本和提出的電阻損失來更新模型參數，電阻損耗傾向于平滑模型參數更新或對每個類進行等效預測，進而抵制損壞的标簽上的模型過度拟合。最後，我們将這兩個子產品統一到單個損失函數并在替代學習中優化它。廣泛的實驗表明，在嘈雜的标簽資料上最近的最新技術架構的顯着優異的性能。可以使用所提出的方法的源代碼

Few-Shot Learning for Image Classification of Common Flora

Authors Joshua Ball

在幾個拍攝圖像分類的任務中使用Meta學習和轉移學習是一個良好的研究區域，許多論文展示了在資料豐富的情況下展示了在Meta學習的轉移學習的優勢，并且對計算資源沒有重大限制。在本文中，我們将展示我們的實驗結果，從測試各種藝術狀态的傳輸學習權重和架構相對于圖像分類的Meta學習領域的類似狀态，利用模型不可知的元學習MAML。我們的結果表明，兩種實踐都提供了足夠的性能，當資料集足夠大時，它們也在引入資料稀疏性以保持足夠性能時掙紮。使用圖像增強和超公共表的微調，适度減少了這個問題。在本文中，我們将讨論1我們開發強大的多級卷積神經網絡CNN的過程，用于幾個拍攝圖像分類的任務，2表明轉移學習是當資料集大而且時，轉移學習是幫助建立圖像分類模型的優越方法3在資料非常有限的情況下，MAML優于轉移學習。該代碼可在此處提供

Salient Objects in Clutter

Authors Deng Ping Fan, Jing Zhang, Gang Xu, Ming Ming Cheng, Ling Shao

本文識别并解決了現有突出對象檢測SOD資料集的嚴重設計偏差，這使得每個圖像應至少包含一個清晰且整潔的突出物體。當在現有資料集上評估時，這種設計偏差導緻了ART SOD模型狀态的性能飽和度。然而，當應用于現實世界場景時，這些模型仍然遠非令人滿意。根據我們的分析，我們提出了一個新的高品質資料集并更新先前的顯着基準。具體來說，我們的資料集是Clutter SoC中的突出對象，包括來自幾個常見對象類别的突出和非突出對象的圖像。除了對象類别注釋之外，每個突出圖像還伴随着反映現實世界場景中共同挑戰的屬性，這有助于深入了解SOD問題。此外，通過給定的顯着性編碼器，例如骨幹網絡，現有的顯着模型被設計為實作從訓練圖像設定到訓練地面真理集的映射。是以，我們争辯說，改進資料集可以産生比僅在解碼器設計上關注更高的性能提升。考慮到這一點，我們調查了幾個資料集增強政策，包括标簽平滑，以隐式強調突出邊界，随機圖像增強，以适應各種場景，以及自我監督的學習作為從小資料集學習的正規化政策。我們的廣泛結果表明了這些技巧的有效性。我們還為SOD提供了全面的基準，可以在我們的存儲庫中找到

Faster and Simpler Siamese Network for Single Object Tracking

Authors Shaokui Jiang, Baile Xu, Jian Zhao, Furao Shen

單個對象跟蹤SOT目前是計算機視覺中最重要的任務之一。随着深度網絡的開發和一系列大型資料集的單一對象跟蹤，已經提出了比大多數傳統方法更好的暹羅網絡。然而，最近的暹羅網絡變得更深入，更慢，以獲得更好的性能。這些方法中的大多數隻能滿足理想環境中實時對象跟蹤的需求。為了在效率和準确性之間實作更好的平衡，我們提出了一種更簡單的暹羅網絡，用于單一對象跟蹤，這在較差的硬體配置中運作快，同時仍然是優異的精度。我們使用更有效的回歸方法來計算跟蹤對象在較短的時間内的位置，而不會減少大量精度。為了提高準确性和加速教育訓練進度，我們将擠壓和激勵SE網絡引入特征提取器。在本文中，我們将提出的方法與某些藝術跟蹤器的拟議方法進行比較并分析他們的性能。使用我們的方法，可以在更短的時間和更少的資料訓練中教育訓練暹羅網絡。快速處理速度使得能夠将對象跟蹤與對象檢測或其他任務實時組合。

Adaptive Domain-Specific Normalization for Generalizable Person Re-Identification

Authors Jiawei Liu, Zhipeng Huang, Kecheng Zheng, Dong Liu, Xiaoyan Sun, Zheng Jun Zha

雖然現有人RE識别RE ID方法表現出令人印象深刻的準确性，但大多數通常患上看不見的目标領域的普遍性差。是以，概括的人red最近越來越多地引起了越來越長的關注，它在沒有模型更新的情況下授予在不合格的目标域上概括的源域的模型。在這項工作中，我們提出了一種新的自适應域特定統治方法，可呈現概括的人重新識别。它将未經證明的目标域描述為已知源域的組合，并明确學習具有目标分布的域特定表示，以通過元學習管道提高模型的機率。具體地，ADSnorm利用批量歸一化層來收集各個源極域特性，并通過使用這些特征将源極域映射到共享的潛在空間中，其中通過不同域特定歸一化統計和特征的距離函數來測量域相關性。在測試階段，ADSnorm将從未知目标域的圖像投影到相同的潛空間中，并自适應地內建攜帶源分布的域特定特征通過域相關性，以學習在未經證明的目标域上的更廣泛的聚合表示。考慮到訓練期間目标域不可用，提出了一種與定制關系損耗結合的元學習算法，以優化有效且有效的集合模型。廣泛的實驗表明，Adsnorm優于現有技術的狀态。代碼可用

Efficient Masked Face Recognition Method during the COVID-19 Pandemic

Authors Walid Hariri

Coronavirus疾病Covid 19是一種無與倫比的危機，導緻大量傷亡和安全問題。為了減少冠狀病毒的蔓延，人們經常戴口罩以保護自己。這使得面部識别是一個非常艱巨的任務，因為面部的某些部分是隐藏的。研究人員在正在進行的冠狀病毒大流行期間的主要焦點是通過快速和高效的解決方案提出來處理這個問題的建議。在本文中，我們提出了一種基于遮擋去除和基于深度學習的特征的可靠方法，以解決掩蔽面部識别過程的問題。第一步是去除掩模面部區域。接下來，我們将三個預訓練的深卷積神經網絡CNN CNN即VGG 16，AlexNet和Reset 50，并使用它們從所獲得的區域中提取深度特征，主要是眼睛和前額頭區域。然後将特征範例的袋子應用于最後卷積層的特征圖，以便量化它們并獲得與完全連接配接的經典CNN層的略微表示。最後，施加多層Perceptron MLP用于分類過程。與其他最新方法相比，現實世界蒙面面部資料集的實驗結果顯示了高識别性能。

BasisNet: Two-stage Model Synthesis for Efficient Inference

Authors Mingda Zhang, Chun Te Chu, Andrey Zhmoginov, Andrew Howard, Brendan Jou, Yukun Zhu, Li Zhang, Rebecca Hwa, Adriana Kovashka

在這項工作中，我們呈現基本網絡，該基準将最近的進步與簡單的新形式以高效的神經網絡架構，條件計算和早期終止相結合。我們的方法包括輕量級模型，以預覽輸入并生成輸入相關組合系數，後來控制更準确的專業模型的合成以進行最終預測。兩個階段模型綜合政策可以應用于任何網絡架構，并且兩個階段都是共同訓練的。我們還表明，适當的訓練配方對于提高這種高容量神經網絡的普遍性至關重要。在ImageNet分類基準中，我們的MobileNets作為骨幹的基礎，在幾個強大的基線上脫離了精度效率折衷的明顯優勢。具體而言，BasiTnet MobileNetv3獲得80.3前1個精度，隻有290米的乘量增加操作，在不犧牲準确度的情況下減半先前現有技術的計算成本。随着早期終止，平均成本可以進一步減少到198米的Madds，同時在想象中保持80.0的準确性。

LASR: Learning Articulated Shape Reconstruction from a Monocular Video

Authors Gengshan Yang, Deqing Sun, Varun Jampani, Daniel Vlasic, Forrester Cole, Huiwen Chang, Deva Ramanan, William T. Freeman, Ce Liu

在視訊或圖像集合中，在剛性結構的三維重建方面取得了顯着進展。然而，由于其在限制性質下，從RGB輸入重建非身份結構仍然具有挑戰性。雖然基于模闆的方法如參數形狀模型，但在模組化已知的對象類别的封閉世界方面取得了巨大成功，但他們無法處理新的新型對象類别或異常形狀的開放世界。在這項工作中，我們介紹了一種從單個視訊學習3D形狀的模闆。它采用綜合政策分析，即轉發呈現對象輪廓，光流量和像素值以與視訊觀察進行比較，進而為調整相機，形狀和運動參數來進行梯度。不使用特定的形狀模闆，我們的方法忠實地重建來自人類，動物和物體的視訊的非重力3D結構。代碼将可用

This Looks Like That... Does it? Shortcomings of Latent Space Prototype Explainability in Deep Networks

Authors Adrian Hoffmann, Claudio Fanconi, Rahul Rade, Jonas Kohler

通過建築設計産生人類可解釋決策的深度神經網絡已經成為對傳統黑匣子型号的HOC解釋的越來越受歡迎的替代品。在這些網絡中，可以說的最普遍的方法是所謂的原型學習，其中學習的潛在原型的相似之處是分類了看不見的資料點的基礎。在這項工作中，我們指出了這種方法的重要缺點。即，在輸入空間中的潛在空間和相似性之間存在語義差距，這可能破壞解釋性。我們設計了兩個實驗，舉例說明了所謂的Protopnet上的這個問題。具體而言，我們發現該網絡的可解釋機制可以通過故意制作或甚至JPEG壓縮僞影來誤入歧途，這可能産生不可了解的決策。我們争辯說，在實踐中部署基于原型的模型時，我們應該考慮到這種缺點。

Image Embedding and Model Ensembling for Automated Chest X-Ray Interpretation

Authors Edoardo Giacomello, Pier Luca Lanzi, Daniele Loiacono, Luca Nassano

胸部X射線CXR可能是全球最常進行的放射性調查。在這項工作中，我們展示并研究了多種機器學習方法來開發自動化CXR診斷模型。特别是，我們在Chexpert DataSet上訓練了幾個卷積神經網絡CNN，這是一個超過200k CXR标記圖像的大量集合。然後，我們使用訓練的CNN來計算CXR圖像的嵌入物，以便從它們中教育訓練兩組基于樹的分類器。最後，我們描述了三個合并政策，将教育訓練的分類器組合在一起。我們在這項工作中的目标不是期望一些表現明智的福利，而不是預計這項工作的目标是表明上述兩種方法，即圖像嵌入和模型的提取，可以有效和可行，以解決需要醫學成像了解的任務。我們的結果是令人鼓舞和值得進一步調查。

Object detection for crabs in top-view seabed imagery

Authors Vlad Velici, Adam Pr gel Bennett

本報告介紹了對象檢測在不同種類螃蟹的水下圖像資料庫中的應用，以及海獅的空中圖像，最後是Pascal VOC資料集。該模型是基于卷積網絡基礎的終端對象檢測神經網絡的端，長短短期存儲器檢測器。

Attention-augmented Spatio-Temporal Segmentation for Land Cover Mapping

Authors Rahul Ghosh, Praveen Ravirathinam, Xiaowei Jia, Chenxi Lin, Zhenong Jin, Vipin Kumar

大地觀察衛星資料的可用性為土地使用和陸地覆寫映射提供了巨大的機會。然而，由于各種陸地覆寫類，嘈雜資料以及缺乏适當的标簽，這種映射工作是挑戰。此外，每個陸地覆寫類通常具有自己獨特的時間模式，并且可以在某些時期内識别。在本文中，我們介紹了一種新穎的架構，該架構與雙向LSTM和關注機制結合了unet結構，以共同利用衛星資料的空間和時間性，并更好地識别每個陸地覆寫的獨特時間圖案。我們評估了這種映射世界多個地區作物的方法。我們将我們的方法與其他技術的方法進行了定量和定性地在涉及多個陸地覆寫類的兩個真實世界資料集上。我們還可視化注意力，以研究其在減輕噪聲和識别判别時間段的有效性。

UVStyle-Net: Unsupervised Few-shot Learning of 3D Style Similarity Measure for B-Reps

Authors Peter Meltzer, Hooman Shayani, Amir Khasahmadi, Pradeep Kumar Jayaraman, Aditya Sanghi, Joseph Lambourne

邊界表示B代表是3D計算機輔助設計制造CAD CAM和工業設計的行業标準，因為他們的忠誠代表了風格細節。然而，他們在3D風格研究中被忽略了。現有的3D樣式度量通常在網格或PointClouds上操作，并且通過采用固定的風格定義，無法通過人群采購為風格标簽或手工制作功能來占最終使用者主體性。我們提出了UVStyle Net，B Reps的風格相似度測量，它利用了預先訓練的無監督3D編碼器中的激活的二階統計中的風格信号，并通過少量學習來學習其對主觀最終使用者的相對重要性。我們的方法與所有現有資料驅動的3D樣式方法不同，因為它可以在完全無監督的設定中使用，這對于缺乏可公開可用的B Rep資料集來說是可觀的。更重要的是，少數拍攝學習占與風格相關的固有主體性。我們可以定量地顯示，我們的建議方法能夠比網格和PointCloud上的替代方法捕獲更強的風格信号，盡管其計算效率明顯。我們還表明它能夠相對于輸入形狀生成有意義的風格梯度，并且隻有少數由最終使用者選擇的兩個正示例很少的鏡頭學習就足以顯着提高樣式測量。最後，我們展示了對CAD模型的大型未标記公共資料集的功效。源代碼和資料将來将在未來釋出。

A Deep Transfer Learning-based Edge Computing Method for Home Health Monitoring

Authors Abu Sufian, Changsheng You, Mianxiong Dong

醫療保健在大流行或疫情情況下得到了巨大的壓力。一些疾病，如Covid 19，導緻大流行是從被感染者到别人的高度遍現。是以，為非危急感染患者提供孤立的非關鍵感染患者的健康服務應有助于減輕這種壓力。此外，這種做法也非常有用，無法監測住在家裡的長老的健康相關活動。家庭健康監測，使用視覺傳感器在家裡的患者或長老的持續監測是家庭健康服務的一個如此非侵入性的子區域。在本文中，我們提出了一種基于轉移學習的家庭健康監測的邊緣計算方法。具體地，預訓練的卷積神經網絡的模型可以利用具有少量地面的邊緣裝置标記資料和微調方法來訓練模型。是以，在由RGB，深度或熱傳感器捕獲的視覺資料的現場計算中可以以實惠的方式可以實作。結果，由這些類型的傳感器捕獲的原始資料不需要在家外部發送。是以，隐私，安全和帶寬稀缺不應該是問題。此外，應以經濟的方式進行上述目的的實時計算。

A review on physical and data-driven based nowcasting methods using sky images

Authors Ekanki Sharma, Wilfried Elmenreich

在所有可再生能源資源RES中，太陽能是最受歡迎的能源形式，并且特别符合其廣泛內建到電網。然而，由于太陽能間歇性的性質，預測太陽能輻照度是最重要的，以確定不間斷和可靠的電源以滿足能源需求。有幾種方法來執行太陽輻照度預測，例如基于衛星的方法，基于天空圖像的方法，基于機器學習的方法和基于數字天氣預報的方法。在本文中，我們在使用天空圖像時顯示關于短期内的時間内日期太陽能預測技術的審查。除此之外，我們還報告并讨論了天空圖像特征對于現在傳播的方法很重要。

Morphological classification of astronomical images with limited labelling

Authors Andrey Soroka 1 , Alex Meshcheryakov 2 , Sergey Gerasimov 1 1 Faculty of Computational Mathematics and Cybernetics Lomonosov Moscow State University, 2 Space Research Institute of RAS

形态學分類的任務對于簡單的參數化是複雜的，但對于Galaxy Evolution領域的研究很重要。未來Galaxy調查例如歐幾裡德将收集約10 9個星系的資料。為了獲得形态學資訊，需要涉及人們标記銀河圖像，這需要大量的金錢或大量的志願者。我們提出了一種基于對抗AutoEncoder AAE模型的積極學習的Galaxy形态分類任務的有效半監督方法。對于二進制分類問題Galaxy動物園的頂級問題2決策樹我們在測試部件上實作了精度93.1，隻有0.86百萬的标記動作，該模型可以輕松擴充到任意數量的圖像上。我們具有額外标記的最佳型号實作了95.5的精度。據我們所知，這是AAE AEMI監督用于天文學的學習模式。

VID-WIN: Fast Video Event Matching with Query-Aware Windowing at the Edge for the Internet of Multimedia Things

Authors Piyush Yadav, Dhaval Salwala, Edward Curry

有效的視訊處理是許多IOMT應用程式中的關鍵元件，以檢測感興趣的事件。目前，已經在事件進行中提出了許多視窗優化技術，其潛在的假設是傳入流具有結構化資料模型。由于缺乏任何潛在的結構化資料模型，視訊是高度複雜的。視訊流源（如CCTV錄影機和智能手機）是資源受限的邊緣節點。同時，視訊内容提取價格昂貴，需要計算最密集的深度神經網絡DNN模型，主要部署在高端或雲節點。本文介紹了VID Win，一種自适應的2級聯盟視窗方法，可以在邊緣雲範圍中加速視訊事件分析。 VID Win在邊緣和雲節點上并行運作，并對基于狀态的複雜事件比對執行查詢和資源感覺優化。 VID Win利用視訊内容和DNN輸入旋鈕，以加速節點的視訊推斷過程。本文提出了一種新穎的内容驅動微批量調整，資源受限邊緣節點下的視訊幀的QueryAWARE緩存和微批處理的實用濾波政策，以提高整體系統吞吐量，延遲和網絡使用情況。在五個真實世界資料集中進行了廣泛的評估。實驗結果表明，VID Win Video Event比對達到了2.3倍的吞吐量，與其他基線相比，與其他基線相比，延遲和99帶寬減少，同時保持查詢級别精度和資源界限。

Reconstruction of Convex Polytope Compositions from 3D Point-clouds

Authors Markus Friedrich, Pierre Alain Fayolle

重建凸多晶體的組合聯盟，完美地拟合相應的輸入點雲是一種逆向工程和剛體動态模拟中有趣應用的艱難優化問題。我們提出了一個流水線，首先提取一組平面，然後将輸入點雲分區為弱凸簇，最後産生一組凸多台作為每個分區的裝配平面的交叉點。通過拟合平面組配制成最佳配件凸多晶體作為組合優化問題，并使用進化算法解決。對于凸聚類，我們在基于多個輸入資料集的徹底評估中使用兩種不同的方法和細節它們的優點和弱點。

Detect caterpillar, grasshopper, aphid and simulation program for neutralizing them by laser

Authors Rakhmatulin Ildar

從害蟲中保護作物與任何栽培作物有關。但殺蟲劑的現代害蟲控制方法對人類帶來了許多危險。是以，研究安全有效的害蟲防治方法的開發是有前途的。此稿件提出了一種新的害蟲控制方法。我們使用神經網絡用于害蟲檢測，并開發出強大的雷射裝置5W以供中和。在處理具有害蟲的圖像的稿件方法中，較長的描述了最有用的特征。使用以下寵物作為示例性蚜蟲，蚱蜢，白菜毛蟲，我們分析了各種神經網絡模型，并為每個昆蟲選擇了最佳模型和特性。本文較長的描述了開發雷射裝置的操作原理。我們建立了在具有雷射器的裝置的坐标和傳輸資料的視訊流計算中搜尋了在視訊流計算中的程式。

Deep Neural Networks Based Weight Approximation and Computation Reuse for 2-D Image Classification

Authors Mohammed F. Tolba, Huruy Tekle Tesfai, Hani Saleh, Baker Mohammad, Mahmoud Al Qutayri

深度神經網絡DNN是計算的和記憶體密集型，這使得其硬體實作是一個具有挑戰性的任務，尤其适用于諸如IOT節點的資源受限裝置。為了解決這一挑戰，本文介紹了一種通過融合用于圖像識别應用的資料重用技術的近似計算來改善DNNS性能的新方法。基于訓練階段期間的線性和二次近似方法近似DNNS權重，然後，用線性二次系數替換所有權重，以便以使用相同的系數來計算不同權重的方式執行推斷。這導緻重複處理元件PE陣列的權重，這又能夠重用DNN子計算計算重用并利用相同的資料重用來減少DNN計算，存儲器通路，并提高能效增加教育訓練時間的成本。為圖像識别提出了MNIST和CIFAR 10資料集的完全分析，其中LENET 5顯示參數數量的減少1211.3倍，精度小于0.9。與靜止RS方法的狀态相比，所提出的架構儲存了54的加法器和乘法器的總數。總的來說，所提出的方法适用于IOT邊緣裝置，因為它減少了存儲器大小要求以及所需的存儲器通路的數量。

SkyCam: A Dataset of Sky Images and their Irradiance values

Authors Evangelos Ntavelis, Jan Remund, Philipp Schmid

計算機願景和深度學習的最新進展使得各種領域和應用中的令人驚訝地實作了令人驚訝的結果。 Skycam資料集的激勵是為了使基于圖像的深度學習解決方案能夠進行短期，精确預測局部的太陽輻射。對于一年的跨度，瑞士三個地形不同地點的三個不同的相機正在每10秒擷取天空的圖像。捕獲具有不同曝光時間的十三個高分辨率圖像并用于建立額外的HDR圖像。圖像與高精度的輻射儀收集的高精度輻照度值配對。

Soft-Attention Improves Skin Cancer Classification Performance

Authors Soumyya Kanti Datta, Mohammad Abuzar Shaikh, Hari Srihari, Mingchen Gao

在臨床應用中，神經網絡必須集中在并突出顯示輸入圖像的最重要部分。柔軟的注意機制使神經網絡能夠破壞這一目标。本文調查了軟關注深度神經結構中的有效性。軟關注的核心目标是提高重要特征的價值并抑制噪聲誘導功能。我們比較VGG，Reset，InceptionresNetv2和DenSenet架構的性能，而無需柔軟的注意機制，同時對皮膚病變進行分類。當耦合軟注意時，原始網絡将基線14達到4.7，同時在HAM10000資料集中實作93.7的精度。此外，與基線28相比，軟注意力耦合将靈敏度提高3.8，并在ISIC 2017資料集中實作91.6。代碼在Github上公開提供。

LINN: Lifting Inspired Invertible Neural Network for Image Denoising

Authors Jun Jie Huang, Pier Luigi Dragotti

在本文中，我們提出了一種可逆的神經網絡，用于由基于變換的去噪架構啟發的圖像去噪DNInn。所提出的DNInn由稱為LINN的可逆性神經網絡組成，其架構由小波理論中的提升方案和稀疏驅動的去噪網絡的啟發，其用于去除來自變換系數的噪聲。使用單個軟門檻值操作或利用學習的疊代收縮門檻值網絡進行去噪操作。 Linn的前向通過完整的表示，更适合去噪。使用LINN的後向通過使用去噪網絡的輸出來重建去噪圖像。仿真結果表明，所提出的DNInn方法實作了與DNCNN方法相當的結果，同時僅需要14個學習參數。

Energy-Based Anomaly Detection and Localization

Authors Ergin Utku Genc, Nilesh Ahuja, Ibrahima J Ndiour, Omesh Tickoo

本簡要介紹了初步進展，朝着半監控的視覺異常檢測和定位問題的統一能源解決方案。在此設定中，我們隻能通路Anomaly免費教育訓練資料，并希望檢測和識别在測試資料上任意性質的異常。我們使用基于能量模型EBM的密度估計作為正常分數，該分數可用于區分來自異常圖像的正常圖像。此外，我們回到了相對于圖像傳播能量評分的梯度，以便生成梯度映射，該梯度映射提供圖像中的異常的像素級空間定位。除了空間定位之外，我們還表明梯度圖的簡單處理還可以提供比對或超越通過能量值獲得的檢測性能的替代正常分數。為了定量驗證所提出的方法的性能，我們對MVTEC工業資料集進行實驗。雖然仍然初步，但我們的結果非常有前途，并揭示了EBMS同時檢測和定位圖像中的無法預料的異常的潛力。

NTIRE 2021 Challenge on Perceptual Image Quality Assessment

Authors Jinjin Gu, Haoming Cai, Chao Dong, Jimmy S. Ren, Yu Qiao, Shuhang Gu, Radu Timofte, Manri Cheon, Sungjun Yoon, Byungyeon Kangg Kang, Junwoo Lee, Qing Zhang, Haiyang Guo, Yi Bin, Yuqing Hou, Hengliang Luo, Jingyu Guo, Zirui Wang, Hai Wang, Wenming Yang, Qingyan Bai, Shuwei Shi, Weihao Xia, Mingdeng Cao, Jiahao Wang, Yifan Chen, Yujiu Yang, Yang Li, Tao Zhang, Longtao Feng, Yiting Liao, Junlin Li, William Thong, Jose Costa Pereira, Ales Leonardis, Steven McDonagh, Kele Xu, Lehan Yang, Hengxing Cai, Pengfei Sun, Seyed Mehdi Ayyoubzadeh, Ali Royat, Sid Ahmed Fezza, Dounia Hammou, Wassim Hamidouche, Sewoong Ahn, Gwangjin Yoon, Koki Tsubota, Hiroaki Akutsu, Kiyoharu Aizawa

本文關于NTIRE 2021對感覺圖像品質評估IQA的挑戰，與CVPR 2021中的圖像恢複和增強工廠中的房間NTIRE研讨會的新趨勢相結合。作為一種新型的圖像處理技術，基于生成的感覺圖像處理算法對抗網絡GAN産生了具有更現實紋理的圖像。這些輸出圖像具有來自傳統扭曲的完全不同的特征，是以對IQA方法構成了新的挑戰，以評估他們的視覺品質。與以前的IQA挑戰相比，這項挑戰中的訓練和測試資料集包括感覺圖像處理算法的輸出和相應的主觀評分。是以，它們可用于開發和評估基于GaN的扭曲的IQA方法。挑戰總共有270名注冊參與者。在最終測試階段，13名參與團隊送出了他們的模型和事實表。幾乎所有這些都取得了比現有的IQA方法更好的結果，而獲勝方法可以展示最先進的性能。

Self-Adaptive Transfer Learning for Multicenter Glaucoma Classification in Fundus Retina Images

Authors Yiming Bao, Jun Wang, Tong Li, Linyan Wang, Jianwei Xu, Juan Ye, Dahong Qian

青光眼的早期診斷和篩查對于患者及時接受治療并保持視力是重要的。如今，基于深度學習的DL模型已成功用于來自視網膜眼底圖像的青光眼計算機輔助診斷CAD。然而，使用來自一個醫院中心的資料集預先接受的DL模型可能對另一個新醫院中心的資料集具有差的性能，是以其在真實場景中的應用是有限的。在本文中，我們提出了一種自适應轉移學習SATL政策，以填補多中心資料集之間的域間隙。具體地，預先訓練在源域上的DL模型的編碼器用于初始化重模組化型的編碼器。然後，僅使用來自目标域的未标記的圖像資料進行重模組化型，這使得模型中的編碼器适應本身，以便同時為目标域圖像編碼和青光眼分類提取有用的高電平特征。實驗結果表明，拟議的SATL政策在私人和兩種公共青光眼診斷資料集之間的域适應任務中是有效的，即PRI RFG，避難和滞後。此外，所提出的政策完全獨立于源域資料，符合真實場景應用程式和隐私保護政策。

Structured dataset documentation: a datasheet for CheXpert

Authors Christian Garbin, Pranav Rajpurkar, Jeremy Irvin, Matthew P. Lungren, Oge Marques

每年在全球範圍内拍攝數十億次X射線圖像。特别是機器學習，特别是深度學習，表明了有助于幫助放射科學家的分類和診斷圖像。但是，深度學習需要具有可靠标簽的大型資料集。 Chexpert DataSet是通過董事會認證放射科醫師的參與建立的，導緻教育訓練深入學習網絡所需的強烈基礎真理。遵循資料集的資料表的結構化格式，本文擴充了原始的Chexpert紙和其他來源，以顯示放射科醫生在建立可靠标簽中發揮的關鍵作用，并較長的描述了資料集組合的不同方面。這種結構化檔案打算提高機器學習和醫學社群的認識和巧克力的力量，應用和演化的認識，進而推動了醫學圖像分析領域。本文的另一個目的是将此資料集資料表作為如何建立資料集的詳細和結構化描述的社群的示例。我們相信，資料集的建立過程，内容和應用程式會加速建立有用和可靠的模型。

Recognition of handwritten MNIST digits on low-memory 2 Kb RAM Arduino board using LogNNet reservoir neural network

Authors Y. A. Izotov, A. A. Velichko, A. A. Ivshin, R. E. Novitskiy

呈現的緊湊算法用于識别在LognNet儲庫神經網絡上建立的Mnist資料庫的手寫數字，達到82的識别精度。該算法在帶有2 kB靜态RAM低功率微控制器的低存儲器Arduino闆上進行了測試。研究了對儲層中神經元數的圖像識别的準确度和時間的依賴性。記憶體配置設定示範了算法在RAM中存儲所有必要的資訊而不使用其他資料存儲，并且在沒有初步處理的情況下使用原始圖像進行操作。具有适當訓練的算法的簡單結構可以适用于廣泛的實際應用，例如，用于建立移動生物傳感器，以便早期診斷醫學中不良事件。研究結果對于在外圍受限的物聯網裝置和邊緣計算的人工智能下實作人工智能很重要。

Understanding Catastrophic Overfitting in Adversarial Training

Authors Peilin Kang, Seyed Mohsen Moosavi Dezfooli

最近，發現FGSM對抗教育訓練能夠教育訓練一種堅固的模型，它與PGD訓練的穩定模型相當，但峰值速度更快。然而，存在一個名為災難性的過燒的失敗模式，即分類器在訓練期間突然失去其魯棒性，并且幾乎沒有自行恢複。在本文中，我們發現CO不僅限于FGSM，而且還涉及MBOX DF缺陷1對抗訓練。然後，我們分析了FGSM和MBOX DF infty 1的幾何屬性，并在CO之後發現它們具有完全不同的決策邊界。對于FGSM，沿着擾動方向産生新的決策邊界，使得小擾動比大的擾動更有效一。雖然對于Mbox DF缺點1，但沒有沿着擾動方向産生的新決策邊界，而是由Mbox DF infty 1産生的擾動在CO之後變小，是以失去其有效性。我們還通過實驗分析了造成CO的潛在因素的三個假設。然後基于實證分析，我們通過不會将擾動恢複到L漂移球來修改RS FGSM。通過這種小修改，我們可以在ε8555555上達到0.37 pgd 50 10達到0.37pgd 50 10準确度，與ε855相比，與Rs FGSM相比，43.57 PM 0.30，也将epsilon的工作範圍從8 255-1055延伸到CIFAR10，而沒有CO 。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩請移步首頁

pic from pexels.com

【AI視野·今日CV 計算機視覺論文速覽第194期】Mon, 10 May 2021

Interesting:

Daily Computer Vision Papers

繼續閱讀

yolov7 tensorrt模型加速部署【實戰】

Android-opencv之CVCamera

基于ORB特征點比對的對極幾何限制實作（源碼+講解）

使用hector構圖_如何使用均衡的構圖拍攝更清晰的照片

GMS：基于網格運動統計的快速極度魯棒的特征比對摘要1 簡介2 本文的方法3 應用于快速記分的網格架構4 實驗 5 結論

如何使用前景和背景建立更清晰的照片

在Ubuntu16.04上提取相鄰序列圖像之間的ORB的特征點，并用暴力方法找到比對點并連線一、什麼是ORB特征二、什麼是暴力比對三、實作代碼四、運作方法

Matlab中将二維灰階圖像三維顯示

車道線檢測

自監督｜「CoCLR」視訊自監督對比學習筆記

視訊對象分割（Video Object Segmentation）研究小記任務定義與資料集技術路線分類基于神經網絡的模型總結

opencv視覺跟蹤——消除背景模組化

圖形處理單元(GPU)的演進

2021-09-30三維點雲測量正方形包裹體積

DOG算子

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

【AI視野·今日CV 計算機視覺論文速覽 第194期】Mon, 10 May 2021

Interesting:

Daily Computer Vision Papers

繼續閱讀

【AI視野·今日CV 計算機視覺論文速覽第194期】Mon, 10 May 2021