天天看點

CVPR2021 | 開放世界的目标檢測

本文将介紹一篇很有意思的論文,該方向比較新,故本文保留了較多論文中的設計思路,背景知識等相關内容。

前言:

人類具有識别環境中未知對象執行個體的本能。當相應的知識最終可用時,對這些未知執行個體的内在好奇心有助于了解它們。 這促使我們提出一個新的計算機視覺問題,稱為:“開放世界對象檢測”,其中模型的任務是:

1)将尚未引入的對象識别為“未知”,無需明确監; 

2)在逐漸接收到相應的标簽時,逐漸學習這些已識别的未知類别,而不會忘記先前學習的類别。

我們制定了這個問題,引入了評估協定并提供了一種新穎的解決方案,我們稱之為 ORE:開放世界對象檢測器,基于對比聚類和基于能量的未知對象識别。

我們的實驗評估和消融研究分析了 ORE 在實作開放世界目标方面的功效。作為一個有趣的副産品,我們發現識别和表征未知執行個體有助于減少增量心理對象檢測設定中的混亂,在那裡我們實作了SOTA性能,而無需額外的方法論。我們希望我們的工作能夠吸引對這個新确定但至關重要的研究方向的進一步研究。

論文:Towards Open World Object Detection

源碼:https://github.com/JosephKJ/OWOD

關注公衆号CV技術指南,及時擷取更多計算機視覺技術總結文章。

本文出發點

深度學習加速了目标檢測研究的進展,其中模型的任務是識别和定位圖像中的對象。 所有現有的方法都在一個強有力的假設下工作,即所有要檢測的類在訓練階段都可用。當我們放寬這個假設時會出現兩個具有挑戰性的場景:

1)測試圖像可能包含來自未知類的對象,這些對象應該被歸類為未知。

2)當有關此類已識别未知數的資訊(标簽)可用時,模型應該能夠逐漸學習新類。

發展心理學研究發現識别未知事物的能力是吸引好奇心的關鍵。這種好奇心激發了學習新事物的欲望。 這促使我們提出一個新問題,即模型應該能夠将未知對象的執行個體識别為未知對象,然後在訓練資料逐漸到達時以統一的方式學習識别它們。 我們将此問題設定稱為開放世界對象檢測。

開放世界對象檢測設定比現有的封閉世界、靜态學習設定更自然。 世界在新類的數量、類型和配置方面是多樣化和動态的。 我們不能假設在訓練期間可以看到推理時期望的所有類。 檢測系統在機器人、自動駕駛汽車、植物表型分析、醫療保健和監控中的實際部署無法在内部訓練的情況下全面了解推理時預期的類别。

人們可以從部署在這種設定中的對象檢測算法中期望的最自然和現實的行為是自信地将未知對象預測為未知,并将已知對象歸入相應的類。 當有關已識别未知類的更多資訊可用時,系統應該能夠将它們合并到其現有的知識庫中。 這将定義一個智能對象檢測系統,我們正在努力實作這一目标。

CVPR2021 | 開放世界的目标檢測
CVPR2021 | 開放世界的目标檢測

計算機視覺任務難度圖

本文貢獻

• 我們引入了一種新穎的問題設定,即開放世界對象檢測,它更接近地模拟現實世界。

• 我們開發了一種稱為 ORE 的新方法,它基于對比聚類、未知感覺提議網絡和基于能量的未知識别,以應對開放世界檢測的挑戰。

• 我們引入了一個全面的實驗設定,它有助于測量對象檢測器的開放世界特征,并根據競争基線方法對其進行基準測試。

• 作為一個有趣的副産品,所提出的方法在增量對象檢測方面實作了最先進的性能,即使主要不是為此而設計的。

Open World Object Detection

CVPR2021 | 開放世界的目标檢測
CVPR2021 | 開放世界的目标檢測

開放世界對象檢測設定考慮了一個對象檢測模型 Mc,該模型經過訓練可以檢測所有以前遇到的 C 個對象類。 重要的是,模型 MC 能夠識别屬于任何已知 C 類的測試執行個體,并且還可以通過将其分類為未知類執行個體來識别新的或未見過的類執行個體,用标簽(0) 表示。然後人類将未知的執行個體集 Ut識别 n 個新的感興趣類(在潛在的大量未知數中)并給模型提供訓練示例。

學習器逐漸添加 n 個新類并自行更新以生成更新的模型 MC+n,而無需在整個資料集上從頭開始重新訓練。已知類集也更新 Kt+1 = Kt + {C + 1, ... . . ,C+n}。這個循環在物體檢測器的整個生命周期中持續,在那裡它用新知識自适應地更新自己。

ORE(開放世界目标檢測器)

一種成功的開放世界對象檢測方法應該能夠在沒有明确監督的情況下識别未知執行個體,并且在将這些識别出的新執行個體的标簽呈現給模型以進行知識更新(無需從頭開始重新訓練)時,不會忘記早期執行個體。 我們提出了一個解決方案 ORE,它以統一的方式解決了這兩個挑戰。

設計思路如下:

神經網絡是通用函數逼近器,它通過一系列隐藏層學習輸入和輸出之間的映射。在這些隐藏層中學習的潛在表示直接控制每個功能的實作方式。 我們假設在對象檢測器的潛在空間中學習明确區分類别可能會産生雙重影響。

首先,它幫助模型識别未知執行個體的特征表示與其他已知執行個體有何不同,這有助于将未知執行個體識别為新穎性。 其次,它有助于學習新類執行個體的特征表示,而不會與潛在空間中的先前類重疊,這有助于在不遺忘的情況下進行增量學習。幫助我們意識到這一點的關鍵部分是我們在潛在空間中提出的對比聚類。

為了使用對比聚類對未知數進行最佳聚類,我們需要對未知執行個體進行監督。 即使是潛在的無限未知類集的一小部分,手動注釋也是不可行的。 為了解決這個問題,我們提出了一種基于區域提議網絡(RPN) 的自動标記機制來僞标記未知執行個體。 潛在空間中自動标記的未知執行個體的固有分離有助于我們基于能量的分類頭區分已知和未知執行個體。

CVPR2021 | 開放世界的目标檢測
CVPR2021 | 開放世界的目标檢測

如上圖所示,選擇 Faster R-CNN 作為基礎檢測器。與單階段的Retina Net 檢測器和YOLO 檢測器相比,它具有更好的開放集性能。

Faster R-CNN是一個兩階段的目标檢測器。在第一階段,一個與類别無關的區域提議網絡 (RPN) 從共享骨幹網絡的特征圖中提出可能具有對象的潛在區域。第二階段對每個提議區域的邊界框坐标進行分類和調整。由感興趣區域 (RoI) 頭部中的殘差塊生成的特征進行對比聚類。RPN 和分類頭分别用于自動标記和識别未知數。

對比聚類算法如下:

CVPR2021 | 開放世界的目标檢測
CVPR2021 | 開放世界的目标檢測

Auto-labelling Unknowns with RPN

我們基于區域提議網絡 (RPN) 與類别無關的事實。給定輸入圖像,RPN 為前景和背景執行個體生成一組邊界框預測,以及相應的對象分數。我們将那些具有高對象分數但不與真實對象重疊的提議标記為潛在的未知對象。簡單地說,我們選擇前 k 個背景區域提議,按其對象性分數排序,作為未知對象。

Energy Based Unknown Identififier

CVPR2021 | 開放世界的目标檢測
CVPR2021 | 開放世界的目标檢測

由于通過對比聚類在潛在空間中實施了清晰的分離,可以看到已知類資料點和未知資料點的能級明顯分離,如上圖所示。我們通過energy based models(EBMs)來學習一個能量函數,使用單個輸出标量來估計觀察變量 F 和可能的輸出變量集 L 之間的相容性。

Alleviating Forgetting

我們考慮了終身學習中的很多方法,最終決定使用相對簡單的 ORE 方法來減輕遺忘,即我們存儲一組平衡的示例并在每個增量步驟之後微調模型。在每一點上,我們確定每個類的最少 Nex 執行個體存在于示例集中。

評協定

CVPR2021 | 開放世界的目标檢測
CVPR2021 | 開放世界的目标檢測

實驗結果

CVPR2021 | 開放世界的目标檢測
CVPR2021 | 開放世界的目标檢測

藍色部分為剛開始作為背景,在經過ORE訓練後自主識别的準确度。

CVPR2021 | 開放世界的目标檢測
CVPR2021 | 開放世界的目标檢測

該圖展示了ORE通過RPN很好地識别了一些未知對象,但在第三張圖中也有指鹿為馬的現象出現。

本文來源于公衆号 CV技術指南 的論文分享系列。

歡迎關注公衆号 CV技術指南 ,專注于計算機視覺的技術總結、最新技術跟蹤、經典論文解讀。

在公衆号中回複關鍵字 “入門指南“可擷取計算機視覺入門所有必備資料。

CVPR2021 | 開放世界的目标檢測
CVPR2021 | 開放世界的目标檢測

其它文章

ML2021 | PatrickStar:通過基于塊的記憶體管理實作預訓練模型的并行訓練

ICCV2021 | PnP-DETR:用Transformer進行高效的視覺分析

ICCV2021 | 醫學影像等小資料集的非自然圖像領域能否用transformer?

ICCV2021 | Vision Transformer中相對位置編碼的反思與改進

ICCV2021 | TransFER:使用Transformer學習關系感覺的面部表情表征

2021-視訊監控中的多目标跟蹤綜述

統一視角了解目标檢測算法:最新進展分析與總結

全面了解目标檢測中的anchor      |    姿态估計綜述

目标檢測中回歸損失函數總結     |     小目标檢測常用方法總結

視覺Transformer綜述    |    2021年小目标檢測最新研究綜述

Siamese network綜述    |  小目标檢測的一些問題,思路和方案

視訊了解綜述:動作識别、時序動作定位、視訊Embedding

從CVPR 2021的論文看計算機視覺的現狀

ICCV2021 | MicroNet:以極低的 FLOPs 改進圖像識别

ICCV2021 | 重新思考視覺transformers的空間次元

CVPR2021 | TransCenter: transformer用于多目标跟蹤算法

CVPR2021 | 開放世界的目标檢測

CVPR2021 | TimeSformer-視訊了解的時空注意模型

CVPR2021 | 一個高效的金字塔切分注意力子產品PSA

CVPR2021 | 特征金字塔的新方式YOLOF

經典論文系列 | 重新思考在ImageNet上的預訓練

經典論文系列 | Group Normalization & BN的缺陷

經典論文系列 | 目标檢測--CornerNet  & anchor boxes的缺陷

經典論文系列 | 縮小Anchor-based和Anchor-free檢測之間差距的方法:自适應訓練樣本選擇

CV方向的高效閱讀英文文獻方法總結

CNN可視化技術總結(一)-特征圖可視化

CNN可視化技術總結(二)--卷積核可視化

CNN可視化技術總結(三)--類可視化

CNN可視化技術總結(四)--可視化工具與項目

池化技術總結    |  NMS總結    |  注意力機制總結

特征金字塔總結      |  資料增強方法總結

計算機視覺專業術語總結(一)建構計算機視覺的知識體系

欠拟合與過拟合技術總結    |  損失函數技術總結

CNN可視化技術總結

CNN結構演變總結—經典模型

CNN結構演變總結—輕量化模型

CNN結構演變總結—設計原則

論文創新的常見思路總結

在公衆号《CV技術指南》中回複“技術總結”可擷取以上所有總結系列文章的彙總pdf