天天看點

CVPR 2021 Towards Open World Object Detection

動機

雖然目标檢測技術目前已經發展得較為成熟,但如果要真正能實作讓計算機像人眼一樣進行識别,有項功能一直尚未達成——那就是像人一樣能識别現實世界中的所有物體,并且能夠逐漸學習認知新的未知物體。開放集和開放世界圖像分類的進展不能簡單地适用于開放集和開放世界的目标檢測,開放集和開放世界的目标檢測的不同之處在于:在目标檢測器的訓練過程中,将那些未知的目标當做背景。許多未知類的執行個體已經和已知目标一起引入到目标檢測器中。由于它們沒有被标注,訓練檢測模型時,這些未知的執行個體将被學習為背景。本論文解決了兩個挑戰:一是在沒有明确監督的情況下,保證已知類别的object的準确性的同時,除了已知的類别,其他的所有目辨別别為“未知”,二是如果“未知”的資訊或者标簽得到了,就讓網絡做增量學習,同時不遺忘之前學過的類,也就是說能夠同時識别N+1種類别(N:以前就能識别的類别,1:新增的類别)。為解決這些挑戰,文中提出了一種新的基于對比聚類和基于能量的未知識别的開放世界目标檢測模型(ORE)。開放世界目标檢測模型是一個新問題,即一個模型應該能夠以一種通用的方式識别未知目标的執行個體作為“未知”,然後在訓練資料逐漸取得時,學習識别它們。

方法

在每一個增量學習的步驟,一旦識别出那些未知的目标(“?”),oracle就會在所有未知的目标中為感興趣的目标提供标簽(藍色圓圈),加入到現有的知識庫(綠色圓圈)中,進而逐漸學習新類。通過存儲一組平衡的樣本,并在每個增量步驟之後對模型進行微調。在每個點上,確定每個類的最小執行個體出現在範例集中,進而減輕之前學過的類被遺忘的問題。

開放世界目标檢測模型采用Faster R-CNN作為基底檢測器,通過一個基于能量的分類頭和unknown-aware RPN來識别出那些潛在的未知目标。具體包括如下two stages:

第一階段,依賴于區域候選網絡(RPN)是類别不可知的這一事實,自動将圖像中的一些物體标記為潛在的未知物體。給定一個輸入圖像,RPN生成一組包含前景和背景執行個體的邊界框預測,以及相應的目标得分。将那些具有較高的目标得分,但不與真實目标重疊的候選框作為潛在的未知目标。簡單地說,按照目标得分排序,選擇前k個背景區域候選,作為未知目标。

第二階段,對每個候選區域的邊界框進行分類和調整坐标。在感興趣區域(RoI)頭部,對殘差塊産生的特征應用對比學習方法來學習有判别力的聚類,且能夠在不遺忘之前學習過的類别的情況下,持續地靈活添加新的類别。RPN和分類頭分别用于自動标注和識别未知。給定潛伏空間中的特征及其對應的标簽,基于能量模型(EBMs)學習一個函數,使用單個輸出标量,用來估計觀測變量F和可能的輸出變量集L之間的相容性。EBMs的本能是将低能量值配置設定給分布資料,反之亦然将能量度量用來判别一個樣本是否來自一個未知類别。用對數定義分類模型的自由能量,以将标準Faster R-CNN的分類頭變換為一個能量函數。由于通過對比聚類在潛在空間中做了強制明顯的分離。針對這一趨勢,文中用一組移位的威布爾分布對已知和未知能量值的能量分布進行了模組化。

CVPR 2021 Towards Open World Object Detection
實驗細節

ORE重新使用骨幹網絡為renet - 50的标準Faster R-CNN目标檢測器。利用來自RoI頭部最後一個殘差塊的2048維的特征向量做對比聚類。對比損失是被用在标準Faster R-CNN分類和定位損失運算中,并共同優化。

實驗評估和消融研究證明了ORE在實作開放世界目标的有效性,并發現了識别和描述未知執行個體有助于減少一個增量目标檢測setting中的混亂,在增量對象檢測setting中,表現出了最先進的性能,而不需要額外的方法輔助。