天天看點

無人汽車無法避開陌生物體?這裡有最新解決方案

無人汽車無法避開陌生物體?這裡有最新解決方案

他們提出的目标檢測方法,可以檢測未見過的新物體,相對于Mask R-CNN有了巨大改進。

作者 | 王晔

編輯 | 青暮

人類經常會遇到種類新穎的工具、食物或動物,盡管以前從未見過,但人類仍然可以确定這些是新物體。

與人類不同,目前最先進的檢測和分割方法很難識别新型的物體,因為它們是以封閉世界的設定來設計的。它們所受的訓練是定位已知種類(有标記)的物體,而把未知種類(無标記)的物體視為背景。這就導緻模型不能夠順利定位新物體和學習一般物體的性質。

最近,來自波士頓大學、加州大學伯克利分校、MIT-IBM Watson AI Lab研究團隊的一項研究,提出了一種檢測和分割新型物體的簡單方法。

https://arxiv.org/pdf/2112.01698v1.pdf

為了應對這一挑戰,研究團隊建立一個資料集,對每張圖檔中的每一個物體進行詳盡的标記。然而,要建立這樣的資料集是非常昂貴的。如下圖所示,事實上,許多用于物體檢測和執行個體分割的公共資料集并沒有完全标注圖像中的所有物體。

無人汽車無法避開陌生物體?這裡有最新解決方案

圖1. 标準的物體檢測器訓練中存在的問題。該例來自COCO,有色框是注釋框,而白色虛線框是潛在的背景區域。許多白色虛線區域實際上定位了物體,但在傳統的物體檢測器訓練中被認為是背景,進而壓制了新物體的目标屬性。

問題背景

未能學習到一般的目标屬性會在許多應用場景中暴露出各種問題。例如具身人工智能,在機器人、自動駕駛場景中,需要在訓練中定位未見過的物體;自動駕駛系統需要檢測出車輛前方的新型物體以避免交通事故。

此外,零樣本和小樣本檢測必須對訓練期間未标記的物體進行定位。開放世界執行個體分割旨在定位和分割新的物體,但最先進的模型表現并不理想。

研究團隊發現,導緻目前最先進的模型表現不理想的原因在于訓練pipeline,所有與标記的前景物體重疊不多的區域将被視為背景。如圖1所示,雖然背景中有可見但卻未被标記的物體,但模型的訓練pipeline使其不能檢測到這些物體,這也導緻模型無法學習一般的目标屬性。

為了解決該問題,Kim等人提出學習候選區域(region proposals )的定位品質 ,而不是将它們分為前景與背景。他們的方法是對接近真實标記的object proposals 進行采樣,并學習估計相應的定位品質。雖然緩解了部分問題,但這種方法除了需要仔細設定正/負采樣的重疊門檻值外,還有可能将潛在的物體壓制目标屬性。

方法

為了改進開放集的執行個體分割,研究團隊提出了一個簡單并且強大的學習架構,還有一種新的資料增強方法,稱為"Learning to Detect Every Thing"(LDET)。為了消除壓制潛在物體目标屬性這一問題,研究團隊使用掩碼标記複制前景物體并将其粘貼到背景圖像上。而前景圖像是由裁剪過的更新檔調整合成而來的。通過保持較小的裁剪更新檔,使得合成的圖像不太可能包含任何隐藏物體。

然而,由于背景是合成圖像建立而來的,這就使其看起來與真實圖像有很大的不同,例如,背景可能僅由低頻内容組成。是以,在這種圖像上訓練出來的檢測器幾乎表現都不是很好。

為了克服這一限制,研究團隊将訓練分成兩部分:

用合成圖像訓練背景和前景區域分類和定位頭(classification and localization heads);

用真實圖像學習掩碼頭(mask head)。

無人汽車無法避開陌生物體?這裡有最新解決方案

圖2. 本文的增補政策是通過提高小區域的比例作為背景來建立沒有潛在物體的圖像。

無人汽車無法避開陌生物體?這裡有最新解決方案

圖3. 原始輸入(左)和合成圖像(右)。用顔色标示了掩碼區域,使用小區域作為背景,避免了背景中會隐藏物體。在某些情況下,背景更新檔恰好可以定位前景物體(左欄第二行)。要注意的是,這種情況很少見, 可以看出更新檔被明顯放大了。

在訓練分類頭(classification head)時,由于潛在物體在合成圖像時就已經被移除了,是以将潛在物體視為背景的幾率變得很小。此外,掩碼頭是為在真實圖像中分割執行個體而訓練的,是以主幹系統學習了一般表征,能夠分離真實圖像中的前景和背景區域。

也許這看起來隻是一個小變化,但LDET在開放世界的執行個體分割和檢測方面的表現非常顯著。

在COCO上,在VOC類别上訓練的LDET評估非VOC類别時,平均召回率提高了14.1點。令人驚訝的是,LDET在檢測新物體方面有明顯提高,而且不需要額外的标記,例如,在COCO中隻對VOC類别(20類)進行訓練的LDET在評估UVO上的平均召回率時,超過了對所有COCO類别(80類)訓練的Mask R-CNN。如圖2所示,LDET可以生成精确的object proposals,也可以覆寫場景中的許多物體。

圖4. 在開放世界中進行執行個體分割,Mask R-CNN(上圖)比本文所研究的方法(下圖)所檢測到的物體要少。在此任務中,在不考慮訓練種類的情況下,模型必須對圖像中的所有物體進行定位并對其分割。圖中的兩個檢測器都是在COCO上訓練,并在UVO上測試的。在新的資料增補方法和訓練方案的幫助下,本文的檢測器準确地定位出許多在COCO中沒有被标記的物體。

無人汽車無法避開陌生物體?這裡有最新解決方案

圖5. 訓練流程。給定一個原始輸入圖像和合成圖像,根據在原始圖像上計算的掩碼損失和分類,以及在合成圖像上的回歸損失來訓練檢測器。

本文的貢獻總結如下:

提出了一個簡單的架構——LDET,該架構由用于開放世界執行個體分割的新資料增補和解耦訓練組成。

證明了本文的資料增補和解耦訓練對在開放世界執行個體分割中實作良好的性能

LDET在所有設定中都優于最先進的方法,包括COCO的跨類别設定和COCO-to-UVO和Cityscape-to-Mapillary的跨資料集設定。

實驗結果

研究團隊在開放世界執行個體分割的跨類别和跨資料集上評估了LDET。跨類别設定是基于COCO資料集,将标記分為已知和未知兩類,在已知類别上訓練模型,并在未知類别上評估檢測/分割性能。

由于模型可能會處在一個新的環境中并且遇到新的執行個體,是以跨資料集設定還評估了模型對新資料集的歸納延伸能力。為此,采用COCO或Cityscapes作為訓練源,UVO和Mappilary Vista分别作為測試資料集。在此工作中,平均精度(AP)和平均召回率(AR)作為性能評估标準。評估是以不分等級的方式進行的,除非另有說明。AR和AP是按照COCO評估協定計算的,AP或AR最多有100個檢測值。

表1. COCO中VOC Non-VOC泛化的結果。表中最後一行的藍色部分是對Mask R-CNN的改進。LDET超過了所有的基線,并相較于Mask R-CNN有巨大改進。

無人汽車無法避開陌生物體?這裡有最新解決方案

圖6. 在COCO資料集中,VOC to Non-VOC的可視化。上圖:Mask R-CNN,下圖:LDET。注意訓練類别不包括長頸鹿、垃圾箱、筆、風筝和漂浮物。LDET比Mask R-CNN能更好地檢測許多新的物體。

表2. VOC Non-VOC的資料和訓練方法的消融研究。最後一行是本文提出的架構。

表3. class agnostic訓練的消融研究。class agnostic訓練對LDET和Mask R-CNN的性能有些許提高。

無人汽車無法避開陌生物體?這裡有最新解決方案

圖7. 基線Mask R-CNN存在着對标記執行個體的過度拟合。是以,随着訓練的進行,它檢測新物體的性能會下降。相比之下,本文的方法基本上随着訓練,性能都會提升。

無人汽車無法避開陌生物體?這裡有最新解決方案

表4. 與COCO上測試的無監督方法和DeepMask的比較。需注意的是,DeepMask使用VGG作為主幹。LDET和DeepMask是在VOC-COCO上訓練的。

表5. 改變背景區域的大小。2-m表示用輸入圖像的2-m的寬度和高度裁剪背景區域。從較小的區域取樣背景,往往會提高AR,降低AP。

表6. ResNet50與ResNet101的對比。ResNet101傾向于比ResNet50表現得更好,這在LDET中更明顯。

表7. region proposal network和region of interest head的比較。bounding boxes的AP和AR。

無人汽車無法避開陌生物體?這裡有最新解決方案

圖8. COCO實驗中的目标屬性圖(RPN score)的可視化。LDET捕獲了各種類别的物體性,而Mask R-CNN則傾向于抑制許多物體。

表8. COCOUVO泛化的結果。上:在VOC-COCO上訓練的模型,下:在COCO上訓練的模型。與基線相比,LDET在所有情況下都表現出較高的AP和AR。

圖9. 在COCO上訓練的模型結果的可視化。上圖:Mask R-CNN,下圖:LDET。最左邊的兩張圖檔來自UVO,其他的來自COCO的驗證圖檔。

無人汽車無法避開陌生物體?這裡有最新解決方案

表9. Cityscapes Mappilary Vista的歸納結果。LDET對自動駕駛資料集是有效的。AR0.5表示AR,IoU門檻值=0.5。

END

無人汽車無法避開陌生物體?這裡有最新解決方案

「無人」駕駛,正在遭遇「用人」荒

無人汽車無法避開陌生物體?這裡有最新解決方案

自動駕駛「感覺」的革新?從人腦和蛙眼得到的啟示

繼續閱讀