天天看點

CVPR2023:ScaleDet:一個可伸縮的多資料集目标檢測器

作者:小小cv筆記
CVPR2023:ScaleDet:一個可伸縮的多資料集目标檢測器

論文題目:

ScaleDet: A Scalable Multi-Dataset Object Detector

摘要

多資料集訓練為開發異構大規模資料集提供了一種可行的解決方案,而無需額外的标注成本。在這項工作中,我們提出了一個可擴充的多資料集檢測器(ScaleDet),當增加訓練資料集的數量時,它可以擴充其跨資料集的泛化。與現有的多資料集學習器主要依賴于手動重新标記工作或複雜的優化來統一跨資料集的标簽不同,我們引入了一個簡單但可擴充的公式來導出用于多資料集訓練的統一語義标簽空間。ScaleDet通過視覺文本對齊來學習跨資料集的标簽語義相似度的标簽配置設定。經過訓練後,ScaleDet可以很好地泛化任何給定的上遊和下遊資料集,包括可見類和不可見類。我們使用LVIS, COCO, Objects365, OpenImages作為上遊資料集,并使用來自對象檢測(ODinW)的13個資料集作為下遊資料集進行了廣泛的實驗。我們的結果表明,ScaleDet在LVIS上的mAP值為50.7,在COCO上為58.8,在Objects365上為46.8,在OpenImages上為76.2,在ODinW上為71.8,達到了令人信服的強大模型性能,超過了具有相同主幹的最先進的檢測器。

1. 介紹

計算機視覺的主要進步是由大規模資料集推動的,例如用于圖像分類的ImageNet和OpenImages,或用于視訊識别的Kinetics和ActivityNet。大規模資料集對于訓練泛化良好的識别模型至關重要。然而,收集大量帶注釋的資料集既昂貴又耗時。這在需要在邊界框或像素級别上進行詳細注釋的檢測和分割任務中尤其突出。為了在不增加額外标注成本的情況下利用更多的訓練資料,最近的研究統一了多個資料集,從更多的視覺類别和更多樣化的視覺領域中學習,用于檢測和分割。

為了訓練跨多個資料集的目标檢測器,我們需要解決幾個挑戰。首先,多資料集訓練需要統一跨資料集的異構标簽空間,因為标簽定義是特定于資料集的,來自兩個資料集的标簽可以表示相同或相似的對象。例如,在OpenImages和Objects365中,“footwear”和“sneakers”是兩個不同的标簽,但指的是同一類型的對象(見圖1)。其次,資料集之間的訓練設定可能不一緻,因為不同規模的資料集往往需要不同的資料采樣政策和學習時間表。第三,在單個資料集上,多資料集模型應該比單資料集模型表現更好。由于異構的标簽空間、跨資料集的域差異以及過度拟合到較大資料集的風險,這是具有挑戰性的。

CVPR2023:ScaleDet:一個可伸縮的多資料集目标檢測器

為了解決上述挑戰,現有的工作依賴于手動重新标記類标簽,或者訓練多個特定于資料集的分類器,并使用限制将資料集之間的标簽關聯起來。然而,這些方法缺乏可伸縮性。随着資料集數量的增加,人工重新标記的工作量和訓練多個分類器的模型複雜性也在迅速增加。我們用ScaleDet克服了這一限制:一個可擴充的多資料集檢測器(圖1)。我們提出了兩個創新:一個可擴充的公式來統一多個标簽空間,一個新的損失公式來學習跨資料集的硬标簽和軟标簽配置設定。硬标簽配置設定是在機率空間中消除類标簽的歧義,而軟标簽配置設定是在語義相似空間中關聯類标簽的正則化器。與現有的多資料集方法不同,我們的方法利用視覺語言學習在上遊和下遊資料集上實作良好的泛化,其中下遊資料集可以包含未見過的類和新域。

我們的貢獻是:

•我們提出了一種新的可擴充的多資料集訓練配方用于目标檢測。我們的方法利用文本嵌入來統一和關聯跨資料集的具有語義相似性的标簽,并通過視覺文本對齊來訓練單個分類器來學習硬标簽和軟标簽配置設定。

•我們進行了大量的實驗,以證明ScaleDet在多資料集訓練中的引人注目的可擴充性和泛化性。我們表明,當我們增加訓練資料集的數量時,ScaleDet可以提高其性能:LVIS, COCO, Objects365和OpenImages(第4.2節)。此外,我們表明,與最近的先進探測器相比,ScaleDet在多個基準測試中達到了最先進的性能,例如Detic, UniDet(第4.3節,第4.4節)。

•我們評估了ScaleDet在具有挑戰性的“野外對象檢測”基準(包含13個資料集)上的可移植性,以證明其在下遊資料集上的競争性泛化性(第4.5節)。

2. 相關工作

多資料集訓練旨在利用多個資料集來訓練更一般化的視覺識别模型,特别是對于需要更昂貴注釋的任務,如檢測和分割。現有的多資料集訓練方法可以分為兩類。第一組引入了特殊的網絡元件來适應針對資料集的特征表示。例如,設計了一個領域關注子產品來學習自适應多領域檢測器,該檢測器為不同的領域配置設定不同的網絡激活。第二組引入了新的公式來組合多個資料集上的異構标簽空間。例如,MSeg資料集是在多個語義分割資料集上建立的,通過使用Amazon Mechanical Turk基于手動定義的類标簽分類法進行重新标記。為了避免手動重新标注,一種僞标注政策被用于基于特定于資料集的檢測器的預測跨資料集生成僞标簽。最近的工作使用集合理論和手動定義的集合或使用組合優化來學習資料集之間的标簽關系。

我們的方法與第二組更相關,但它提供了一個更具可擴充性和可泛化的訓練配方,不需要訓練多個特定于資料集的分類器,也不需要手動設計規則來關聯類标簽。此外,與現有的多資料集檢測器不同,ScaleDet還能夠泛化到包含不可見類的資料集。

視覺語言模型(VLMs)利用視覺和語言學習來解決視覺識别問題。通過橋接大規模視覺和語言資料,視覺語言模型(VLMs),如VirTex、CLIP、ALIGN、FILIP、UniCL和LiT,在學習可轉移的視覺表征方面表現出色,并且可以很好地推廣到下遊任務。最近,vlm在分割和檢測方面進行了探索。在檢測方面,大多數vlm利用輔助的富語義視覺語言資料集作為預訓練資料來建構能夠解決多個任務的模型,包括開放詞彙檢測,以MDETR、RegionCLIP、GLIP、X-DETR和Detic為代表。例如,MDETR使用各種視覺和語言資料集(例如,Flickr30k, Visual genome)來訓練VLM,該VLM允許由文本查詢引導的執行個體智能檢測。GLIP使用27M接地資料建構統一的VLM進行檢測和接地。X-DETR在基礎和圖像标題資料集上訓練VLM,以在一個模型中解決多個基于執行個體的視覺語言任務。Detic使用檢測和大規模分類資料集來訓練一個大詞彙檢測器。我們利用類似于其他vlm的預訓練文本編碼器,例如,RegionCLIP使用CLIP,而MDETR, X-DETER使用RoBERTa。然而,我們的模型直接在檢測資料集上進行訓練,而其他vlm使用圖像字幕或接地資料集與檢測資料集聯合訓練。

3.ScaleDet:一個可擴充的多資料集檢測器

我們的目标是訓練目标檢測器,當我們增加用于訓練的資料集數量時,它可以更好地泛化。多資料集訓練的一個關鍵挑戰是通過關聯語義概念來統一資料集間的異構标簽空間。為了應對這一挑戰,我們提出了一個簡單而有效的方法來訓練可擴充的多資料集檢測器(ScaleDet,圖2)。ScaleDet通過統一不同的标簽集來形成統一的語義标簽空間(圖2頂部),并通過硬标簽和軟标簽配置設定進行訓練,以實作視覺文本對齊(圖2底部)。在第3.2節和第3.3節中,我們将詳細介紹這兩項貢獻,但首先我們将讨論第3.1節中的準備工作和問題表述。

CVPR2023:ScaleDet:一個可伸縮的多資料集目标檢測器

3.1. 入門和問題的表述

标準目标檢測 一個典型的對象檢測器的目标是預測屬于預定義的n個類集合的任何對象的邊界框位置bi∈R4和類标号ci∈Rn。給定圖像I,檢測器的圖像編碼器(例如CNN或Transformer)提取盒特征和視覺特征,并将其饋送給盒回歸器B和視覺分類器c。檢測器通過最小化邊界盒回歸損失Lbbox和分類損失Lcls來訓練,以學習給定盒特征和視覺特征的邊界盒和類标簽的預測,即

CVPR2023:ScaleDet:一個可伸縮的多資料集目标檢測器

現有的目标檢測器通常采用單階段或兩階段架構,這可能會在Eq.(1)中包含額外的損失項。例如,單階段檢測器使用回歸損失來回歸目标位置的屬性,如中心。兩階段檢測器使用區域建議網絡,該網絡具有自己的專用損失函數,可以預測每個盒子的對象性。在這項工作中,我們專注于重新制定Eq.(1)中的分類損失lcl,以解決基于兩階段檢測器的多資料集訓練問題。

多資料集對象檢測 給定K個資料集{D1, D2,…, DK},它們的标簽空間{L1, L2,…,我們的目标是訓練一個可擴充的多資料集檢測器,它可以很好地泛化上遊和下遊檢測資料集。之前的多資料集學習器将資料集中的相似标簽關聯或合并為聯合标簽,與之相反,我們提出了一個簡單但可擴充的公式來統一标簽,而無需顯式合并任何标簽。我們利用來自強大的預訓練視覺語言模型的資訊文本嵌入來定義和關聯不相同标簽空間{L1, L2,…,Lk}。我們将在以下幾節中介紹我們的方法。

3.2. 多資料集标簽空間的可伸縮統一

如圖2(頂部)所示,在訓練過程中,從多個訓練集中随機抽取一小批圖像,并将其饋送到檢測器中,得到視覺特征{v1, v2,…, vj},其中vi∈RD是一個d維向量。每個視覺特征vi與一組文本嵌入{t1, t2,…, n}通過标簽指派。下面,我們詳細介紹了如何使用文本提示定義語義标簽,并将标簽空間與标簽語義相似度統一起來,用于多資料集訓練。

用文本提示定義标簽 我們用文本提示來表示每個類标簽li,例如,标簽“person”可以用文本提示“a photo of a person”來表示。我們從預訓練的視覺語言模型(例如CLIP或OpenCLIP)的文本編碼器中提取提示文本嵌入,并對一組預定義文本提示(稱為提示工程)進行平均嵌入,以将标簽li表示為語義文本嵌入ti。

通過連接配接統一标簽空間 考慮到所有資料集中的類标簽的文本嵌入,多資料集訓練的一個關鍵問題是統一不相同的标簽空間{L1, L2,…, LK},這可以通過将相似标簽關聯并合并成一個統一的标簽集來解決。然而,如果沒有仔細的人工檢查,這就會導緻由于标簽定義的模糊性,在模型訓練中傳播錯誤的風險,例如,标簽“男孩”和“女孩”是相似的,但不應該合并。是以,我們不是合并跨資料集的标簽,而是通過連接配接統一不同的标簽空間:

CVPR2023:ScaleDet:一個可伸縮的多資料集目标檢測器

式中II為餘積(即兩個标簽集的不相交并);Lk,i是資料集k中的标簽i(我們在下面省略k)。除了簡單之外,我們的統一語義标簽空間L的表述最大限度地保留了所有标簽的語義,進而為訓練提供了更豐富的詞彙。

根據語義相似性關聯标簽 當我們使用文本嵌入來表示類标簽時,我們可以在統一的标簽空間中關聯具有相似語義的标簽。例如,LVIS中的“person”标簽應該與OpenImages中的“person”和“boy”标簽相關,因為它們在語義上是相似的。為了揭示資料集之間的标簽關系,我們使用提示文本嵌入來計算語義相似度。對于給定的類标簽li,其相對于所有标簽的語義相似度由餘弦相似度導出,并在0到1之間歸一化:

CVPR2023:ScaleDet:一個可伸縮的多資料集目标檢測器

其中sim(li, lj)為兩個标簽li, lj的文本嵌入ti, tj之間的語義相似度,對它們的語義關系進行編碼,例如,标簽“person”和“boy”強相關,相似度高,而标簽“person”和“avocado”弱相關,相似度低。

對所有n個類标簽之間的标簽關系進行編碼的标簽語義相似度矩陣S可以寫成:

CVPR2023:ScaleDet:一個可伸縮的多資料集目标檢測器

其中S是一個n × n矩陣,每個行向量si編碼标簽li相對于所有n個類标簽的語義關系。有了這些标簽語義相似度,我們可以引入顯式限制,允許檢測器在具有編碼标簽語義相似度(Eq.(4))的統一語義标簽空間(Eq.(2))上學習。重要的是,我們的公式(Eq. (2), Eq.(4))是離線計算的,這不會增加任何訓練和推理的計算成本,也不需要在擴大訓練資料集數量時重新制定模型。

3.3. 視覺語言對齊訓練

在統一的語義标簽空間{l1, l2,…, ln},我們将視覺特征與文本嵌入标記{t1, t2,…,通過硬标簽和軟标簽配置設定,如圖2(底部)所示,并在下面詳細說明。

視覺語言的相似之處 給定目标區域建議的視覺特征vi,我們首先計算vi與所有文本嵌入{t1, t2,…tn}:

CVPR2023:ScaleDet:一個可伸縮的多資料集目标檢測器

有了這些相似度分數,我們可以将視覺特征vi與具有以下損失項的文本嵌入對齊。

硬标簽配置設定 每個視覺特征vi都有其基真标簽li,是以可以通過硬标簽配置設定來比對li的文本嵌入ti,如下所示:

CVPR2023:ScaleDet:一個可伸縮的多資料集目标檢測器

其中BCE(·)為二進制交叉熵損失,σsg(·)為s型激活,τ為溫度超參數。Eq.(6)確定視覺特征vi與文本嵌入ti對齊。然而,它沒有顯式地學習資料集之間的标簽關系,我們引入了軟标簽配置設定來學習語義标簽關系。

軟标簽配置設定 由于每個标簽通過Eq.(4)中計算的語義相似度與所有類标簽在語義上相關,是以視覺特征也可以通過使用語義相似度得分與所有文本嵌入相關。為此,我們引入視覺特征vi的軟标簽配置設定:

CVPR2023:ScaleDet:一個可伸縮的多資料集目标檢測器

式中MSE(·)為均方誤差,si表示标簽li與Eq.(3)中标簽語義相似矩陣S的第i行所有n個類标簽之間的語義相似度。在機率空間中施加硬标簽配置設定(Eq.(6))來消除不同類标簽的歧義,而在語義相似度空間中施加軟标簽配置設定(Eq.(7))來将每個視覺特征配置設定給具有不同語義相似度的文本嵌入,進而作為一個正則化器來關聯資料集之間的相似類标簽。

語義标簽監督訓練 通過硬标簽和軟标簽的配置設定,我們通過将視覺特征與統一語義标簽空間中的文本嵌入對齊來訓練檢測器對不同的區域建議進行分類。即将Eq.(1)中的分類損失lcl替換為

CVPR2023:ScaleDet:一個可伸縮的多資料集目标檢測器

其中λ是平衡兩個損失項的超參數,式(8)利用語言監督将圖像映射到文本,進而實作對未見标簽的零次檢測。

總體目标 由于我們專注于重新制定檢測器的多資料集訓練分類損失,我們不改變Eq.(1)中的損失Lbbox,我們訓練ScaleDet的總體目标是:

CVPR2023:ScaleDet:一個可伸縮的多資料集目标檢測器

使用LScaleDet進行訓練後,ScaleDet可以部署在任何包含可見或不可見類的上遊或下遊資料集上。通過将Eq.(2)中的統一标簽空間L替換為任意給定測試資料集的标簽空間,ScaleDet可以基于Eq.(3)中導出的視覺語言相似性計算标簽配置設定。當測試資料集包含未見過的類時,評估設定稱為零采樣檢測或開放詞彙對象檢測。為了在任何給定的資料集上進行測試,ScaleDet可以直接評估或在評估之前進行微調。

4. 實驗

我們在4.1節中詳細介紹了我們的實驗設定,我們在第4.2節中使用越來越多的資料集進行訓練時分析ScaleDet,并将其與第4.3節和第4.4節中标準基準測試中的最先進(SOTA)進行比較。我們在章節4.5中評估了ScaleDet在下遊資料集上的可轉移性,并在章節4.6中進行了消融研究。我們還在補充中提供了定性的視覺結果。

4.1. 實驗設定

上遊資料集 對于我們的多資料集訓練,我們采用以下四種流行的檢測資料集作為上遊資料集:(1)COCO (C)包含80個常見的目标類别;(2) LVIS (L)具有大量的1203個目标類别,具有挑戰性的長尾分布;(3) Objects365 (O365)有365個對象類别;(4) OpenImages檢測(OID)在第六版中有601個對象類别。當我們在這四個資料集上訓練ScaleDet時,在統一的标簽空間(Eq.(2))中有2249個類标簽和3.7M張訓練圖像。

Downsteam資料集 為了評估不同未見資料集上的可轉移性,我們采用了最近具有挑戰性的“野外目标檢測”(ODinW)基準。它包含13個具有不同應用領域的公共對象檢測資料集,以模拟各種具有挑戰性的現實世界場景。其中一些資料集在不可見的領域捕獲可見類,如熱圖像中的人,而其他資料集捕獲不可見類,如水族館中的“水母”和“黃貂魚”(圖1,右下角)。要在ODinW上進行評估,可以直接評估模型(直接轉移),也可以在微調之後評估模型(微調轉移)。

評價名額 為了對上遊資料集進行評估,我們在COCO、LVIS和Objects365上使用标準mAP度量(即IoU門檻值為0.5至0.95的mAP)。在OpenImages上,我們遵循官方評估協定,該協定使用[email protected]和擴充的語義類層次結構。為了對下遊資料集進行評估,我們遵循[26],并在本節中報告了13個資料集的平均mAP。我們在附錄中提供了詳細的單個資料集的定性和定量結果。

實作細節 在我們的實驗中,除非明确說明,我們使用CenterNet2和在ImageNet21k上預訓練的主幹。我們使用來自CLIP或OpenCLIP的提示文本嵌入來編碼類标簽。為了增強,我們使用ResNet50, Swin Transformer作為主幹,使用大規模抖動和高效調整大小裁剪,輸入大小為640×640, 896×896。我們使用輸入大小為800×1333進行測試。我們使用Adam優化器,在8個V100 gpu上進行訓練。對于多資料集訓練,我們直接将所有資料集組合起來,使用重複因子采樣,不使用任何多資料集采樣政策。關于不同表的學習時間表的更多細節見附錄。

4.2. 使用越來越多的資料集進行訓練

評價設定 我們通過對單個資料集進行訓練來設定單資料集基線。我們使用文本嵌入來表示每個資料集的類标簽,并通過硬标簽配置設定來訓練每個資料集上的檢測器(Eq.(6))。為了評估ScaleDet在增加訓練資料集數量時的擴充情況,我們使用以下增量組合進行訓練:(1)LVIS+COCO, (2) L VIS+COCO+O365, (3) LVIS+COCO+O365+OID。這使得資料集的大小從218k→1.96M→3.7M,類标簽的數量從1283→1648→2249。在訓練基線和ScaleDet之後,我們替換Eq.(5)中的文本嵌入來表示每個資料集的标簽以進行評估。例如,為了對COCO進行評估,我們設定文本嵌入來表示COCO的80個類,并基于視覺文本相似性得出類預測。

CVPR2023:ScaleDet:一個可伸縮的多資料集目标檢測器

為了提高評估效率,對于表1、圖3和圖4中的結果,我們使用固定的輸入大小640×640、ResNet50主幹和來自CLIP的文本嵌入。然後,我們探索使用更大的主幹(Swin Transformers)和來自OpenCLIP的文本嵌入來分析表2中的主幹。

對上遊資料集的影響 表1顯示了增加資料集數量時對上遊資料集的評價,從中我們可以觀察到以下幾點。首先,不斷增加訓練資料集的數量會導緻更好的模型性能,例如mAP當訓練集數量從1個增加到4個時,LVIS從33.1、33.3、36.5提高到36.8。其次,使用ScaleDet進行多資料集訓練通常優于單資料集訓練(基線),例如,在LVIS、COCO、O365、OID上的mAP從33.1、46.8、28.8、69.3(基線)大大提高到36.8、47.1、30.6、69.4。這表明ScaleDet在異構标簽空間、不同資料集的不同領域學習得很好,并且不會過度拟合到任何特定的資料集。

對下遊資料集的影響 圖3顯示了在ODinW基準上直接傳輸的結果。值得注意的是,擴大ScaleDet的訓練資料集的數量可以顯著提高其在下遊資料集上的準确性(mAP),适用于所有設定(即,在資料集上,在類上,在未見過的類上)。在圖4中,我們進一步可視化了ScaleDet在ODinW中的一些下遊資料集上的性能。這些資料集要麼包含看不見的類,要麼來自與用于訓練的視覺域非常不同的視覺域。重要的是,ScaleDet在這兩種情況下都表現良好。例如,thermalDogsAndPeople包含新的熱圖像,但使用ScaleDet進行多資料集訓練能夠将其性能從19.4 mAP(單資料集)大大提高到40.6(全部4)。此外,浣熊需要對未見過的類進行定位,ScaleDet再次将零射擊檢測從39.2 mAP(單資料集)提高到48.3(全部4)。總體而言,圖3和圖4顯示了ScaleDet如何利用不同上遊資料集的協同優勢來提高其對下遊資料集的泛化。

CVPR2023:ScaleDet:一個可伸縮的多資料集目标檢測器

不同骨幹的作用 我們現在用不同的主幹和文本嵌入對ScaleDet進行測試(表2)。從ResNet50到swing - base Transformer增強圖像主幹的辨識能力,将mAP從46.0顯著提高到56.3(第1行vs第4行)。将文本嵌入從CLIP更改為OpenCLIP在使用較弱的主幹時(例如,+0.5 mAP與ScaleDet- t,第2行對第3行)比使用較強的主幹(例如,+0.2 mAP與ScaleDet- b,第4行對第5行)更有幫助。最後,通過微調,ScaleDet可以在mAP中進一步從56.5提高到58.0(第5行對第6行)。總的來說,所有這些結果都表明ScaleDet可以利用可擴充訓練集和強主幹的互補能力來實作具有競争力的模型性能。

CVPR2023:ScaleDet:一個可伸縮的多資料集目标檢測器

4.3. 與SOTA多資料集檢測器的比較

在本節中,我們将ScaleDet與兩種最新的(SOTA)多資料集檢測器UniDet和Detic進行比較。

與UniDet的比較 在表3中,我們遵循UniDet的設定,并在相同的資料集(COCO, O365, OID)上訓練ScaleDet,使用相同的ResNet50骨幹,SGD優化器和Detectron2代碼庫中的标準資料增強。在UniDet中,訓練多個特定于資料集的分類器,而ScaleDet由一個分類器使用語義标簽進行訓練。表3顯示了多資料集訓練的比較。ScaleDet優于UniDet, mAP為47.7 vs 45.4。此外,與單資料集訓練相比,ScaleDet在多資料集訓練方面有更好的改進餘地(第4,3行vs 2,1行)。在mAP方面,ScaleDet的差距為2.6分(47.7比45.1),UniDet的差距為1.1分(45.4比44.3)。這些結果顯示了在統一的語義标簽空間中學習的好處,而不是訓練多個特定于資料集的分類器(UniDet)。

CVPR2023:ScaleDet:一個可伸縮的多資料集目标檢測器

與Detic相比 在表4中,我們遵循Detic的設定,使用ResNet50骨幹網在L VIS和COCO上進行多資料集訓練。在Detic中,LVIS和COCO的統一标簽空間包含1203個類标簽,這些标簽是通過将兩個标簽集與wordnet synsets合并而得到的,而ScaleDet将它們的标簽(1203+80)“扁平化”為1283。表4(第1行和第2行)給出了比較。ScaleDet在COCO(44.9比43.9)和mAP(平均0.7)上比Detic高出1分。接下來,我們比較ScaleDet和Detic與更多的訓練集(表4,第3-5行)。ScaleDet使用更多的檢測資料集(O365,OID)進行訓練,而Detic使用14M額外的分類圖像(ImageNet21)作為大規模弱注釋資料集進行檢測。我們的結果表明,盡管Detic訓練的資料和類别标簽遠遠多于ScaleDet(資料清洗後的1260萬張圖像和22k個類别vs 3.7萬張圖像和2k個類别),但ScaleDet的性能仍然遠遠超過Detic的3.0個mAP點(41.9比38.9)。這些結果表明了從多個檢測資料集中學習的重要性,以及ScaleDet在這方面的有效性。

CVPR2023:ScaleDet:一個可伸縮的多資料集目标檢測器

4.4. 與COCO上的SOTA探測器比較

在本節中,我們将ScaleDet與不同類型的SOTA探測器在标準COCO基準上進行比較。不同的模型包括四種主要類型:(1)單資料集檢測器;(2)使用視覺和語言了解資料集訓練的檢測器,例如,UniT在8個資料集上對7個任務進行訓練,RegionCLIP使用來自概念标題的3M圖像-文本對進行訓練;(3)使用圖像分類資料集訓練檢測器,即使用ImageNet21k訓練Detic ;(4)僅使用檢測資料集訓練的多資料集檢測器,例如UniDet。

我們使用L VIS, COCO, O365, OID訓練ScaleDet,并在表5中給出結果,其中所有模型都使用ResNet50主幹進行訓練。ScaleDet是11個模型中性能最好的。此外,與使用大型視覺和語言或分類資料集(第7-9行)訓練的檢測器相比,ScaleDet給出了更好的性能,盡管它學習的概念數量要少得多—ScaleDet通過“隻”學習2249個标簽達到47.1分,而RegionCLIP和Detic通過學習6790和22047個概念分别達到42.7和42.4分。

CVPR2023:ScaleDet:一個可伸縮的多資料集目标檢測器

在表6中,我們将ScaleDet與使用Swin transformer作為主幹的競争對手進行比較。有了這個強大的骨幹,ScaleDet在所有模型中都展示了SOTA性能和高資料效率。在所有競争對手中,最近的glipb2 - b是唯一一個與ScaleDet表現相當的模型(58.8),但使用的訓練資料幾乎比ScaleDet多一個數量級(20.5M對3.5M)。

CVPR2023:ScaleDet:一個可伸縮的多資料集目标檢測器

總的來說,我們在表5和表6中的結果表明,ScaleDet提供了一個資料高效的訓練配方,可以從更少的視覺概念和更少的訓練資料中學習,但仍然在COCO上實作了最先進的性能。

4.5. SOTA在ODinW上的比較

我們在“野外目标檢測”(ODinW)基準上評估了可移植性,并将ScaleDet與SOTA預訓練的檢測器進行了比較,後者能夠在給定任何下遊檢測資料集的情況下進行直接和微調傳輸。表7給出了GLIP、GLIPv2、Detic、ScaleDet三種檢測器在ODinW上的比較。ScaleDet使用最小的訓練資料進行訓練,但它在微調遷移方面取得了最好的效果,甚至超過了GLIPv2-B 2.4分(71.8比69.4)。而在直接傳遞方面,GLIPv2-B更強;我們推測,這要歸功于其龐大的視覺語言訓練資料(20.5億),這些資料可能涵蓋了下遊資料集中未見過的概念。此外,當比較ScaleDet- r, ScaleDet- b與DeticR, deticb時,我們發現ScaleDet的結果明顯更好,例如,ScaleDet- r在直接轉移上比DeticR高出10.0分(39.4比29.4),在微調轉移上比DeticR高出4.1分(68.5比64.4)。這些觀察結果表明ScaleDet在轉移到下遊資料集方面的有效性。

CVPR2023:ScaleDet:一個可伸縮的多資料集目标檢測器

4.6. 消融實驗

最後,我們删除ScaleDet的元件。如章節所述,ScaleDet使用兩個損失項進行訓練:硬标簽配置設定Lhl (Eq.(6))和軟标簽配置設定Lsl (Eq.(7))。Lhl的目标是将每個視覺特征配置設定給一個相應的标簽,而Lsl則作為一個正則化器來關聯資料集上的标簽。表8a顯示了我們對4個上遊資料集的消融研究,表8b顯示了我們對下遊基準ODinW的直接轉移的消融。我們發現,使用兩個損失項(Lhl+Lsl)的訓練在上遊和下遊資料集上都能獲得更好的總體結果。例如,在表8a中,當使用兩個資料集(L+C)進行訓練時,Lhl+Lsl在4個上遊資料集上的結果一緻優于Lhl。在表8b中,當使用Lhl+Lsl在4個訓練集(L+C+O365+OID)上進行訓練時,與僅使用Lsl相比,mAP提高了1.5分(39.4-37.9),mAPC提高了1.1分(40.9-39.8)。這表明Lsl對于提高模型的泛化性是有價值的。總的來說,這些結果表明Lhl在上遊資料集中有效地完成了标簽配置設定,而Lsl在轉移到下遊資料集時發揮了更明顯的補充作用。

CVPR2023:ScaleDet:一個可伸縮的多資料集目标檢測器

5. 結論及未來工作

我們提出了ScaleDet,一個簡單但可擴充且有效的多資料集檢測訓練配方。ScaleDet在統一的語義标簽空間中跨多個資料集學習,通過硬标簽和軟标簽配置設定進行優化,以對齊視覺和文本嵌入。ScaleDet在多個上遊資料集(LVIS、COCO、Objects365、OpenImages)和下遊資料集(ODinW)上實作了最新的性能。由于ScaleDet成功的關鍵在于在統一的語義标簽空間中學習,是以我們的公式也可以推廣到其他視覺任務,如圖像分類和語義分割。我們把通用的多資料集多任務基礎模型的統一設計作為有前途和令人興奮的未來努力。

繼續閱讀