原文連結：https://www.techbeat.net/article-info?id=4614&isPreview=1

作者：林闖

目标檢測任務在AI工業界具有非常廣泛的應用，但由于資料擷取和标注的昂貴，檢測的目标一直被限制在預先設定好的有限類别上。而在學術界，研究者們開始探索如何識别更廣泛的目标類别，擴大目标檢測在實際場景中的應用範圍。本文介紹一篇剛剛被ICLR 2023錄用的文章，該文使用少量的目标檢測标注資料和大量的圖像-文本對作為訓練資料，基于二分比對的思想從圖像-文本對中提取區域-詞語對，擴充了目标檢測的物體類别，實作開放世界中的目标檢測。

ICLR 2023｜VLDet：從圖像-文本對中學習區域-詞語對齊的開放詞彙式目标檢測一、背景二、核心想法三、方法四、實驗五、總結

論文連結：

https://arxiv.org/abs/2211.14843

代碼連結：

https://github.com/clin1223/VLDet

一、背景

什麼是開放詞彙式目标檢測(open-vocabulary object detection)?

現今，目标檢測任務在一些學術資料集上已經取得了很好的效果。這些資料集通常預先設定好一定的目标類别，如果需要擴大檢測的目标種類，那麼需要為新的類别标注資料，再重新訓練模型來達到目的。然而這樣的做法并不是人工智能的最終答案，因為人類可以在開放的環境中感覺世界，而不局限于固定的類别。這開始讓我們思考視覺模型可以不可以在開放的詞彙下進行目标檢測，也就是說我們希望視覺模型以零樣本的方式識别任意之前未知的類别。很自然地，我們想到利用自然語言的監督，因為我們可以獲得大量幾乎免費的、具有豐富語義的多模态資料。

在這樣的背景下，本文嘗試用少量具有标注的目标檢測資料和大量無标注的的圖像-文本對作為訓練資料，得到可擴充的目标檢測器，進而達到對訓練中未知的類别進行檢測，提高檢測器的可擴充性和效率。

此時面臨的挑戰是：訓練一個傳統的檢測器需要人工标注的邊界框和物體類别，同樣的，如果想利用自然語言監督圖像中的目标那麼就需要區域-詞語的對應關系。那麼該如何從圖像-文本對中學習細粒度的區域-詞語對應關系？

二、核心想法

本文的主要思想是，從圖像-文本對中提取區域-詞語對可以表示為一個集合比對問題，可以通過找到區域和詞語之間具有最小全局比對成本的二分比對來有效地解決這個問題。

具體來說，我們将圖像中的區域特征視為一個集合，将文本中的詞語編碼視為另一個集合，并将點積相似度作為區域-詞語對齊分數。為了找到最低成本，最優二分比對将強制每個圖像區域在圖像-文本對的全局監督下與其對應的詞語對齊。通過用最佳區域-詞語對齊損失代替目标檢測中的分類損失，我們的方法可以幫助将每個圖像區域與相應的詞語比對并完成目标檢測任務。

ICLR 2023｜VLDet：從圖像-文本對中學習區域-詞語對齊的開放詞彙式目标檢測一、背景二、核心想法三、方法四、實驗五、總結

針對以上宗旨，本文提出三大貢獻。

本文提出了一種開放詞彙式目标檢測方法VLDet，可以直接從圖像-文本對資料中學習區域-詞語對齊。
本文将區域-詞語對齊表述為一個集合比對問題，并使用匈牙利算法有效地解決它。
在兩個基準資料集 OV-COCO 和 OV-LVIS 上進行的廣泛實驗證明了VLDet的卓越性能，尤其是在檢測未知類别方面。

三、方法

Recap on Bipartite Matching

在介紹我們的方法前先來回顧一下二分圖比對，假設有 X X X 個勞工和 Y Y Y 個工作。每個勞工都有他/她有能力完成的某些工作。每個工作隻能接受一個勞工，每個勞工隻能被任命為一個工作。因為每個勞工都有不同的技能，将勞工 x x x 配置設定執行工作 y y y 所需的成本是 d x , y d_{x,y} dx,y ，目标是确定最佳配置設定方案，使總成本最小化或團隊效率最大化。限制條件是如果有更多的勞工，確定每個工作配置設定給一個勞工；否則，確定每個勞工都被配置設定到一份工作。

Learning Object-Language Alignments from Image-Text Pairs

本文将每個圖像區域定義為試圖找到最合适的“勞工”的“工作”，并将每個文本詞語定義為找到最有信心“工作”的“勞工”。在這種情況下，本文的方法從全局角度将區域和詞語對齊任務轉換為集合到集合的二分比對問題。圖像區域 R = [ r 1 , r 2 , . . . , r m ] R=[r_1,r_2,...,r_m] R=[r1,r2,...,rm] 和文本詞語 W = [ w 1 , w 2 , . . . , w n ] W=[w_1,w_2,...,w_n] W=[w1,w2,...,wn] 之間的成本定義為對齊分數 S = W R T S = WR^T S=WRT , 然後可以通過匈牙利算法有效地解決二分比對問題。比對後，将得到的區域-詞語對作為優化目标，對檢測模型的分類分枝通過以交叉熵損失進行優化。

目标詞彙表：本文将目标詞彙設定為每個訓練批次中圖像标題中的所有名詞。從整個訓練過程來看，本文的詞彙表遠大于資料集的标簽空間。本文的實驗表明，這種設定不僅實作了理想的開放詞彙式檢測，而且還達到了更好的性能。

Network Architecture

VLDet網絡包括三個部分：視覺目标檢測器，文本編碼器和區域-詞語之間的對齊。本文選擇了Faster R-CNN作為目标檢測模型。目标檢測的第一階段與Faster R-CNN相同，通過RPN預測前景目标。為了适應開放詞彙的設定，VLDet在兩個方面修改了檢測器的第二階段：（1）使用所有類共享的定位分支，定位分支預測邊界框而不考慮它們的類别。 (2) 使用文本特征替換可訓練分類器權重，将檢測器轉換為開放詞彙式檢測器。本文使用固定的預訓練語言模型CLIP作為文本編碼器。

ICLR 2023｜VLDet：從圖像-文本對中學習區域-詞語對齊的開放詞彙式目标檢測一、背景二、核心想法三、方法四、實驗五、總結

四、實驗

VLDet在OV-COCO和OV-LVIS的未知類上的表現都達到了SoTA，同時表明了從全局角度學習區域-詞語對齊的有效性。

ICLR 2023｜VLDet：從圖像-文本對中學習區域-詞語對齊的開放詞彙式目标檢測一、背景二、核心想法三、方法四、實驗五、總結

表1. VLDet在OV-COCO基準資料集上的結果。COCO被分為48個已知類和17個未知類，VLDet使用已知類作為檢測訓練資料和COCO Caption作為圖像-文本對訓練資料。

ICLR 2023｜VLDet：從圖像-文本對中學習區域-詞語對齊的開放詞彙式目标檢測一、背景二、核心想法三、方法四、實驗五、總結

表2. VLDet在OV-LVIS基準資料集上的結果。LVIS被分為866個已知類和337個未知類，VLDet使用已知類作為檢測訓練資料和CC3M作為圖像-文本對訓練資料。

One-to-One vs. One-to-Many.

從圖像-文本對中提取圖像區域-文本詞語對的關鍵是從全局角度優化配置設定問題。為了進一步研究配置設定算法的影響，本文考慮了兩種全局算法，Hungarian和 Sinkhorn算法，其中前者進行一對一的區域-詞語配置設定，後者提供一個詞語-多個區域的配置設定。考慮到圖像中可能存在同一類别的多個執行個體，Sinkhorn算法能夠為同一個詞比對多個區域，然而同時它也可能引入更多噪聲。從下表中可以觀察到一對一配置設定的表現均優于一對多配置設定。其中的原因是一對一的配置設定假設通過為每個單詞提供高品質的圖像區域來大幅減少錯誤區域-詞語對。

ICLR 2023｜VLDet：從圖像-文本對中學習區域-詞語對齊的開放詞彙式目标檢測一、背景二、核心想法三、方法四、實驗五、總結

Object Vocabulary Size.

VLDet使用COCO Caption和CC3M中的所有名詞并過濾掉低頻詞，統計共名詞詞語4764/6250個。我們分析了用不同的詞彙量訓練我們的模型的效果。我們将目标詞彙表替換為 COCO 和 LVIS 資料集中的類别名稱，即僅使用文本中的類别名稱而不是所有名詞。從下表中可以看出，更大的詞彙量在 OV-COCO和OV-LVIS的未知類别上分别實作了 1.8% 和 1.5% 的增益，這表明使用大詞彙量進行訓練可以實作更好的泛化。換句話說，随着詞彙量的增加，模型可以學習更多的目智語言對齊方式，這有利于提高推理過程中的未知類性能。

ICLR 2023｜VLDet：從圖像-文本對中學習區域-詞語對齊的開放詞彙式目标檢測一、背景二、核心想法三、方法四、實驗五、總結

更多的實作細節和消融實驗請檢視原文。

五、總結

本文的主要目标是探索開放詞彙式的目标檢測，希望檢測模型以零樣本的方式識别任意之前未知的類别。本文将區域-詞語對齊表述為一個集合比對問題，并提出了VLDet，模型可以直接從圖像-文本對資料中學習區域-詞語對齊。希望本文能夠推動 OVOD 的發展方向，并激發更多關于大規模免費圖像-文本對資料的工作，進而實作更像人類、開放詞彙式的計算機視覺技術。

Illustration by Twin Rizki from IconScout

-The End-

關于我“門”

▼

将門是一家以專注于發掘、加速及投資技術驅動型創業公司的新型創投機構，旗下涵蓋将門創新服務、将門-TechBeat技術社群以及将門創投基金。

将門成立于2015年底，創始團隊由微軟創投在中國的創始團隊原班人馬建構而成，曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業，不僅想獲得投資，還希望獲得一系列持續性、有價值的投後服務，歡迎發送或者推薦項目給我“門”：

[email protected]

ICLR 2023｜VLDet：從圖像-文本對中學習區域-詞語對齊的開放詞彙式目标檢測一、背景二、核心想法三、方法四、實驗五、總結

一、背景

什麼是開放詞彙式目标檢測(open-vocabulary object detection)?

二、核心想法

三、方法

Recap on Bipartite Matching

Learning Object-Language Alignments from Image-Text Pairs

Network Architecture

四、實驗

One-to-One vs. One-to-Many.

Object Vocabulary Size.

五、總結

繼續閱讀

車道線檢測

自監督｜「CoCLR」視訊自監督對比學習筆記

iOS 從證書申請到上架App Store流程( xcode 5)詳細解析

推技術聊天室的實作(下)

視訊對象分割（Video Object Segmentation）研究小記任務定義與資料集技術路線分類基于神經網絡的模型總結

目标檢測：YOLOV3論文解讀一、yolov3論文解讀

java性能、負載、壓力測試工具

Pytorch機器學習（九）—— YOLO中對于錨框，預測框，産生候選區域及對候選區域進行标注詳解 Pytorch機器學習（九）—— YOLO中錨框，預測框，産生候選區域及對候選區域進行标注詳解前言一、基本概念二、代碼講解總結

opencv視覺跟蹤——消除背景模組化

圖形處理單元(GPU)的演進

2021-09-30三維點雲測量正方形包裹體積

DOG算子

HTML的簡述

視覺傳感器在無人駕駛領域取得技術突破

vs2010 MFC 點選對話框按鈕無法建立響應函數

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

ICLR 2023｜VLDet：從圖像-文本對中學習區域-詞語對齊的開放詞彙式目标檢測一、 背景二、核心想法三、方法四、實驗五、總結

一、 背景

什麼是開放詞彙式目标檢測(open-vocabulary object detection)?

二、核心想法

三、方法

Recap on Bipartite Matching

Learning Object-Language Alignments from Image-Text Pairs

Network Architecture

四、實驗

One-to-One vs. One-to-Many.

Object Vocabulary Size.

五、總結

繼續閱讀

ICLR 2023｜VLDet：從圖像-文本對中學習區域-詞語對齊的開放詞彙式目标檢測一、背景二、核心想法三、方法四、實驗五、總結

一、背景