CVPR 2023｜小紅書提出 OvarNet 模型：開集預測的新SOTA，“萬物識别”有了新玩法

在 CVPR2023 上，小紅書社群技術團隊提出了一項全新任務 —— Open-vocabulary Object Attribute Recognition（面向開放詞彙的目标檢測與屬性識别）。該任務旨在采用單一模型對圖像中任何類别目标同時進行定位、分類和屬性預測，進而推動目辨別别能力向更高的深度和廣度發展。

本文提出了 OvarNet 這一全新模型，OvarNet 基于海量多模态資料預訓練的視覺語言模型開發，利用可獲得的目标檢測和屬性識别資料進行 Prompt Learning（提示式學習）。同時，為了進一步獲得高度可用的 Zero-shot 識别能力，我們從大規模圖文資料中提取細粒度的類别和屬性表示，進行弱監督學習。此外，我們還采用知識蒸餾的方式簡化模型計算複雜度，顯著提升 OvarNet 的實用性和時效性。實驗結果表明，OvarNet 在開集目标檢測和屬性識别任務上取得了新 SOTA，證明了識别語義類别和屬性對于視覺場景了解的互補性。

CVPR 2023｜小紅書提出 OvarNet 模型：開集預測的新SOTA，“萬物識别”有了新玩法

論文位址：

https://arxiv.org/abs/2301.09506

CVPR 2023｜小紅書提出 OvarNet 模型：開集預測的新SOTA，“萬物識别”有了新玩法

一、背景了解視覺場景中的目标一直以來都是計算機視覺發展的主要驅動力，例如，目标檢測任務的目的是在圖像中定位出目标并為其配置設定預定義的語義标簽，如“汽車”、“人”或“杯子”。盡管目标檢測算法取得了巨大的成功，但是這種任務定義在很大程度上簡化了我們對視覺世界的了解，因為一個視覺目标除了語義類别外，還可以從許多其他方面進行描述，例如，一輛公共汽車可以是“黃色”或“黑色”，一件襯衫可以是“條紋”或“無圖案”。是以，學習屬性可以補充類别級别的識别，進而獲得更全面更細粒度的視覺感覺。已有大量的研究表明，了解目标的屬性可以極大地促進目辨別别和檢測，甚至是對在訓練集中極少出現或根本沒有的視覺目标樣例。然而，這些開創性工作中所考慮的問題和今天的标準相去甚遠，例如，屬性分類通常在以目标為中心的圖像上進行訓練和評估，而且屬性的類别是固定的，有時甚至将目标的類别作為已知的先驗。在論文中，我們考慮在開放詞彙場景下同時檢測目标并分類屬性的任務，即模型僅在一組可見的目标類别和屬性上進行訓練，但在測試時需要推廣到未見過的目标類别和屬性，如下圖所示。完成這些任務我們觀察到三個主要挑戰：

首先，在現有的視覺語言模型中，例如 CLIP 和 ALIGN，從圖文對中學習得到的表示往往偏向于目标類别，而不是屬性，這導緻在直接用于屬性識别任務時存在特征不對齊的問題；
其次，沒有理想的訓練資料集同時包含三種類型（目标框、類别和屬性）的标注。據我們所知，隻有 COCO Attributes 資料集提供這樣程度的标注，但它的詞彙量相對有限 ( 196 個屬性，29 個類别)；
第三，在統一架構下訓練這三項任務仍未被探索，具有一定到挑戰性，即在開放詞彙場景下同時定位（“在哪裡”）和描述目标的語義類别和屬性（“是什麼”）。

為了解決上述問題，我們從一個簡單的架構開始，稱為 CLIP-Attr。該架構首先通過離線 RPN 從圖像中提取目标候選框，然後通過比較屬性詞嵌入和候選目标的視覺嵌入之間的相似度來實作開放式詞彙目标屬性識别。為了更好地對齊屬性詞和候選目标之間的特征，我們在文本編碼器端引入可學習的 prompt 向量，并在大量的圖文對資料上微調原始 CLIP 模型。為了進一步提高模型效率，我們提出了 OvarNet，這是一個統一的架構，可以在一次前向傳播中進行檢測和屬性識别。OvarNet 是通過在目标檢測和屬性預測兩個資料集上訓練，并通過蒸餾 CLIP-Attr 模型的知識來提高在 novel/unseen 屬性的性能。我們提出的 OvarNet 是第一個可擴充的管道，在開放詞彙場景下可以同時定位目标，并同時推斷視覺屬性和目标類别。實驗結果表明，盡管隻使用弱監督的圖文對資料對 OvarNet 進行蒸餾，但它在 VAW、MSCOCO、LSA 和 OVAD 資料集上的表現優于先前的最新技術，展現了對新屬性和類别的強大泛化能力。

二、方法

我們的方法主要分為 3 步：首先，利用目标檢測資料和屬性預測資料在開放詞彙場景下訓練一個簡單的兩階段的方法；然後，通過利用大量的圖文對資料進一步微調這個兩階段模型以提高在 novel/unseen 類别和屬性上的性能；最後，為了保證泛化性和前傳速度，我們基于知識蒸餾的範式設計了一個一階段的算法。2.1 兩階段算法作為社交圖譜資料，資料的一緻性至關重要。我們需要嚴格保證資料的最終一緻性以及一定場景下的強一緻性。為此，我們采取了以下措施：

作為社交圖譜資料，資料的一緻性至關重要。我們需要嚴格保證資料的最終一緻性以及一定場景下的強一緻性。為此，我們采取了以下措施：

2.2 圖文對資料微調首先，我們對圖文對資料進行預處理，從句子中解析出類别詞、屬性詞、和名詞短語；随後，我們使用預訓練的 CLIP-Attr 對資料進行僞标簽标注；最後為了避免噪聲标簽的影響，我們通過多執行個體 NCE 損失進行監督訓練。

下圖給出了利用海量圖文對資料微調 CLIP-Attr 的網絡結構圖。

2.3 單階段蒸餾算法盡管通過預先計算的提議框和上述的 CLIP-Attr 模型可以實作開放詞彙目标屬性預測，但其推理過程非常耗時，因為每一個裁剪後的區域都會輸入到視覺編碼器中。在這一部分，我們的目标是解決緩慢的推理速度，端到端地訓練一個用于目标檢測和屬性預測的 Faster-RCNN 類型的模型，稱為 OvarNet。圖像會被依次經過視覺編碼器、類别無關的區域提議網絡和開放詞彙屬性分類網絡。

下圖是其整體網絡架構。為了提高模型處理未知類别和屬性的能力，我們進一步加入了 CLIP-Attr 模型的額外知識進行蒸餾。

三、實驗

我們考慮的開放詞彙目标屬性識别包括兩個子任務：開放詞彙目标檢測和對所有檢測到的目标進行屬性分類。所采用的資料集有 MS-COCO、VAW、LSA 和 OVAD。為了評估模型的性能，在名額評價上我們同時考慮 box-given 和 box-free 的設定，使用 mAP 進行評價。

3.1 COCO 和 VAW 上的結果

3.2 OVAD 和 LSA 上的結果

3.3 一些可視化結果

四、結語

本文探讨了開放詞彙目标檢測和屬性識别問題，即同時定位目标并推斷它們的語義類别和視覺屬性。我們從一個簡單的兩階段架構（ CLIP-Attr ）開始，使用預訓練的 CLIP 對目标提議進行分類。為了更好地對齊以目标為中心的視覺特征與屬性概念，我們在文本編碼器側使用可學習提示向量。在訓練方面，我們采用聯合訓練政策來利用目标檢測和屬性預測資料集，并探索一種弱監督訓練方案，利用外部圖像-文本對增加識别新屬性的魯棒性。最後，為了提高計算效率，我們将 CLIP-Attr 的知識蒸餾到一種 Faster-RCNN 類型的模型中（稱為 OvarNet）。在 VAW、MS-COCO、LSA 和 OVAD 等四個不同的基準評估中，我們表明聯合訓練目标檢測和屬性預測有助于視覺場景了解，并大大優于現有方法獨立處理兩個任務的方法，展示了強大的泛化能力，可以處理新的屬性和類别。對内容的充分了解，是實作内容推薦和檢索的有效工具。在小紅書雙列布局場景下，對筆記封面圖篇的了解就顯得格外重要。采用本文所示的開集目标屬性識别能力，我們可以在更細粒度上對封面圖進行結構化了解。比如除了可以檢測到人物之外，還可以進一步标記人物衣着、姿态等屬性，進而在進行推薦和檢索時，實作更加智能和個性化的内容推薦。此外，在建構小紅書的内容品質體系時，通過對圖檔的充分解析，我們能夠更精确地描述一篇筆記的品質分級，進而實作内容基于品質的差異化分發。

五、作者介紹

陳科研現博士就讀于北京航空航天大學，曾在 Proceedings of the IEEE、TGRS、CVPR 等發表多篇論文。主要研究方向為遙感圖像處理，多模态學習。萊戈小紅書生态算法團隊負責人。曾在 CVPR、ICCV、ECCV、TNNLS、TGRS 等會刊發表 10 餘篇論文，曾獲 YouTube-VOS 視訊分割競賽 Top-3 排名，曾獲天池視覺分割大獎賽複賽第 1 名。主要研究方向：目标跟蹤、視訊分割、多模态分類/檢索等。湯神小紅書智能創作團隊負責人。曾在 CVPR、ECCV、ICCV、TIFS、ACMMM 等會議與期刊發表近 20 篇論文。多次重新整理 WiderFace 和 FDDB 國際榜單世界記錄，ICCV Wider Challenge 人臉檢測國際競賽冠軍，ICCV VOT 單目标跟蹤冠軍，CVPR UG2+亞軍。

作者：小紅書技術團隊本文來源：公衆号【小紅書技術REDtech】

Illustration by IconScout Store from IconScout

-The End-

掃碼觀看！

本周上新！

“AI技術流”原創投稿計劃

TechBeat是由将門創投建立的AI學習社群（www.techbeat.net）。社群上線480+期talk視訊，2400+篇技術幹貨文章，方向覆寫CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高品質、知識型交流平台，希望為AI人才打造更專業的服務和體驗，加速并陪伴其成長。

投稿内容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經曆講述 //

投稿須知

稿件需要為原創文章，并标明作者資訊。

我們會選擇部分在深度技術解析及科研心得方向，對使用者啟發更大的文章，做原創性内容獎勵

投稿方式

發送郵件到

[email protected]

或添加從業人員微信（chemn493）投稿，溝通投稿詳情；還可以關注“将門創投”公衆号，背景回複“投稿”二字，獲得投稿說明。

>>> 添加小編微信！

關于我“門”▼将門是一家以專注于發掘、加速及投資技術驅動型創業公司的新型創投機構，旗下涵蓋、将門創新服務以及TechBeat人工智能社群。公司緻力于通過連接配接技術與商業，發掘和培育具有全球影響力的科技創新企業，推動企業創新發展與産業更新。

将門成立于2015年底，創始團隊由微軟創投在中國的創始團隊原班人馬建構而成，曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業，不僅想獲得投資，還希望獲得一系列持續性、有價值的投後服務，歡迎發送或者推薦項目給我“門”:

⤵一鍵送你進入TechBeat快樂星球

CVPR 2023｜小紅書提出 OvarNet 模型：開集預測的新SOTA，“萬物識别”有了新玩法

二、方法

三、實驗

3.1 COCO 和 VAW 上的結果

3.2 OVAD 和 LSA 上的結果

3.3 一些可視化結果

四、結語

五、作者介紹

繼續閱讀

Deep Watershed Transform for Instance Segmentation1. Watershed Transform2. Deep Watershed Tranform3. Experiments

實戰見真章，CVPR視覺競賽聯想展現AI算力硬實力

CVPR2022(oral):目标感覺雙對抗學習融合紅外和可見光多模态基準

聯想斬獲CVPR'23七項冠軍

Taskonomy : Distangling Task Transfer Learning2019.6.30 論文閱讀

CVPR2023錄用公布

CVPR2023:ScaleDet:一個可伸縮的多資料集目标檢測器

CVPR2023:圖像分類中的學習瓶頸概念

創新奇智榮獲CVPR2023細粒度視覺挑戰賽兩項冠軍

CVPR 2023上AIGC大爆發！46篇論文、代碼和資料集彙總

CVPR2010跟蹤算法MOSSE的配置（Visual Object Tracking using Adaptive Correlation Filters）

【CVPR 2021】Refine Myself by Teaching Myself : Feature Refinement via Self-Knowledge Distillation論文位址：主要問題：主要思路：具體實作：實驗結果：分割：聯系作者：我的公衆号：

CVPR 2018 目标檢測（Object Detection）

【醫學+深度論文：F26】2018 CVPR Performance assessment of the deep learning technologies in grading glaucoma26

人群密度估計 - CVPR2018最新論文CSRNet原理、配套代碼解析1 簡介2 提出問題3 解決辦法4 評估和比較

CVPR 2023｜小紅書提出 OvarNet 模型：開集預測的新SOTA，“萬物識别”有了新玩法

二、 方法

三、實驗

3.1 COCO 和 VAW 上的結果

3.2 OVAD 和 LSA 上的結果

3.3 一些可視化結果

四、結語

五、作者介紹

繼續閱讀

二、方法