小紅書提出 OvarNet 模型：開集預測的新SOTA，“萬物識别”新玩法

在 CVPR2023 上，小紅書社群技術團隊提出了一項全新任務 —— Open-vocabulary Object Attribute Recognition（面向開放詞彙的目标檢測與屬性識别）。該任務旨在采用單一模型對圖像中任何類别目标同時進行定位、分類和屬性預測，進而推動目辨別别能力向更高的深度和廣度發展。

本文提出了 OvarNet 這一全新模型，OvarNet 基于海量多模态資料預訓練的視覺語言模型開發，利用可獲得的目标檢測和屬性識别資料進行 Prompt Learning（提示式學習）。同時，為了進一步獲得高度可用的 Zero-shot 識别能力，團隊從大規模圖文資料中提取細粒度的類别和屬性表示，進行弱監督學習。此外，小紅書還采用知識蒸餾的方式簡化模型計算複雜度，顯著提升 OvarNet 的實用性和時效性。實驗結果表明，OvarNet 在開集目标檢測和屬性識别任務上取得了新 SOTA，證明了識别語義類别和屬性對于視覺場景了解的互補性。

了解視覺場景中的目标一直以來都是計算機視覺發展的主要驅動力，例如，目标檢測任務的目的是在圖像中定位出目标并為其配置設定預定義的語義标簽，如“汽車”、“人”或“杯子”。盡管目标檢測算法取得了巨大的成功，但是這種任務定義在很大程度上簡化了人們對視覺世界的了解，因為一個視覺目标除了語義類别外，還可以從許多其他方面進行描述，例如，一輛公共汽車可以是“黃色”或“黑色”，一件襯衫可以是“條紋”或“無圖案”。是以，學習屬性可以補充類别級别的識别，進而獲得更全面更細粒度的視覺感覺。

已有大量的研究表明，了解目标的屬性可以極大地促進目辨別别和檢測，甚至是對在訓練集中極少出現或根本沒有的視覺目标樣例。然而，這些開創性工作中所考慮的問題和今天的标準相去甚遠，例如，屬性分類通常在以目标為中心的圖像上進行訓練和評估，而且屬性的類别是固定的，有時甚至将目标的類别作為已知的先驗。

在論文中，小紅書社群技術團隊考慮在開放詞彙場景下同時檢測目标并分類屬性的任務，即模型僅在一組可見的目标類别和屬性上進行訓練，但在測試時需要推廣到未見過的目标類别和屬性，如下圖所示。完成這些任務能觀察到三個主要挑戰：(1) 首先，在現有的視覺語言模型中，例如 CLIP 和 ALIGN，從圖文對中學習得到的表示往往偏向于目标類别，而不是屬性，這導緻在直接用于屬性識别任務時存在特征不對齊的問題；(2) 其次，沒有理想的訓練資料集同時包含三種類型（目标框、類别和屬性）的标注。據研究人員所知，隻有 COCO Attributes 資料集提供這樣程度的标注，但它的詞彙量相對有限 ( 196 個屬性，29 個類别)；(3) 第三，在統一架構下訓練這三項任務仍未被探索，具有一定到挑戰性，即在開放詞彙場景下同時定位（“在哪裡”）和描述目标的語義類别和屬性（“是什麼”）。

為了解決上述問題，小紅書社群技術團隊從一個簡單的架構開始，稱為 CLIP-Attr。該架構首先通過離線 RPN 從圖像中提取目标候選框，然後通過比較屬性詞嵌入和候選目标的視覺嵌入之間的相似度來實作開放式詞彙目标屬性識别。為了更好地對齊屬性詞和候選目标之間的特征，在文本編碼器端引入可學習的 prompt 向量，并在大量的圖文對資料上微調原始 CLIP 模型。為了進一步提高模型效率，團隊提出了 OvarNet，這是一個統一的架構，可以在一次前向傳播中進行檢測和屬性識别。

OvarNet 是通過在目标檢測和屬性預測兩個資料集上訓練，并通過蒸餾 CLIP-Attr 模型的知識來提高在 novel/unseen 屬性的性能。小紅書社群技術團隊提出的 OvarNet 是第一個可擴充的管道，在開放詞彙場景下可以同時定位目标，并同時推斷視覺屬性和目标類别。實驗結果表明，盡管隻使用弱監督的圖文對資料對 OvarNet 進行蒸餾，但它在 VAW、MSCOCO、LSA 和 OVAD 資料集上的表現優于先前的最新技術，展現了對新屬性和類别的強大泛化能力。

方法主要分為 3 步：首先，利用目标檢測資料和屬性預測資料在開放詞彙場景下訓練一個簡單的兩階段的方法；然後，通過利用大量的圖文對資料進一步微調這個兩階段模型以提高在 novel/unseen 類别和屬性上的性能；最後，為了保證泛化性和前傳速度，團隊基于知識蒸餾的範式設計了一個一階段的算法。

2.1 兩階段算法

作為社交圖譜資料，資料的一緻性至關重要。需要嚴格保證資料的最終一緻性以及一定場景下的強一緻性。為此，小紅書社群技術團隊采取了以下措施：

作為社交圖譜資料，資料的一緻性至關重要。需要嚴格保證資料的最終一緻性以及一定場景下的強一緻性。為此，團隊采取了以下措施：

2.2 圖文對資料微調

首先，對圖文對資料進行預處理，從句子中解析出類别詞、屬性詞、和名詞短語；随後，使用預訓練的 CLIP-Attr 對資料進行僞标簽标注；最後為了避免噪聲标簽的影響，通過多執行個體 NCE 損失進行監督訓練。

下圖給出了利用海量圖文對資料微調 CLIP-Attr 的網絡結構圖。

2.3 單階段蒸餾算法

盡管通過預先計算的提議框和上述的 CLIP-Attr 模型可以實作開放詞彙目标屬性預測，但其推理過程非常耗時，因為每一個裁剪後的區域都會輸入到視覺編碼器中。在這一部分，目标是解決緩慢的推理速度，端到端地訓練一個用于目标檢測和屬性預測的 Faster-RCNN 類型的模型，稱為 OvarNet。圖像會被依次經過視覺編碼器、類别無關的區域提議網絡和開放詞彙屬性分類網絡。

下圖是其整體網絡架構。為了提高模型處理未知類别和屬性的能力，進一步加入了 CLIP-Attr 模型的額外知識進行蒸餾。

小紅書社群技術團隊考慮的開放詞彙目标屬性識别包括兩個子任務：開放詞彙目标檢測和對所有檢測到的目标進行屬性分類。所采用的資料集有 MS-COCO、VAW、LSA 和 OVAD。為了評估模型的性能，在名額評價上同時考慮 box-given 和 box-free 的設定，使用 mAP 進行評價。

3.1 COCO 和 VAW 上的結果

3.2 OVAD 和 LSA 上的結果

3.3 一些可視化結果

本文探讨了開放詞彙目标檢測和屬性識别問題，即同時定位目标并推斷它們的語義類别和視覺屬性。小紅書社群技術團隊從一個簡單的兩階段架構（ CLIP-Attr ）開始，使用預訓練的 CLIP 對目标提議進行分類。為了更好地對齊以目标為中心的視覺特征與屬性概念，在文本編碼器側使用可學習提示向量。在訓練方面，采用聯合訓練政策來利用目标檢測和屬性預測資料集，并探索一種弱監督訓練方案，利用外部圖像-文本對增加識别新屬性的魯棒性。最後，為了提高計算效率，将 CLIP-Attr 的知識蒸餾到一種 Faster-RCNN 類型的模型中（稱為 OvarNet）。在 VAW、MS-COCO、LSA 和 OVAD 等四個不同的基準評估中，團隊表明聯合訓練目标檢測和屬性預測有助于視覺場景了解，并大大優于現有方法獨立處理兩個任務的方法，展示了強大的泛化能力，可以處理新的屬性和類别。

對内容的充分了解，是實作内容推薦和檢索的有效工具。在小紅書雙列布局場景下，對筆記封面圖篇的了解就顯得格外重要。采用本文所示的開集目标屬性識别能力，可以在更細粒度上對封面圖進行結構化了解。比如除了可以檢測到人物之外，還可以進一步标記人物衣着、姿态等屬性，進而在進行推薦和檢索時，實作更加智能和個性化的内容推薦。此外，在建構小紅書的内容品質體系時，通過對圖檔的充分解析，能夠更精确地描述一篇筆記的品質分級，進而實作内容基于品質的差異化分發。

論文位址：https://arxiv.org/abs/2301.09506

陳科研

現博士就讀于北京航空航天大學，曾在 Proceedings of the IEEE、TGRS、CVPR 等發表多篇論文。主要研究方向為遙感圖像處理，多模态學習。

萊戈

小紅書生态算法團隊負責人。曾在 CVPR、ICCV、ECCV、TNNLS、TGRS 等會刊發表 10 餘篇論文，曾獲 YouTube-VOS 視訊分割競賽 Top-3 排名，曾獲天池視覺分割大獎賽複賽第 1 名。主要研究方向：目标跟蹤、視訊分割、多模态分類/檢索等。

湯神

小紅書智能創作團隊負責人。曾在 CVPR、ECCV、ICCV、TIFS、ACMMM 等會議與期刊發表近 20 篇論文。多次重新整理 WiderFace 和 FDDB 國際榜單世界記錄，ICCV Wider Challenge 人臉檢測國際競賽冠軍，ICCV VOT 單目标跟蹤冠軍，CVPR UG2+亞軍。

算法工程師-社群生态

崗位職責：

1. 職責包括但不限于圖文、視訊等多模态内容的分類、檢索、去重等工作，旨在優化平台内容生态、提升内容品質和分發效率，提高使用者體驗；

2. 負責 CV 相關算法研發，包括但不限于：圖像/視訊分類、圖像檢測/分割、視訊了解、人臉識别、OCR、自監督學習等；

3. 負責 NLP 相關算法研發，包括但不限于：文本分析、語義分析、事件提取、分類、聚類、情感、問答、關系抽取、知識圖譜等；

4. 完成算法的快速實作以及大規模工業化部署，參與創新性算法的研究以及開發工作；提供系統解決方案，打造可複用的社群業務平台能力，提升社群核心服務穩定性；有網際網路内容生态相關技術從業經驗者優先；

任職要求：

1. 計算機/電子資訊/自動控制/軟體工程/數學等相關專業，碩士及以上學曆

2. 優秀的分析、解決問題能力，對新技術充滿好奇，敢于挑戰高難度，善于提出解決方案并快速驗證；

3. 熟練掌握 PyTorch/TensorFlow 等深度學習架構中的至少一種；

4. 具備優秀的程式設計能力和經驗，熟悉 Python、C/C++、Java 等程式設計語言，具有紮實的資料結構和算法功底；

5.具備優秀的研究和創新能力，在CVPR/ ICCV/ ECCV 與 ICML/ ACL/ EMNLP/ KDD/ AAAI 等計算機視覺&自然語言處理&機器學習領域國際頂會或頂刊上發表過論文或workshop獲獎者優先; 在國際競賽(如: ACM ICPC, Kaggle , KDD Cup 等)中獲得過優異成績者優先；

歡迎感興趣的朋友發送履歷至：[email protected]；

并抄送至：[email protected]

NLP算法工程師-智能創作

崗位職責：

基于高品質的小紅書内容生态，研發實用領先的 NLP 智能創作技術，技術棧包括關鍵詞提取、情感分析、上下文了解、命名實體識别、詞性标注、句法分析、機器翻譯、文本摘要、問答系統等，廣泛支援智能内容創作需求，創造小紅書獨有的産品使用者價值。

任職要求：

1. 熟悉語言知識表示、多模态生成模型及 NLP 智能創作，在以下一個或多個領域有深入的研究及落地經驗，包括但不限于：NLP 生成、文案創作、多輪對話、模型壓縮等

2. 具有優秀的程式設計基礎及動手能力、良好的工作習慣，豐富的業務落地實戰經驗，優秀的快速學習能力

3. 敢于應對實際挑戰，有堅韌的品質、優秀的自驅能力，善于主動溝通表達和團隊協作

4. 發表 ML/NLP 等頂會/期刊論文、取得權威競賽 Top 名次、ACM 程式設計國際競賽 Top 成績者優先

歡迎感興趣的朋友發送履歷至：[email protected]；

并抄送至：[email protected]