機器之心專欄
作者:騰訊優圖實驗室
在多标簽分類系統中,經常遇到大量在訓練集中未曾出現的标簽,如何準确地識别這些标簽是非常重要也極富挑戰性的問題。為此,騰訊優圖實驗室聯合清華大學和深圳大學,提出了一種基于多模态知識遷移的架構 MKT,利用圖文預訓練模型強大的圖文比對能力,保留圖像分類中關鍵的視覺一緻性資訊,實作多标簽場景的 Open Vocabulary 分類。本工作已入選 AAAI 2023 Oral。
- 論文連結:https://arxiv.org/abs/2207.01887
- 代碼連結:https://github.com/sunanhe/MKT
背景與挑戰
圖像多标簽識别算法的目标,是識别圖像中存在的所有類别标簽。作為計算機視覺應用中的一項基礎能力,在場景了解、監控系統、自動駕駛等任務中有着廣泛的應用。在實際落地場景中,多标簽識别系統不僅需要識别圖像中存在的大量已知類别标簽,最好還能較為準确地識别出未知标簽,即模型在訓練集中未曾見過的标簽。迄今為止,典型的有監督多标簽分類方法,隻能在訓練過的已知類别标簽上進行識别,遠遠無法滿足實際場景中對大量未知标簽的識别需求。是以,如何設計有效的算法,實作在有限的已知類别标簽上進行訓練,并在部署時同時支援在有限的已知類别和大量未知類别上的标簽識别,是實際落地場景中非常重要的問題。
解決思路
為了識别這些訓練集未知标簽,已有的多标簽零樣本學習(ML-ZSL)方法,往往通過從訓練集已知标簽到訓練集未知标簽的知識遷移,來實作對未知标簽的識别。然而,這些方法存在以下問題:
1. 這些方法隻利用預訓練語言模型(如 GloVe)的單模态知識,來提取已知和未知标簽的 Embedding,如圖 1. (b) 所示,而忽視了文本标簽的視覺語義資訊;
2. 盡管 GloVe 等語言模型可以比較好地提取單個 Word 标簽的 Embedding,如 'Cat',但是不能很好地擴充到由多個 Word 組成的标簽,如 'Black Cat',因而妨礙了模型在詞組标簽上的識别效果。
單模态的語言模型雖然很好地模組化了标簽之間的語義一緻性,但忽視了圖像分類中關鍵的視覺一緻性資訊。近來,基于圖文預訓練模型的 Open Vocabulary 分類模型,在單标簽 Open Vocabulary 分類任務上取得了令人印象深刻的效果,但如何将這種能力遷移到多标簽場景,仍是亟待探索的問題。
由此,研究者提出了一種基于多模态知識遷移(Multi-modal Knowledge Transfer, MKT)的架構,通過遷移大規模圖文預訓練模型中的多模态知識,挖掘文本标簽中的視覺一緻性資訊,實作了多标簽的 Open Vocabulary 分類。如圖 1. (c) 所示,MKT 模型主要包含圖像編碼器和圖文預訓練模型的圖像、文本編碼器。研究者采用知識蒸餾(Knowledge Distillation)和提示學習(Prompt-Tuning)來進一步增強圖像和文本 Embedding 的語義一緻性,進而更好地遷移圖文模型的圖文比對能力。在實踐中,知識蒸餾使得圖像編碼器提取的圖像 embedding 更好地與其相對應的文本 Embedding 對齊,而提示學習使得标簽 Embedding 更好地适應分類任務。除此之外,為了進一步提升特征表達能力,研究者提出了一種簡單有效的雙流特征提取子產品,同時捕獲局部和全局特征,進而增強模型的判别特征表示能力。通過上述設計,MKT 架構可以更好地利用圖文模型中豐富的語義資訊,遷移多模态知識,更好地識别訓練集未知标簽。
圖 1. ML-ZSL 和 MKT 方法比較
技術貢獻
該研究的主要技術貢獻可概括為如下幾點:
- 研究者提出了一種基于多模态知識遷移的 Open Vocabulary 多标簽識别架構 MKT,利用圖文預訓練模型中的多模态語義資訊,進行未知标簽的識别。這是業界首個研究 Open Vocabulary 多标簽分類任務的工作。
- MKT 架構主要包括圖像編碼器,和圖文預訓練模型的圖像和文本編碼器。研究者采用知識蒸餾來保證圖像和文本 Embedding 的一緻性,并引入提示學習機制來疊代更新标簽 Embedding。為進一步增強特征表示能力,研究者提出了雙流特征提取子產品,同時捕獲局部和全局特征。
- MKT 在 NUS-WIDE 和 Open Images 公開資料集上顯著超過了以往的 ML-ZSL 方法,在 Open Vocabulary 多标簽分類任務上達到 SOTA。
技術方案
MKT 總體框圖如圖 2. 所示,主要包含 Vision Transformer、雙流子產品(Two-Stream Module)、圖文預訓練(VLP)Image/Text Encoder 等子產品。其中,Vision Transformer 是提取圖檔語義特征的 Backbone 網絡。由于 CLIP 具有強大的圖文比對能力,研究者采用 CLIP 的圖像和文本編碼器作為圖文模型多模态知識的遷移來源。标簽 Embedding 由 CLIP 文本編碼器産生,并通過提示學習進一步更新。研究者引入知識蒸餾來促進圖像和文本 Embedding 的對齊。
圖 2. MKT 總體框圖
1.Backbone 網絡和雙流子產品
對于一張圖檔,首先經過分塊(Patchify)輸入 Vision Transformer 網絡,得到表征全局特征的 CLS Feature 和表征局部特征的 Patch Feature,然後分别采用全局 Head 和局部 Head,将全局和局部特征映射到 Embedding 空間,最後采用 TopK 平均的方式得到局部 Head 的相似度分數,與全局 Head 分數求平均得到最終預測分數,并采用排序損失(Ranking Loss)優化模型:
2. 知識蒸餾和特征對齊
圖像 Embedding 和對應标簽 Embedding 的對齊,在從已知标簽到未知标簽的知識遷移過程中非常重要,對于開放集合多标簽分類來說是十分關鍵的。考慮到 CLIP 模型在預訓練階段進行圖文對比訓練,産生的圖像和文本 Embedding 具有比較高的相似性,研究者采用知識蒸餾來遷移 CLIP 模型的多模态特征表示能力,促進圖像 Embedding 和相關文本 Embedding 之間的對齊,蒸餾損失函數如下式:
3. 标簽 Embedding 的提示學習
參照 CLIP,研究者首先使用固定模闆 "There is a {label} in the scene" 作為标簽上下文,将标簽文本送入 CLIP 文本編碼器,進而得到标簽 Embedding。由于固定模闆的文本與 CLIP 訓練時的自然文本存在差異,有理由認為通過這種方式産生的标簽 Embedding 不是最優的。是以,最好對标簽 Embedding 的産生過程進行進一步 finetune,但是由于訓練标簽數量有限,直接優化文本編碼器容易造成過拟合。受到 CoOp 的啟發,研究者采用提示學習,僅優化上下文 Embedding,其餘模型參數均固定,這種在 Embedding 空間連續搜尋的方式能夠促進最優上下文 Embedding 的學習,進而得到更好的标簽 Embedding。
4. 損失函數
研究者将 MKT 訓練過程分為兩個階段。在第一階段,标簽 Embedding 由預訓練的 CLIP 文本編碼器産生,Backbone 網絡和雙流子產品由排序損失和蒸餾損失聯合優化:
在第二階段,采用排序損失進行提示學習,隻優化标簽上下文 Embedding:
算法效果
為了驗證算法的效果,研究者在 NUS-WIDE 和 Open Images 兩個 Benchmark 資料集上進行實驗。NUS-WIDE 資料集包含 925 個已知标簽,81 個未知标簽,161,789 張訓練圖檔,107,859 張測試圖檔。更具挑戰性的 Open Images (v4) 資料集包含 7,186 個已知标簽,400 個未知标簽,900 萬張訓練圖檔,125,456 張測試圖檔。實驗結果見表 1.,可以看出 MKT 相比以往 ML-ZSL 的 SOTA 方法有明顯提升,也顯著優于直接微調(Fine Tune)CLIP 模型的結果(CLIP-FT)。
表 1. 不同方法在 NUS-WIDE 和 Open Images 資料集上 ZSL 和 GZSL 任務的比較
MKT 和 CLIP、BiAM 模型,在 NUS-WIDE 測試集上的示例圖檔可視化效果對比見圖 3.。
圖 3. NUS-WIDE 測試集示例圖檔及預測
MKT 和 BiAM 的 Grad-CAM 可視化效果對比見圖 4.。
圖 4. Grad-CAM 可視化比較
在表 2. 和表 3. 的消融實驗中,研究者對知識蒸餾、提示學習和雙流子產品進行了探索,驗證了這些子產品對于 MKT 架構多标簽識别效果的重要性。
表 2. 知識蒸餾和提示學習對實驗結果的影響
表 3. 雙流子產品對實驗結果的影響
總結
騰訊優圖實驗室針對現有多标簽分類方法對于大量訓練集不可見的未知類别标簽不能有效識别的問題,提出了一種可遷移多模态知識的通用 Open Vocabulary 多标簽學習架構:MKT。該研究遷移圖文預訓練模型強大的圖文比對能力,通過引入提示學習和知識蒸餾來優化标簽 Embedding 以及提升圖像 - 标簽 Embedding 的一緻性,并采用雙流子產品同時捕捉局部和全局特征,提高了模型的多标簽識别能力。在 NUS-WIDE 和 Open Images 兩個公開資料集上的實驗結果表明,該方法有效實作了 Open Vocabulary 的多标簽學習。
參考文獻
[1] Pennington J, Socher R, Manning CD. Glove: Global vectors for word representation. InProceedings of the 2014 conference on empirical methods in natural language processing (EMNLP) 2014 Oct (pp. 1532-1543).
[2] Radford A, Kim JW, Hallacy C, Ramesh A, Goh G, Agarwal S, Sastry G, Askell A, Mishkin P, Clark J, Krueger G. Learning transferable visual models from natural language supervision. InInternational Conference on Machine Learning 2021 Jul 1 (pp. 8748-8763). PMLR.
[3] Du Y, Wei F, Zhang Z, Shi M, Gao Y, Li G. Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language Model. InProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 2022 (pp. 14084-14093).
[4] Huynh D, Kuen J, Lin Z, Gu J, Elhamifar E. Open-vocabulary instance segmentation via robust cross-modal pseudo-labeling. InProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 2022 (pp. 7020-7031).
[5] Zhou K, Yang J, Loy CC, Liu Z. Learning to prompt for vision-language models. International Journal of Computer Vision. 2022 Sep;130 (9):2337-48.
[6] Huynh D, Elhamifar E. A shared multi-attention framework for multi-label zero-shot learning. InProceedings of the IEEE/CVF conference on computer vision and pattern recognition 2020 (pp. 8776-8786).
[7] Ben-Cohen A, Zamir N, Ben-Baruch E, Friedman I, Zelnik-Manor L. Semantic diversity learning for zero-shot multi-label classification. InProceedings of the IEEE/CVF International Conference on Computer Vision 2021 (pp. 640-650).
[8] Narayan S, Gupta A, Khan S, Khan FS, Shao L, Shah M. Discriminative region-based multi-label zero-shot learning. InProceedings of the IEEE/CVF International Conference on Computer Vision 2021 (pp. 8731-8740).