AAAI 2023 | 語言模型如何增強視覺模型的零樣本能力？

作者：将門創投 2023-07-03 10:21:00

該論文設計了一種新的零樣本學習範式，通過遷移語言模型中的先驗語義知識，與視覺模型的特征感覺能力進行對齊，以增強後者對于未見過圖像的識别能力。

AAAI 2023 | 語言模型如何增強視覺模型的零樣本能力？

圖1：屬性級對比學習

AAAI 2023 | 語言模型如何增強視覺模型的零樣本能力？

文章連結：

https://arxiv.org/abs/2207.01328

項目位址：

https://github.com/zjukg/DUET

AAAI 2023 | 語言模型如何增強視覺模型的零樣本能力？

一、引言零樣本學習（Zero-shot learning, ZSL）旨在預測在訓練期間從未出現過樣本的未知類别。對于零樣本圖像分類來說，最有效且廣泛使用的語義資訊是屬性，它們用于描述類别級别視覺特征。然而目前的方法難以區分圖像間的微妙視覺差異，這不僅來源于細粒度屬性注釋的不足，還由于屬性間的不平衡和共現現象。

AAAI 2023 | 語言模型如何增強視覺模型的零樣本能力？

圖2-1：屬性間的不平衡和共現現象

AAAI 2023 | 語言模型如何增強視覺模型的零樣本能力？

圖2-2：屬性間的不平衡和共現現象

在本文中，作者提出了一種基于Transformer的端到端零樣本學習方法（DUET），它通過自監督的多模态學習範式将來自預訓練語言模型的潛在語義知識進行整合。貢獻如下

1.開發了一個跨模态語義基準網絡，以研究模型從圖像中分離語義屬性的能力；

2.應用了基于屬性級對比學習的政策，進一步增強模型對細粒度視覺特征的區分能力，克服屬性的共現和不平衡問題；

3.提出了多任務學習政策，考慮多模型目标。

該方法可以同時在連續型的屬性向量和離散型/結構化屬性特征場景下工作，具有比較好的遷移泛化能力。

二、傳統的零樣本學習範式v.s. DUET學習範式傳統的零樣本學習模式主要強調利用更多外部類别知識、進行資料增強，或研究更好的視覺編碼器。相比而言，該架構強調跨模态模型的知識遷移（圖3所示）。利用預訓練語言模型（PLMs）的知識，以自監督的方式将知識轉移到視覺轉換器編碼器中，進而實作對細粒度語義的有效定位。

具體來說，其利用基于提示（prompt）的特征序列轉換（FST），将不同類型的屬性轉換為文本序列。通過跨模态的語義定位網絡（Cross-modal Semantic Grounding）和屬性級對比學習（attribute-level contrastive learning）機制，利用跨模态的掩碼複原（cross-modal mask reconstruction）訓練目标從PLM中傳遞語義知識，同時緩解屬性不平衡和共現問題，提高模型對細粒度視覺特征的區分能力。

AAAI 2023 | 語言模型如何增強視覺模型的零樣本能力？

圖3：學習範式對比

三、方法概覽

AAAI 2023 | 語言模型如何增強視覺模型的零樣本能力？

圖4：DUET 模型總覽

本文引入了一個巧妙的屬性級别對比學習的模式，讓模型來重點關注那些整體相似的圖像中，容易造成困擾的細粒度特征差異。

第一步是屬性值序列化，文章從nlp社群中廣泛運用的prompt中獲得啟發，借鑒表格預訓練中的序列化模式，将圖檔屬性值以key: [value,…]的形式進行文本序列化。這樣做的好處是可以相容多種不同的屬性格式，包括知識圖譜（KG）形式，向量形式，離散格式。當然，為了增加屬性分布的多樣性（diversity），作者對屬性清單進行了基于機率的剪枝（attributes pruning），目的是為了防止模型因為屬性的頻繁共現而陷入懶惰學習。

AAAI 2023 | 語言模型如何增強視覺模型的零樣本能力？

跨模态的掩碼複原。想法其實很直接，圖像和文本同時輸入，文本掩碼，讓模型強制從圖像資訊中獲得相關屬性來恢複掩碼。這種方法其實在早期的多模态預訓練模型中非常見，目的是讓模型對齊視覺/語言的了解。而本文用一種巧妙的方法，讓視覺模型的零樣本學習能力得到了強化：

使用預訓練的語言模型（Bert）+預訓練視覺模型（ViT，Swin，DeiT等），通過添加跨模态注意力層（cross-attention layer）進行橋接，而不是直接用多模态預訓練模型。這樣的好處是可以最大程度利用語言模型的語義資訊和視覺模型的了解能力。
在視覺模型選擇上，規避掉了使用ImageNet-21K進行預訓練的模型，避免零樣本測試過程中樣本洩露。（測試集的圖檔不應該在預訓練過程見過）
屬性級别的對比學習（Attribute-level Contrastive Learning）。本文的核心貢獻點，可以用圖1表示：對于一個目标樣本，選擇與其整體特征相似度高的作為負樣本，與其整體特性相似度低的作為正樣本。對于一個正負樣本對，其需要與目标樣本有公共的屬性key（比如“羽毛圖案”），在這種情況下，對負樣本的要求是，其他屬性盡可能相似，而“羽毛圖案”不同；對正樣本的要求是，其他屬性盡可能不同，而“羽毛圖案”相同；最後，在屬性的掩碼-恢複過程中，模型被迫找到兩個差異懸殊圖檔中細粒度的屬性交集，兩個非常相似圖檔中細粒度的屬性差異，進而實作屬性感覺的解耦。

當然，論文在實作上還有許多其他的細節内容，比如多任務學習，以及機率采樣，感興趣的同學可以閱讀原文。

四、實驗效果

本文作為語言模型在零樣本學習上的第一次嘗試，在不同資料集上取得了優越甚至sota的效果。其中較為明顯地看到，在标準ZSL資料集（AWA2，CUB，SUN）上，相比于傳統ResNet-based的方法，視覺預訓練模型對于可見類的預測效果有明顯提升（Seen class）。而在K-ZSL資料集上，模型也可以達到SOTA效果。此外，模型還獲得了細粒度屬性預測的附帶能力，這是相比傳統模型的額外優勢。

AAAI 2023 | 語言模型如何增強視覺模型的零樣本能力？

AAAI 2023 | 語言模型如何增強視覺模型的零樣本能力？

AAAI 2023 | 語言模型如何增強視覺模型的零樣本能力？

五、總結

随着最近大語言模型（large language model，LLM），和多模态LLM的發展與興起，每個領域的衆多子任務，就平均水準而言都被提高到了一個新的層次。然而，如何利用一種更有效的方法來開發/喚醒模型對于細節的認知，依然存在着挑戰。擁有更好的特征組合能力，對于零樣本/長尾對象的識别，是很重要的一個發展方向。雖然大模型的一個特點就是天然的零樣本能力，但這是由訓練語料的龐大所帶來的。而傳統方向的研究中，作為長尾現象的衍生，零樣本學習依舊是一個重要的問題，在LLM時代重新思考這個方向，是後續研究者需要重點關注的問題。

作者：陳卓本文來源：公衆号【皮皮嬉】

Illustration by IconScout Store from IconScout

-The End-

掃碼觀看！

本周上新！

“AI技術流”原創投稿計劃

TechBeat是由将門創投建立的AI學習社群（www.techbeat.net）。社群上線480+期talk視訊，2400+篇技術幹貨文章，方向覆寫CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高品質、知識型交流平台，希望為AI人才打造更專業的服務和體驗，加速并陪伴其成長。

投稿内容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經曆講述 //

投稿須知

稿件需要為原創文章，并标明作者資訊。

我們會選擇部分在深度技術解析及科研心得方向，對使用者啟發更大的文章，做原創性内容獎勵

投稿方式

發送郵件到

[email protected]

或添加從業人員微信（chemn493）投稿，溝通投稿詳情；還可以關注“将門創投”公衆号，背景回複“投稿”二字，獲得投稿說明。

>>> 添加小編微信！

關于我“門”▼将門是一家以專注于發掘、加速及投資技術驅動型創業公司的新型創投機構，旗下涵蓋、将門創新服務以及TechBeat人工智能社群。公司緻力幹通過連接配接技術與商業，發掘和培育具有全球影響力的科技創新企業，推動企業創新發展與産業更新

如果您是技術領域的初創企業，不僅想獲得投資，還希望獲得一系列持續性、有價值的投後服務，歡迎發送或者推薦項目給我“門”:

AAAI 2023 | 語言模型如何增強視覺模型的零樣本能力？

⤵一鍵送你進入TechBeat快樂星球

上一篇: 黃永玉與電影：一段你不知道的故事

下一篇: 未來人工智能發展趨勢：走向更人性化的智能時代

繼續閱讀