天天看點

ECCV2022|時尚領域的多模态預訓練預訓練模型FashionViL,在五個下遊任務中SOTA!

ECCV2022 | 時尚領域的多模态預訓練預訓練模型FashionViL,在五個下遊任務中SOTA!代碼已開源!

【寫在前面】

用于表示學習的大規模視覺和語言 (V+L) 預訓練已被證明在促進各種下遊 V+L 任務方面是有效的。然而,當涉及到時尚領域時,現有的 V+L 方法是不夠的,因為它們忽略了時尚 V+L 資料和下遊任務的獨特特征。在這項工作中,我們提出了一種新穎的以時尚為中心的 V+L 表示學習架構,稱為 FashionViL。它包含兩個新穎的特定于時尚的預訓練任務,專門設計用于利用時尚 V+L 資料的兩個内在屬性。首先,與 V+L 資料點僅包含單個圖像-文本對的其他域相比,時尚域中可能有多個圖像。是以,作者提出了一個多視圖對比學習任務,用于将一個圖像的視覺表示拉近到另一個圖像+文本的組合多模态表示。其次,時尚文本(例如産品描述)通常包含豐富的細粒度概念(屬性/名詞短語)。為了利用這一點,引入了僞屬性分類任務來鼓勵相同概念的學習單模态(視覺/文本)表示相鄰。此外,時尚 V+L 任務獨特地包括不符合常見單流或雙流架構的任務(例如,文本引導的圖像檢索)。是以,作者提出了一種靈活、多功能的 V+L 模型架構,該架構由與模态無關的 Transformer 組成,以便它可以靈活地适應任何下遊任務。大量實驗表明,本文的 FashionViL 在五個下遊任務中實作了最新的技術水準。

1. 論文和代碼位址

ECCV2022|時尚領域的多模态預訓練預訓練模型FashionViL,在五個下遊任務中SOTA!

FashionViL: Fashion-Focused Vision-and-Language Representation Learning

論文位址:​​https://arxiv.org/abs/2207.08150​​

代碼位址:​​https://github.com/brandonhanx/mmf​​

2. 動機

最近,視覺和語言(V+L)預訓練受到越來越多的關注。目标是從大規模的圖像-文本對中學習多模态表示,以改進各種下遊單模态或多模态任務。由于兩個主要因素,這些模型已被證明是非常有效的:(i)網絡上有大量的圖像-文本對免費提供豐富的訓練資料(不需要額外的注釋),以及(ii)基于 Transformer 的模型架構已被廣泛用于學習多模态輸入的上下文表示。

在這項工作中,作者專注于時尚領域,V+L 預訓練似乎特别适合。首先,時尚V+L資料不僅數量多,而且品質高。線上時尚購物越來越普遍;在電子商務網站上,每個産品詳細資訊頁面 (PDP) 都包含産品圖像和文本,兩者的品質都非常高(即通常由領域專家生成)。其次,在實際應用中,有很多下遊任務,比其他領域多,從多模态産品了解、跨模态檢索到文本引導的圖像檢索。然而,當應用于時尚領域時,可以觀察到現有的 SOTA V+L 預訓練方法與其他領域相比效果較差。作者認為這是因為它們并非旨在利用時尚 V+L 資料和下遊任務的某些獨特特征。

ECCV2022|時尚領域的多模态預訓練預訓練模型FashionViL,在五個下遊任務中SOTA!

特别是,在大多數現有的通用域 V+L 資料集(例如,COCO 和 Flickr30k)中,每個資料點都是單個圖像-文本對,并且文本通常很簡短中。相比之下,時尚資料集主要是從電子商務網站上的 PDP 收集的,是以有兩個特點:(i)**通常有多個圖像與給定文本相關聯。**一個示例如上圖所示。服裝“長裙”以三種不同的視圖呈現,以便線上購物者可以從不同角度檢視該服裝。(ii) **文本描述中有更多細粒度的概念,因為文本作為産品描述。**如上圖所示,時尚文本更側重于服裝本身,用非常詳細的形容詞和名詞,在标題、款式和描述中描述其外觀。為了證明這在統計上是正确的,作者計算了四個組合時尚資料集和兩個組合通用資料集的比率。發現時尚字幕中 82% 的單詞是形容詞或名詞,而通用字幕的這一比例僅為 59%。現有的 V+L 模型中沒有一個能夠利用時尚資料中的這些特性。

時尚下遊任務也比通用領域的任務更加多樣化,對 V+L 預訓練模型架構設計提出了挑戰。更具體地說,在通用 V+L 域中,現有模型是單流或雙流,具體取決于預期的下遊任務。例如,對圖像和文本标記的連接配接進行操作的單流模型适用于多模态融合任務,例如 VQA、VCR 和 RefCOCO。相比之下,雙流模型通常設計用于高效的跨模态檢索任務。然而,在時尚領域,除了圖文融合和跨模态檢索下遊任務外,還有一些任務既不适合單流也不适合雙流架構。例如,文本引導的圖像檢索任務不僅需要對參考圖像和修改後的文本進行高品質的融合,而且還需要在融合的多模态表示和候選圖像之間進行有效比對。由于時尚下遊任務的多樣性,現有的模型,無論是單流還是雙流,都不具備所需的靈活性和多功能性。

為了克服現有時尚模型的局限性,作者引入了一種新穎的以時尚為中心的 V+L 表示學習架構,稱為 FashionViL。提出了兩個以時尚為重點的預訓練任務,以充分利用時尚資料的特點。第一個任務是多視圖對比學習(MVC)。給定具有多個圖像/視圖和一個文本描述的時尚資料項,作者認為每種模态(無論是單模态還是多模态)在語義上都應該彼此相似,因為它們都指的是同一個産品。是以,除了常見的圖像-文本比對之外,作者提出最小化(a)其視圖和文本之一的多模态表示與(b)其他視圖之間的距離。第二個任務是僞屬性分類(PAC),旨在利用描述中豐富的細粒度時尚概念。具體來說,作者從時尚資料集中提取那些常見的屬性/名詞短語,并建構一個僞屬性集。然後,該模型會在預訓練期間顯式地學習預測這些屬性。 PAC 鼓勵将具有相同屬性的時尚物品聚集在一起,以便學習的表示變得更具辨識力。作者證明了這些新的預訓練任務是有效的,并且是對傳統預訓練任務的補充,例如圖像-文本對比學習 (ITC) 和蒙面語言模組化 (MLM)。

此外,作者還設計了一個靈活且通用的模型架構,使預訓練的模型能夠輕松适應各種下遊任務。新設計保留了單流模型的優越融合能力和雙流模型的可擴充性。至關重要的是,它還迎合時尚領域的獨特任務,例如文本引導的圖像檢索和服裝互補項目檢索。具體來說,本文的模型由一個圖像編碼器和一個模态無關的 Transformer 子產品組成,它可以用作文本編碼器或多模态融合編碼器。是以,它可以很容易地針對三個不同的下遊用例進行微調:(i)用于聯合表示學習的早期融合單流模式,例如多模态分類; (ii) 用于單模态表示學習的後期融合雙流模式,例如跨模态檢索; (iii)用于組合表示學習的early-fusion雙流架構,例如文本引導的圖像檢索。

本文的貢獻如下:(1)專門針對時尚領域提出了一種新穎的 V+L 預訓練架構,該架構可以通過兩個新的 V+L 預訓練任務來利用時尚資料的特殊性。 (2) 采用共享文本編碼器和融合編碼器引入靈活的架構設計,可以輕松适應一組多樣化的時尚下遊任務。 (3) 為了證明 FashionViL 的泛化性,作者在 5 個時尚 V+L 任務上評估本文的模型:圖像到文字檢索、文本到圖像檢索、文本引導圖像檢索 、(子)類别識别和裝備互補項目檢索。實驗表明,FashionViL 實作了新的最先進技術 (SOTA),在每個下遊任務中都具有一緻且顯着的性能提升。

3. 方法

3.1 Model overview

ECCV2022|時尚領域的多模态預訓練預訓練模型FashionViL,在五個下遊任務中SOTA!

FashionViL 的模型架構如上圖(a) 所示,它由一個圖像編碼器 (IE) 和一個可用于文本編碼器 (TE) 和融合編碼器 (FE) 的Transformer 子產品組成。具體來說,圖像編碼器使用 ConvNet 作為其主幹,通過光栅化最終特征圖的網格特征,将原始像素轉換為視覺嵌入序列。對于文本編碼器,作者按照 BERT将輸入句子标記為 WordPieces。每個 sub-word token 的 embedding 是通過将其 word embedding 和可學習的 position embedding 相加得到的,然後是 LN。

模型設計的一個新穎之處在于 TE 和 FE 的共享 Transformer,這能夠靈活地建構各種多模态模型架構,每種模型架構都适用于不同類型的下遊任務。例如,上圖(b) 顯示了一個早期融合模型架構,其中原始句子和計算的圖像嵌入被聯合輸入到多模态融合編碼器中。當使用 Transformer 作為融合編碼器時,作者将進一步将模态嵌入添加到視覺嵌入和詞嵌入中,幫助模型區分模态類型。這種架構和之前很多預訓練作品中著名的單流模型一模一樣。然後在上圖(c) 中,作者展示了一個後期融合的雙流模型架構,其中我們應用可共享的 Transformer 作為文本編碼器。圖像編碼器和文本編碼器的輸出與一個簡單的點積進行互動,以計算兩種模态之間的相似性。這種架構已被廣泛用于高效的大規模跨模态檢索。此外,可以将此共享 Transformer 微調為更複雜的雙流架構變體,如上圖(d) 所示。這裡,一個流以早期融合方式運作,而另一個流是圖像編碼器。

這種架構對于一些具有多模式查詢的以時尚為中心的檢索任務是必需的,例如,文本引導的圖像檢索。注意,以上三種架構中的所有FE和TE其實都是同一個Transformer,差別僅僅在于它的輸入。

給定一個圖像-文本對,将其原始視覺輸入表示為, 其輸入詞為 , 其中下标 i 表示資料集中的第 i 對。在文本序列的開頭插入一個額外的特殊 \[CLS] token,以及連接配接模态時的多模态序列。在将模型應用于下遊任務時,遵循常見的預訓練 + 微調 pipeline。

3.2 Pre-training tasks

首先介紹兩個新的預訓練任務。接下來是架構中采用的其他正常預訓練任務。

Multi-view contrastive learning (MVC)

每個時尚項目通常與多個視圖相關聯,以提供産品的全面概覽。為了利用不同視圖之間的互惠資訊,作者通常在 (a) 原始視圖 v 的視覺表示和 (b) 另一個視圖 d 和文本 w 的組合表示之間建立相關性。如果産品隻有一個視圖,作者會通過随機裁剪或水準翻轉給定視圖來增加另一個視圖。如上圖(d)所示,原始視圖的視覺表示由圖像編碼器提取,而合成表示以早期融合的方式計算。是以,多模态輸入\[w; d]和 v 可以計算為:

其中 g 表示将平均池化特征投影到歸一化低維潛在空間中的線性變換。接下來,作者應用兩個對稱的 InfoNCE 損失來拉近共享潛在空間中比對的組合表示和視覺表示:

其中 τ 是一個可學習的溫度,包含正樣本 y 和 個從mini-batch 中抽取的負樣本。

Pseudo-attribute classification (PAC)

ECCV2022|時尚領域的多模态預訓練預訓練模型FashionViL,在五個下遊任務中SOTA!

作者發現時尚描述中有大量細粒度的屬性。作者提出從所有可用的文本資訊中挖掘僞屬性概念,包括标題、描述和元資訊。具體來說,作者通過 NLTK tokenizer 提取所有名詞和形容詞,隻保留出現次數超過 100 次的名詞和形容詞,進而得到 2,232 個屬性的清單。作者在上圖中展示了前 50 個僞屬性的直方圖。可以觀察到,它們都與時尚領域真正高度相關。

然後作者探讨如何利用這些挖掘出來的概念。本文的目标是讓模型在預訓練階段學會顯式識别這些僞屬性。我們将此任務模組化為一個多标簽分類問題,稱為僞屬性分類 (PAC)。如圖 2(c) 所示,作者會将 PAC 應用于視覺和文本模态,以便兩個編碼器都可以學習捕獲細粒度的概念。由于這是一個弱監督學習設定,考慮到挖掘的标簽可能是嘈雜的,作者利用标簽平滑來生成标簽 。作者使用 A 表示整個 2,232 個僞屬性集,并使用 a 作為每個類的平滑軟目标。例如,如果一個樣本在位置 0 和 1 有兩個真實标簽,則 而 。目标如下:

其中 是可學習的參數,每一對都是從整個訓練集 D 中采樣的。

Masked patch feature classification (MPFC)

雖然簡單的蒙版特征回歸已被證明在 V+L 預訓練中沒有幫助,但實驗發現本文的蒙版patch模組化版本在​​時尚領域是有效的。具體來說,作者忽略了每個掩碼patch的特征重建,而是預測離線圖像标記器給出的更新檔标簽。為此,作者首先訓練一個離散的 VAE作為具有感覺損失的時尚圖像的圖像标記器。作者還采用指數移動平均(EMA)來更新碼本,這被證明對提高碼字的使用率很有用。作者通過分塊掩蔽政策将 25% 的patch特征随機替換為零。由于現在每個patch都有離散标簽,是以可以通過優化訓練模型來預測每個掩碼patch的标簽,給定剩餘的patch:

其中 是掩碼patch的估計目标标簽。

Image-text contrastive learning (ITC)

作者還使用 ITC 來鼓勵兩個單模态表示在潛在空間中接近。如圖2(c) 所示,w 和 v 的相似性是通過兩個線性變換 f 和 g 投影到潛在空間後的平均池化特征的點積來衡量的: 。ITC 損失為:

Masked language modeling (MLM)

在 MLM 中,作者以 15% 的機率随機屏蔽掉輸入詞,并将屬于被屏蔽詞的所有子詞替換為特殊标記 \[MASK]。 MLM 的目标是通過對周圍單詞 和所有圖像塊 v 的觀察,通過最小化負對數似然來預測這些掩碼子詞:

Image-text matching (ITM)

在 ITM 中,輸入是圖像-文本對,目标是二進制标簽 z ∈ {0, 1},訓示每個輸入對是否比對。作者從 ITC 計算的相似矩陣中對難負對進行采樣,然後制作一個包含 50% 負對的小批量 H。在最後一層提取 \[CLS] 的隐藏輸出來表示兩種模态的聯合表示,然後将其輸入 FC 層進行二分類。作者對 ITM 應用交叉熵損失:

4.實驗

ECCV2022|時尚領域的多模态預訓練預訓練模型FashionViL,在五個下遊任務中SOTA!

用于預訓練的資料集的統計資訊。

ECCV2022|時尚領域的多模态預訓練預訓練模型FashionViL,在五個下遊任務中SOTA!

使用 KaleidoBERT 中使用的協定在 FashionGen 上進行跨模态檢索的結果

ECCV2022|時尚領域的多模态預訓練預訓練模型FashionViL,在五個下遊任務中SOTA!

FashionGen上的跨模态檢索全面評估結果。

ECCV2022|時尚領域的多模态預訓練預訓練模型FashionViL,在五個下遊任務中SOTA!

FashionIQ 上的文本引導圖像檢索結果。

ECCV2022|時尚領域的多模态預訓練預訓練模型FashionViL,在五個下遊任務中SOTA!

FashionGen 上的類别/子類别識别結果。

ECCV2022|時尚領域的多模态預訓練預訓練模型FashionViL,在五個下遊任務中SOTA!

PolyvoreOutfits 上的服裝互補物品檢索結果。

ECCV2022|時尚領域的多模态預訓練預訓練模型FashionViL,在五個下遊任務中SOTA!

使用 ITR、TIR、TGIR、SCR 和 OCIR 作為下遊任務對預訓練任務進行評估。

ECCV2022|時尚領域的多模态預訓練預訓練模型FashionViL,在五個下遊任務中SOTA!

從 FashionViL 學習到的視覺/文本/聯合表示的 T-SNE。

5. 總結

作者提出了 FashionViL,這是一種新穎的端到端大規模預訓練架構,用于時尚領域的 V+L 表示學習。作者還提出了兩個有效的特定于時尚的預訓練任務,并引入了一種新穎的與模态無關的文本/融合編碼器,用于靈活且通用的多模态架構。本文的 FashionViL 在 5 個流行的時尚相關任務上以卓越的效率實作了新的 SOTA 性能。

【項目推薦】

面向小白的YOLO目标檢測庫:​​https://github.com/iscyy/yoloair​​