Contrastive Learning (CLIP) VS Pre-training tasks (ViLT)

結果展示

圖+文找相同，第一列到第四列從左到右依次為：CLIP圖分支，CLIP圖+文，CNN(Resnet50),

最後一列為文本；（記錄）

圖文 Contrastive Learning (CLIP) VS Pre-training tasks (ViLT)Contrastive Learning (CLIP) VS Pre-training tasks (ViLT)結果展示在Contrastive Learning基礎上展開的研究(個人觀點)對比學習任務（CLIP）(Radford, Kim et al. 2021)圖文預訓練任務(ViLT)(Kim, Son et al. 2021)對比學習任務與與訓練任務孰強孰弱？參考文獻

因為看到下面這兩篇文章，是以重新回顧了一些經典的文章，拿來做分析；俗話說因果循環，辯證思考；

在Contrastive Learning基礎上展開的研究(個人觀點)

How Much Can CLIP Benefit Vision-and-Language Tasks?(Shen, Li et al. 2021)

其中關于(Shen, Li et al.2021)的工作，筆者認為：鑒于對比學習的CLIP訓練模型結果表現可知，模型已經具備不同模态間的語義對齊能力，也即使用模型視覺分支和文本分支，分别提取得到的不同模态間的嵌入特征已經具有語義一緻性；文章未對CLIP模型本身在V&L任務上的表現做出評估，而是将CLIP 插入到特定任務的微調中；以及将CLIP 與 V&L預訓練相結合并轉移到下遊任務;

論文名額偏重于模型訓練遷移實驗結果，對contrastive learning 和 V&L 預訓練任務目标間映射變化關系未做假設深入，也評估在視覺語言多模态（圖文）預訓練任務與圖文對比學習之間的關系；但實驗結果具備指導意義，對于模型訓練名額提升有要求的，是一個相對不錯的參考；(Mira-Tableau 2021)

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation(Li, Selvaraju et al. 2021)

文章通過引入對比損失，通過跨模态注意将圖像和文本表示在融合前對齊(ALBEF)，進而實作更紮實的視覺和文本表示學習，同時本文的方法不要對圖像資料進行标注且圖像分辨率要求不高。為了更好的對噪聲資料進行學習，提出了動量蒸餾，這是一種從動量模型産生的僞目标中學習的自我訓練方法。同時文章從互資訊最大化的角度對文章中提出的方法進行了理論分析，表明不同的訓練任務可以了解為從不同視角對圖像-文本對進行描述模組化；文章将對别學習訓練任務與預訓練任務（圖文比對，掩碼語言模組化，圖文對比學習）從理論角度進行了統一，對模型進行了訓練；但文章也未充分分析對比學習在V&L等預訓練任務上的表現；直接使用動量蒸餾方法，将對比學習任務添加到預訓練任務中去，打包到一起，進行V&L多模态間的融合表示；(Mira-Tableau 2021)

鑒于上述文獻，這裡隻放了兩個代表性的工作，均未就Contrastive Learning 對圖文Representation Learning的共享做分析，是以筆者分别從圖文對比學習任務和經典圖文預訓練任務的模型學習效果角度出發，建構了一個商品圖文資料集，并分析了模型的檢索召回能力，進一步反映這些任務對圖文任務的貢獻程度；希望對後續的研究有所幫助；

對比學習任務（CLIP）(Radford, Kim et al. 2021)

方法介紹

關于這篇文章已經有很多小夥伴做介紹，大家可自行搜尋檢視，文章主要是基于Contrastive Learning的思路，使用INfoNCE Loss進行文本和圖像兩種模态間互資訊最大化；

模型推理效果

測試爬取（京東和蘇甯網站資料）通過型号，關聯相同商品；通過京東圖檔和标題資訊比對易購商品；

驚人發現（易購家電商品價格，好多低于京東，但銷量上慘不忍睹），省錢必備；

大家感受下結果，第一列到第四列從左到右依次為：CLIP圖分支，CLIP圖+文，CNN(Resnet50),

最後一列為文本，見開篇效果；

圖文預訓練任務(ViLT)(Kim, Son et al. 2021)

方法介紹

作者提出的ViLT可以認為是目前最簡單的多模态Transformer方法。ViLT使用預訓練的ViT來初始化互動的transformer，這樣就可以直接利用互動層來處理視覺特征，不需要額外增加一個視覺encoder。文本特征輸入部分，将文本看成一個詞序列，通過word embedding matrix轉化成word embedding，然後和position

embedding進行相加，最後和modal-type embedding進行concate。圖像特征輸入部分，将圖像切塊看成一個圖像塊序列，通過linear projection轉化成visual embedding，然後和postion embedding進行相加，最後和modal-type embedding進行concate。

其中word embedding和visual embedding通過可學習的modal-type embedding标志位來區分，其中0标志位表示word embedding部分，1标志位表示visual embedding部分。word embedding和visual embedding分别都嵌入了一個額外的可學習[class] embedding，友善和下遊任務對接。

模型推理效果

測試爬取（京東和蘇甯網站資料）通過型号，關聯相同商品；通過京東圖檔和标題資訊比對易購商品；(注意這裡雖然為單塔結構，但是在嵌入特征提取是，也對文本嵌入特征和圖像嵌入特征進行區分）；結果展示同上；（别問，問就是筆者比較懶）；

對比學習任務與與訓練任務孰強孰弱？

測試資料&如何測試

關于這個問題，前面提到過，通過建構2萬個不同手機SKU的商品底庫，通過京東同款手機商品(标題+圖檔）[約300SKU]查找；

對比結果

對比學習任務模型效果與預訓練任務模型訓練Recall名額，召回結果如下，橫坐标值為召回topN;

講到這裡，感覺圖文對比學習對圖文任務的貢獻要遠遠高于基于預訓練任務對圖文任務的貢獻；但是這個觀點占不占的住腳，還需要一個更為客觀标準的評價；因為，大家很容易提出一下這些問題：

模型訓練是否充分？(筆者為了做這個實驗總共爬取了約50萬+的電商資料）
為什麼非CLIP和VILT對比；（因為都不需要檢測框，實驗都達到較高的水準，對比測試友善）
訓練是否充分（這麼大資料集不訓練充分，感覺對不住，爬資料花費的時間和精力呀）；

當然，這僅僅是我說的，在多模态的道路上未完，待續……

參考文獻

Kim, W., B. Son and I. Kim (2021). “ViLT: Vision-and-Language Transformer

Without Convolution or Region Supervision.”

Li, J., R. R. Selvaraju, A. D. Gotmare, S. R. Joty, C. Xiong and S. J. A. Hoi

(2021). “Align before Fuse: Vision and Language Representation Learning with

Momentum Distillation.” abs/2107.07651.

Mira-Tableau. (2021). “CLIP在V&L中的應用-How Much Can CLIP Beneﬁt

Vision-and-Language Tasks.” from

https://blog.csdn.net/xiaoxiyang1990/article/details/118995627.

Mira-Tableau. (2021). “互資訊最大化[視角統一]:Align before Fuse: Vision and

Language Representation Learning with Momentum Distillation.” from

https://blog.csdn.net/xiaoxiyang1990/article/details/119039898.

Radford, A., J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A.

Askell, P. Mishkin and J. Clark (2021). “Learning Transferable Visual Models

From Natural Language Supervision.”

Shen, S., L. H. Li, H. Tan, M. Bansal, A. Rohrbach, K. W. Chang, Z. Yao and K.

Keutzer (2021). “How Much Can CLIP Benefit Vision-and-Language Tasks?”.

Contrastive Learning (CLIP) VS Pre-training tasks (ViLT)

結果展示

在Contrastive Learning基礎上展開的研究(個人觀點)

How Much Can CLIP Benefit Vision-and-Language Tasks?(Shen, Li et al. 2021)

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation(Li, Selvaraju et al. 2021)

對比學習任務（CLIP）(Radford, Kim et al. 2021)

方法介紹

模型推理效果

圖文預訓練任務(ViLT)(Kim, Son et al. 2021)

方法介紹

模型推理效果

對比學習任務與與訓練任務孰強孰弱？

測試資料&如何測試

對比結果

參考文獻

繼續閱讀

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

通俗了解查準率(precision)和查全率(recall)

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

人工智能如何有效地運用于自然語言處理

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡