天天看點

極智AI | 變形金剛大家族 Transformer ViT CLIP BLIP BERT 模型結構

  ​

​歡迎關注我的公衆号 [極智視界],擷取我的更多筆記分享​

  大家好,我是極智視界,本文整理介紹一下 變形金剛大家族 Transformer ViT CLIP BLIP BERT 模型結構。

  這幾個模型都跟 變形金剛 相關,Transformer 是最開始的,然後像 ViT、CLIP、BLIP、BERT 都會用到 Transformer Encoder 子產品,其中 ViT、CLIP、BLIP 是多模态模型,BERT 是 NLP 大模型。

文章目錄

  • ​​Transformer​​
  • ​​ViT​​
  • ​​CLIP​​
  • ​​BLIP​​
  • ​​BERT​​

Transformer

  Paper:《Attention Is All You Need》

  • encoder-decoder ==> 編碼器 (6x) 一個詞一個詞往外蹦,解碼器 (6x) 一次性看清整個句子;
  • Multi-Head Attention ==> 一次性關注全局,多通道類比卷積;
  • Masked Multi-Head Attention == > 在 t 時刻,掩蓋 t 時刻以後的輸入;
  • Feed Forward ==> MLP;
極智AI | 變形金剛大家族 Transformer ViT CLIP BLIP BERT 模型結構

ViT

  Paper:《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》

  • Patch + Position Embedding ==> 打成塊 (步長 = 核長的卷積) + 位置編碼 + 類别編碼;
  • Transformer Encoder ==> 圖像提特征 ;
  • MLP Head ==> 分類頭
  • Multi-Head Attention ==> linear 實作;
極智AI | 變形金剛大家族 Transformer ViT CLIP BLIP BERT 模型結構

CLIP

  Paper:《Learning Transferable Visual Models From Natural Language Supervision 》

  • encoder-encoder ==> Image Encoder (Vit / Resnet),Text Encoder (transofer encoder);
  • Contrastive pre-training ==> 對比學習,自監督;
  • zero-shot == > 遷移學習;
極智AI | 變形金剛大家族 Transformer ViT CLIP BLIP BERT 模型結構

BLIP

  Paper:《BLIP: Bootstrapping Language-Image Pre-training for Unifified Vision-Language Understanding and Generation 》

  • MED ==> Image Encoder (ViT),Text Encoder (BERT),Image-grounded Text encoder (變種BERT),Image-grounded Text decoder (變種BERT);
  • Image Encoder (ViT) ==> 視覺圖像特征提取;
  • Text Encoder (BERT) ==> ITC (Image-Text Contrastive Loss),對齊 圖像-文本 特征空間;
  • Image-grounded Text encoder (變種BERT) ==> 于 Bi Self-Att 和 Feed Forward 之間插入 Cross Attention (CA) 子產品,以引入視覺特征, ITM (Image-Text Matching Loss),用來預測 圖像-文本對 是 正比對 還是 負比對;
  • Image-grounded Text decoder (變種BERT) ==> 将 Image-grounded Text Encoder 結構中的 Bi Self-Att 替換為 Causal Self-Att,LM (Language Modeling Loss) ,用來生成給定圖像的文本描述;
極智AI | 變形金剛大家族 Transformer ViT CLIP BLIP BERT 模型結構
  • Captioner ==> 字幕器,用于生成給定 web 圖像的字幕;
  • Filter ==> 過濾器,用于去除噪聲 圖像-文本 對;
極智AI | 變形金剛大家族 Transformer ViT CLIP BLIP BERT 模型結構

BERT

  Paper:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》

  • Input Embeddings ==> Token Embeddings,Segment Embeddings,Position Embeddings;
  • Masked LM ==> 完形填空,雙向;GPT 單向;
  • Next Sentence Prediction (NSP) ==> 句子對;
極智AI | 變形金剛大家族 Transformer ViT CLIP BLIP BERT 模型結構
極智AI | 變形金剛大家族 Transformer ViT CLIP BLIP BERT 模型結構

  好了,以上整理分享了 Transformer ViT CLIP BLIP BERT 的模型結構。希望我的分享能對你的學習有一點幫助。

極智AI | 變形金剛大家族 Transformer ViT CLIP BLIP BERT 模型結構

繼續閱讀