歡迎關注我的公衆号 [極智視界],擷取我的更多筆記分享
大家好,我是極智視界,本文整理介紹一下 變形金剛大家族 Transformer ViT CLIP BLIP BERT 模型結構。
這幾個模型都跟 變形金剛 相關,Transformer 是最開始的,然後像 ViT、CLIP、BLIP、BERT 都會用到 Transformer Encoder 子產品,其中 ViT、CLIP、BLIP 是多模态模型,BERT 是 NLP 大模型。
文章目錄
- Transformer
- ViT
- CLIP
- BLIP
- BERT
Transformer
Paper:《Attention Is All You Need》
- encoder-decoder ==> 編碼器 (6x) 一個詞一個詞往外蹦,解碼器 (6x) 一次性看清整個句子;
- Multi-Head Attention ==> 一次性關注全局,多通道類比卷積;
- Masked Multi-Head Attention == > 在 t 時刻,掩蓋 t 時刻以後的輸入;
- Feed Forward ==> MLP;
![](https://img.laitimes.com/img/_0nNw4CM6IyYiwiM6ICdiwiI0gTMx81dsQWZ4lmZf1GLlpXazVmcvwFciV2dsQXYtJ3bm9CX9s2RkBnVHFmb1clWvB3MaVnRtp1XlBXe0xCMy81dvRWYoNHLwEzX5xCMx8FesU2cfdGLwMzX0xiRGZkRGZ0Xy9GbvNGLpZTY1EmMZVDUSFTU4VFRR9Fd4VGdsYTMfVmepNHLrJXYtJXZ0F2dvwVZnFWbp1zczV2YvJHctM3cv1Ce-cmbw5yN1gzN0ITOygjMhdTYlFGZyYzXyQDMyIDMzIzLcdDMyIDMy8CXn9Gbi9CXzV2Zh1WavwVbvNmLvR3YxUjLyM3Lc9CX6MHc0RHaiojIsJye.png)
ViT
Paper:《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》
- Patch + Position Embedding ==> 打成塊 (步長 = 核長的卷積) + 位置編碼 + 類别編碼;
- Transformer Encoder ==> 圖像提特征 ;
- MLP Head ==> 分類頭
- Multi-Head Attention ==> linear 實作;
CLIP
Paper:《Learning Transferable Visual Models From Natural Language Supervision 》
- encoder-encoder ==> Image Encoder (Vit / Resnet),Text Encoder (transofer encoder);
- Contrastive pre-training ==> 對比學習,自監督;
- zero-shot == > 遷移學習;
BLIP
Paper:《BLIP: Bootstrapping Language-Image Pre-training for Unifified Vision-Language Understanding and Generation 》
- MED ==> Image Encoder (ViT),Text Encoder (BERT),Image-grounded Text encoder (變種BERT),Image-grounded Text decoder (變種BERT);
- Image Encoder (ViT) ==> 視覺圖像特征提取;
- Text Encoder (BERT) ==> ITC (Image-Text Contrastive Loss),對齊 圖像-文本 特征空間;
- Image-grounded Text encoder (變種BERT) ==> 于 Bi Self-Att 和 Feed Forward 之間插入 Cross Attention (CA) 子產品,以引入視覺特征, ITM (Image-Text Matching Loss),用來預測 圖像-文本對 是 正比對 還是 負比對;
- Image-grounded Text decoder (變種BERT) ==> 将 Image-grounded Text Encoder 結構中的 Bi Self-Att 替換為 Causal Self-Att,LM (Language Modeling Loss) ,用來生成給定圖像的文本描述;
- Captioner ==> 字幕器,用于生成給定 web 圖像的字幕;
- Filter ==> 過濾器,用于去除噪聲 圖像-文本 對;
BERT
Paper:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》
- Input Embeddings ==> Token Embeddings,Segment Embeddings,Position Embeddings;
- Masked LM ==> 完形填空,雙向;GPT 單向;
- Next Sentence Prediction (NSP) ==> 句子對;
好了,以上整理分享了 Transformer ViT CLIP BLIP BERT 的模型結構。希望我的分享能對你的學習有一點幫助。