極智AI | 變形金剛大家族 Transformer ViT CLIP BLIP BERT 模型結構

2022-09-05 07:11:01

歡迎關注我的公衆号 [極智視界]，擷取我的更多筆記分享

大家好，我是極智視界，本文整理介紹一下變形金剛大家族 Transformer ViT CLIP BLIP BERT 模型結構。

這幾個模型都跟變形金剛相關，Transformer 是最開始的，然後像 ViT、CLIP、BLIP、BERT 都會用到 Transformer Encoder 子產品，其中 ViT、CLIP、BLIP 是多模态模型，BERT 是 NLP 大模型。

Transformer

Paper：《Attention Is All You Need》

Paper：《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》

Paper：《Learning Transferable Visual Models From Natural Language Supervision 》

encoder-encoder ==> Image Encoder (Vit / Resnet)，Text Encoder (transofer encoder)；
Contrastive pre-training ==> 對比學習，自監督；
zero-shot == > 遷移學習；

Paper：《BLIP: Bootstrapping Language-Image Pre-training for Unifified Vision-Language Understanding and Generation 》

MED ==> Image Encoder (ViT)，Text Encoder (BERT)，Image-grounded Text encoder (變種BERT)，Image-grounded Text decoder (變種BERT)；
Image Encoder (ViT) ==> 視覺圖像特征提取；
Text Encoder (BERT) ==> ITC (Image-Text Contrastive Loss)，對齊圖像-文本特征空間；
Image-grounded Text encoder (變種BERT) ==> 于 Bi Self-Att 和 Feed Forward 之間插入 Cross Attention (CA) 子產品，以引入視覺特征， ITM (Image-Text Matching Loss)，用來預測圖像-文本對是正比對還是負比對；
Image-grounded Text decoder (變種BERT) ==> 将 Image-grounded Text Encoder 結構中的 Bi Self-Att 替換為 Causal Self-Att，LM (Language Modeling Loss) ，用來生成給定圖像的文本描述；

Paper：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》

好了，以上整理分享了 Transformer ViT CLIP BLIP BERT 的模型結構。希望我的分享能對你的學習有一點幫助。