SIMVLM: SIMPLE VISUAL LANGUAGE MODEL PRETRAINING WITH WEAK SUPERVISION
- 論文位址:
- 主要工作:
- 具體實作:
-
- 背景:
- 字首語言模組化(PLM):
- 模型結構:
- 實驗結果:
論文位址:
https://arxiv.org/abs/2108.10904
主要工作:
随着視覺和文本表示聯合模組化的最新進展,視覺-語言預訓練(VLP)在許多多模态下遊任務上取得了令人印象深刻的性能。然而,對昂貴的注釋的要求,包括幹淨的圖像标題和區域标簽,限制了現有方法的可伸縮性,并随着引入多個特定于資料集的目标,使預訓練過程變得複雜。在這項工作中,作者放松了這些限制,并提出了一個極簡的預訓練架構,名為簡單視覺語言模型(SimVLM)。
SimVLM通過利用大規模的弱監督,降低了訓練的複雜性,并使用單一的字首語言模組化(PrefixLM)目标進行端到端訓練。在沒有使用額外的資料或特定任