天天看點

SIMVLM:簡單視覺語言模型,SIMPLE VISUAL LANGUAGE MODEL PRETRAINING WITH WEAK SUPERVISION論文位址:主要工作:

SIMVLM: SIMPLE VISUAL LANGUAGE MODEL PRETRAINING WITH WEAK SUPERVISION

  • 論文位址:
  • 主要工作:
  • 具體實作:
    • 背景:
    • 字首語言模組化(PLM):
    • 模型結構:
  • 實驗結果:

論文位址:

https://arxiv.org/abs/2108.10904

主要工作:

随着視覺和文本表示聯合模組化的最新進展,視覺-語言預訓練(VLP)在許多多模态下遊任務上取得了令人印象深刻的性能。然而,對昂貴的注釋的要求,包括幹淨的圖像标題和區域标簽,限制了現有方法的可伸縮性,并随着引入多個特定于資料集的目标,使預訓練過程變得複雜。在這項工作中,作者放松了這些限制,并提出了一個極簡的預訓練架構,名為簡單視覺語言模型(SimVLM)。

SimVLM通過利用大規模的弱監督,降低了訓練的複雜性,并使用單一的字首語言模組化(PrefixLM)目标進行端到端訓練。在沒有使用額外的資料或特定任

繼續閱讀