天天看點

《論文閱讀》ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

《論文閱讀》ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

      • 簡介
      • 解決的問題
      • 模型構架
      • 資料集
      • 實驗分析
      • 創新點

出版: Proceedings of the 38 th International Conference on Machine Learning, PMLR

時間:2021

類型:多模态融合

特點:不使用特征抽取,借鑒ViT思路直接使用Patch projection,極大提高模型效率

作者:Wonjae Kim, Bokyung Son, Ildoo Kim

第一作者機構:NAVER AI Lab, Seongnam, Gyeonggi, Republic of Korea.

簡介

視覺和語言預訓練(VLP)提高了各種視覺和語言聯合下遊任務的性能。目前的VLP方法在很大程度上依賴于圖像特征提取過程,其中大部分涉及區域超視距(如目标檢測)和卷積結構(如ResNet)。但我們發現它在以下兩個方面存在問題:(1)效率/速度,簡單地提取輸入特征需要比多模态互動步驟多得多的計算;(2

繼續閱讀