《論文閱讀》ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision
-
-
- 簡介
- 解決的問題
- 模型構架
- 資料集
- 實驗分析
- 創新點
-
出版: Proceedings of the 38 th International Conference on Machine Learning, PMLR
時間:2021
類型:多模态融合
特點:不使用特征抽取,借鑒ViT思路直接使用Patch projection,極大提高模型效率
作者:Wonjae Kim, Bokyung Son, Ildoo Kim
第一作者機構:NAVER AI Lab, Seongnam, Gyeonggi, Republic of Korea.
簡介
視覺和語言預訓練(VLP)提高了各種視覺和語言聯合下遊任務的性能。目前的VLP方法在很大程度上依賴于圖像特征提取過程,其中大部分涉及區域超視距(如目标檢測)和卷積結構(如ResNet)。但我們發現它在以下兩個方面存在問題:(1)效率/速度,簡單地提取輸入特征需要比多模态互動步驟多得多的計算;(2