《論文閱讀》ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

2023-06-08 11:57:22

出版： Proceedings of the 38 th International Conference on Machine Learning, PMLR

時間：2021

類型：多模态融合

特點：不使用特征抽取，借鑒ViT思路直接使用Patch projection，極大提高模型效率

作者：Wonjae Kim, Bokyung Son, Ildoo Kim

第一作者機構：NAVER AI Lab, Seongnam, Gyeonggi, Republic of Korea.

視覺和語言預訓練（VLP）提高了各種視覺和語言聯合下遊任務的性能。目前的VLP方法在很大程度上依賴于圖像特征提取過程，其中大部分涉及區域超視距（如目标檢測）和卷積結構（如ResNet）。但我們發現它在以下兩個方面存在問題：（1）效率/速度，簡單地提取輸入特征需要比多模态互動步驟多得多的計算；（2

繼續閱讀