【PaperReading每日打卡20220308】
[星數] 三顆星,收藏榜
[類型] 文檔圖像Transformer的自監督預訓練
[文章] DiT: Self-supervised Pre-training for Document Image Transformer
[機構] Shanghai Jiao Tong University & Microsoft Research & Microsoft Azure AI
[簡介] 圖像Transformer在自然圖像了解方面取得了重大進展,無論是用有監督(ViT、DeiT等)還是自監督(BEiT、MAE等)預訓練技術。本文提出DiT,一種自監督預訓練文檔圖像Transformer模型,用大規無标記文本圖像來完成文檔人工智能任務,這一點至關重要,因為由于缺乏人工标記的文檔圖像,從來沒有監督資料。利用DiT作為骨幹網絡來完成各種基于視覺的文檔人工智能任務,包括文檔圖像分類、文檔布局分析以及表格檢測。實驗結果表明,自監督預訓練的DiT模型在這些下遊任務上取得了新的最先進的結果,如文檔圖像分類(91.11→92.69),文檔布局分析(91.0→94.9)和表格檢測(94.23→96.55)。