天天看點

【PaperReading每日打卡20220308】[星數]三顆星,收藏榜[類型]文檔圖像Transformer的自監督

作者:碼科智能

【PaperReading每日打卡20220308】

[星數] 三顆星,收藏榜

[類型] 文檔圖像Transformer的自監督預訓練

[文章] DiT: Self-supervised Pre-training for Document Image Transformer

[機構] Shanghai Jiao Tong University & Microsoft Research & Microsoft Azure AI

[簡介] 圖像Transformer在自然圖像了解方面取得了重大進展,無論是用有監督(ViT、DeiT等)還是自監督(BEiT、MAE等)預訓練技術。本文提出DiT,一種自監督預訓練文檔圖像Transformer模型,用大規無标記文本圖像來完成文檔人工智能任務,這一點至關重要,因為由于缺乏人工标記的文檔圖像,從來沒有監督資料。利用DiT作為骨幹網絡來完成各種基于視覺的文檔人工智能任務,包括文檔圖像分類、文檔布局分析以及表格檢測。實驗結果表明,自監督預訓練的DiT模型在這些下遊任務上取得了新的最先進的結果,如文檔圖像分類(91.11→92.69),文檔布局分析(91.0→94.9)和表格檢測(94.23→96.55)。

【PaperReading每日打卡20220308】[星數]三顆星,收藏榜[類型]文檔圖像Transformer的自監督
【PaperReading每日打卡20220308】[星數]三顆星,收藏榜[類型]文檔圖像Transformer的自監督
【PaperReading每日打卡20220308】[星數]三顆星,收藏榜[類型]文檔圖像Transformer的自監督
【PaperReading每日打卡20220308】[星數]三顆星,收藏榜[類型]文檔圖像Transformer的自監督

繼續閱讀