AI論文解讀丨融合視覺、語義、關系多模态資訊的文檔版面分析架構VSR

摘要：文檔版式分析任務中，文檔的視覺資訊、文本資訊、各版式部件間的關系資訊都對分析過程具有很重要的作用。本文提出一種融合視覺、文本、關系多模态資訊的版式分析架構VSR。

本文分享自華為雲社群《論文解讀系列十八：融合視覺、語義、關系多模态資訊的文檔版面分析架構VSR》，作者：小菜鳥chg 。

現有文檔版面分析方法大緻可分為兩種：基于NLP的方法将版面分析任務看作是序列标簽分類任務（sequence labeling），但是該類方法在版面模組化上表現出不足，無法捕獲空間資訊；基于CV的方法則将版面分析看作是目标檢測或分割任務（object detection or segmentation），該類方法的不足表現在（1）缺乏細粒度的語義、（2）簡單的拼接方式、（3）未利用關系資訊。如圖1展示的VSR的motivation示意圖，為解決上述各方法的局限性問題，本文提出一種融合視覺、文本、關系多模态資訊的版式分析架構VSR （Vision， Semantic， Relation）。

圖1 VSR的motivation示意圖

1. 問題定義

版式分析任務既可當做序列标簽分類，又可當做目标檢測。主要差別在于部件候選（component candidates）的選擇。對于基于NLP方法，即序列标簽分類的定義，選擇通過pdf解析或OCR識别得到text tokens；對于基于CV方法，即目标檢測或分割的定義，選擇通過目标檢測網絡如Mask RCNN得到的區域RoI。VSR主要圍繞目标檢測的定義展開，同時VSR也可以很直接地應用到基于NLP的方法上。

2. VSR架構

VSR架構如圖2所示，主要包括三個子產品：雙流卷積網絡(two-stream ConvNets)、多尺度自适應聚合子產品、關系學習子產品。首先，雙流卷積網絡提取視覺和語義特征；然後，相對于簡單的拼接，多尺寸自适應聚合子產品來得到視覺和語義雙模态資訊表示；接着，基于聚合的多模态資訊表示，可以生成布局元件候選集；最後，關系學習子產品來學習各元件候選間的關系，并生成最終結果。下面對各子產品具體展開。

圖2 VSR架構圖

2.1 雙流卷積網絡

VSR采用雙流卷積神經網絡（本文采用的是ResNeXt-101）來分别提取圖像視覺資訊和文本語義資訊。

視覺ConvNet

語義ConvNet

2.2 多尺寸自适應聚合子產品

2.3 關系學習子產品

在得到FM後，可以通過RPN網絡很容易得到ROI（Region of Interest）作為布局部件候選集。本文在實驗階段選擇的是Mask RCNN，同時設定7個anchor比例(0.02, 0.05, 0.1, 0.2, 0.5, 1.0, 2.0)(0.02,0.05,0.1,0.2,0.5,1.0,2.0)得到部件候選集。如圖3所示，根據各部件候選之間的關系，可以有如下作用：（1）利用空間位置關系，調整文本框坐标；（2）根據部件間的共現關系（比如表格和表格标題一般會同時出現）修正預測标簽；（3）各component間不重疊的特性移除多餘框。VSR中關系學習子產品對各部件候選間的關系進行模組化，并最終得到版面分析的結果。

圖3 VSR關系學習子產品作用示意圖

将一篇文檔作為一張圖graph，而每個部件候選component candidate作為節點node。每個節點的特征表示由多模态特征表示和位置資訊表示組成：

2.4 優化訓練

3. 實驗結果

3.1 對比實驗

VSR在三個開源資料集Article Regions，PubLayNet，DocBank上取得了最優結果。

3.2 消融實驗

表5、表6、表7的實驗結果分别驗證了A.不同粒度的文本表示；B.雙流卷積網絡和聚合子產品；C.關系學習子產品三個部分的有效性。

4. 總結

VSR方法的三個重要部分如下：

（1）文本語義用character和sentence兩種粒度來表示；

（2）采用two-stream convnet來分别提取視覺和語義特征，再通過attention将兩個模态特征聚合，最後基于聚合特征得到component candidates；

（3）GNN即Self attention來學習各component candidates間的關系。

點選關注，第一時間了解華為雲新鮮技術~

AI論文解讀丨融合視覺、語義、關系多模态資訊的文檔版面分析架構VSR

1. 問題定義

2. VSR架構

2.1 雙流卷積網絡

2.2 多尺寸自适應聚合子產品

2.3 關系學習子產品

2.4 優化訓練

3. 實驗結果

3.1 對比實驗

3.2 消融實驗

4. 總結

繼續閱讀

大疆 Manifold妙算使用經驗妙算的實質注意OpenCV最後

QMAKE OPENCV項目

機器視覺halcon例程學習筆記之邊緣定位

NI-Vision-Assistant學習筆記一

【圖像處理】人類視覺成像原理

[Flink基礎]-- 一緻性的3個級别

Python與機器視覺(x) 顔色直方圖

VS2017搭建opencv開發環境VS2017搭建opencv開發環境

ECCV 2018 完整論文集 -- List & 下載下傳連結

halcon 仿射變換了解

realsense相機SDK——librealsense使用方法及bug解決（ubuntu）一、librealsense在哪裡？二、realsense庫怎麼用？三、遇到的問題記錄

【詞雲】wordcloud安裝與使用

Android語音識别SDK語義了解與解析方法

【ICLR2019】Oral 論文彙總

【ICLR2019】Poster 論文彙總

opencv元素通路基礎知識圖像基礎知識和opencv踩的坑