天天看點

AI論文解讀丨融合視覺、語義、關系多模态資訊的文檔版面分析架構VSR

摘要:文檔版式分析任務中,文檔的視覺資訊、文本資訊、各版式部件間的關系資訊都對分析過程具有很重要的作用。本文提出一種融合視覺、文本、關系多模态資訊的版式分析架構VSR。

本文分享自華為雲社群《論文解讀系列十八:融合視覺、語義、關系多模态資訊的文檔版面分析架構VSR》,作者: 小菜鳥chg 。

AI論文解讀丨融合視覺、語義、關系多模态資訊的文檔版面分析架構VSR

現有文檔版面分析方法大緻可分為兩種:基于NLP的方法将版面分析任務看作是序列标簽分類任務(sequence labeling),但是該類方法在版面模組化上表現出不足,無法捕獲空間資訊;基于CV的方法則将版面分析看作是目标檢測或分割任務(object detection or segmentation),該類方法的不足表現在(1)缺乏細粒度的語義、(2)簡單的拼接方式、(3)未利用關系資訊。如圖1展示的VSR的motivation示意圖,為解決上述各方法的局限性問題,本文提出一種融合視覺、文本、關系多模态資訊的版式分析架構VSR (Vision, Semantic, Relation)。

AI論文解讀丨融合視覺、語義、關系多模态資訊的文檔版面分析架構VSR

圖1 VSR的motivation示意圖

1. 問題定義

版式分析任務既可當做序列标簽分類,又可當做目标檢測。主要差別在于部件候選(component candidates)的選擇。對于基于NLP方法,即序列标簽分類的定義,選擇通過pdf解析或OCR識别得到text tokens;對于基于CV方法,即目标檢測或分割的定義,選擇通過目标檢測網絡如Mask RCNN得到的區域RoI。VSR主要圍繞目标檢測的定義展開,同時VSR也可以很直接地應用到基于NLP的方法上。

2. VSR架構

VSR架構如圖2所示,主要包括三個子產品:雙流卷積網絡(two-stream ConvNets)、多尺度自适應聚合子產品、關系學習子產品。首先,雙流卷積網絡提取視覺和語義特征;然後,相對于簡單的拼接,多尺寸自适應聚合子產品來得到視覺和語義雙模态資訊表示;接着,基于聚合的多模态資訊表示,可以生成布局元件候選集;最後,關系學習子產品來學習各元件候選間的關系,并生成最終結果。下面對各子產品具體展開。

AI論文解讀丨融合視覺、語義、關系多模态資訊的文檔版面分析架構VSR

圖2 VSR架構圖

2.1 雙流卷積網絡

VSR采用雙流卷積神經網絡(本文采用的是ResNeXt-101)來分别提取圖像視覺資訊和文本語義資訊。

視覺ConvNet

AI論文解讀丨融合視覺、語義、關系多模态資訊的文檔版面分析架構VSR

語義ConvNet

AI論文解讀丨融合視覺、語義、關系多模态資訊的文檔版面分析架構VSR

2.2 多尺寸自适應聚合子產品

AI論文解讀丨融合視覺、語義、關系多模态資訊的文檔版面分析架構VSR

2.3 關系學習子產品

在得到FM後,可以通過RPN網絡很容易得到ROI(Region of Interest)作為布局部件候選集。本文在實驗階段選擇的是Mask RCNN,同時設定7個anchor比例(0.02, 0.05, 0.1, 0.2, 0.5, 1.0, 2.0)(0.02,0.05,0.1,0.2,0.5,1.0,2.0)得到部件候選集。如圖3所示,根據各部件候選之間的關系,可以有如下作用:(1)利用空間位置關系,調整文本框坐标;(2)根據部件間的共現關系(比如表格和表格标題一般會同時出現)修正預測标簽;(3)各component間不重疊的特性移除多餘框。VSR中關系學習子產品對各部件候選間的關系進行模組化,并最終得到版面分析的結果。

AI論文解讀丨融合視覺、語義、關系多模态資訊的文檔版面分析架構VSR

圖3 VSR關系學習子產品作用示意圖

将一篇文檔作為一張圖graph,而每個部件候選component candidate作為節點node。每個節點的特征表示由多模态特征表示和位置資訊表示組成:

AI論文解讀丨融合視覺、語義、關系多模态資訊的文檔版面分析架構VSR

2.4 優化訓練

AI論文解讀丨融合視覺、語義、關系多模态資訊的文檔版面分析架構VSR

3. 實驗結果

3.1 對比實驗

VSR在三個開源資料集Article Regions,PubLayNet,DocBank上取得了最優結果。

AI論文解讀丨融合視覺、語義、關系多模态資訊的文檔版面分析架構VSR
AI論文解讀丨融合視覺、語義、關系多模态資訊的文檔版面分析架構VSR
AI論文解讀丨融合視覺、語義、關系多模态資訊的文檔版面分析架構VSR

3.2 消融實驗

表5、表6、表7的實驗結果分别驗證了A.不同粒度的文本表示;B.雙流卷積網絡和聚合子產品;C.關系學習子產品三個部分的有效性。

AI論文解讀丨融合視覺、語義、關系多模态資訊的文檔版面分析架構VSR
AI論文解讀丨融合視覺、語義、關系多模态資訊的文檔版面分析架構VSR

4. 總結

VSR方法的三個重要部分如下:

(1)文本語義用character和sentence兩種粒度來表示;

(2)采用two-stream convnet來分别提取視覺和語義特征,再通過attention将兩個模态特征聚合,最後基于聚合特征得到component candidates;

(3)GNN即Self attention來學習各component candidates間的關系。

點選關注,第一時間了解華為雲新鮮技術~

繼續閱讀