
本文簡要介紹NAACL 2019錄用論文“Graph Convolution for Multimodal Information Extraction from Visually Rich Documents”的主要工作。該論文主要針對視覺富文本資料的資訊抽取問題,提出了一種圖卷積網絡,結合文本資訊與視覺資訊,取得了比純文字方法更好的效果。
圖1 視覺富文本資料示例
一、研究背景
資訊抽取是從非結構化文本中提取結構化資訊的過程,其作為一個經典和基礎的自然語言處理問題已經得到廣泛研究。傳統的資訊抽取聚焦于從純文字中提取實體與關系資訊,卻較少有對視覺富文本的研究。視覺富文本資料是指語義結構不僅由本文内容決定,也與排版、表格結構、字型等視覺元素有關的文本資料。視覺富文本資料在生活中随處可見,例如收據、證件、保險單等,本文主要關心的是該類圖檔經過OCR後帶坐标文字行資料的資訊抽取。基于模闆比對的方法1[3]雖然可以結合文本與視覺資訊,但是以收據為例一種資料可能有上千種模闆,并且以圖檔為輸入的系統伴随着變形、模糊、幹擾資訊等問題,每個模闆都需要大量工程調優,其可擴充性很差。
二、方法原理簡述
圖2 視覺富文本資料模組化
圖2是本文對視覺富文本資料的模組化方式。每張圖檔經過OCR系統後會得到一組文本塊,每個文本塊包含其在圖檔中的坐标資訊與文本内容。本文将這一組文本塊構成全連接配接有向圖,即每個文本塊構成一個節點,每個節點都與其他所有節點有連接配接。節點的初始特征由文本塊的文本内容通過BiLSTM[4]編碼得到。邊的初始特征為鄰居文本塊與目前文本塊的相對坐标與長寬資訊,該特征使用目前文本塊的高度進行歸一化,具有仿射不變性。
圖3 視覺富文本資料圖卷積模型
圖3是本文對視覺富文本資料使用的圖卷積模型。與其他圖卷積工作(GAT[5]等)僅在節點上進行卷積不同,本文認為在資訊抽取中“個體-關系-個體”的三元資訊更加重要,是以在“節點-邊-節點”的三元特征組上進行卷積。本文同時引入了Self-attention機制[6],讓網絡在全連接配接有向圖構成的所有有向三元組中挑選更加值得注意的資訊,并權重聚合特征。初始的節點特征與邊特征經過多層卷積後得到節點與邊的高層表征。
圖4 圖特征的BiLSTM-CRF解碼
圖4是本文使用資訊抽取解碼器,解碼階段将之前得到的節點高層表征與節點文本每個單字的特征表征拼接,使用經典的BiLSTM+CRF結構,輸出單字級别的抽取結果。實驗中使用Word2Vec生成單字的特征表征,并對單字進行IOB打标[7]。實驗中同時對每個文字塊所屬的實體标簽進行打标,并将節點高層表征輸入Sigmoid分類器對文字塊的實體标簽進行判定,作為一個輔助任務同時進行訓練。
三、主要實驗結果
本文在兩份真實商業資料上測試了方法的效果,分别為增值稅發票(VATI,固定版式,3000張)和國際采購收據(IPR,非固定版式,1500張),其中OCR部分使用了阿裡巴巴讀光OCR團隊的技術。本文使用了兩個Baseline,Baseline I為對每個文本塊的文本内容獨立做BiLSTM+CRF解碼,Baseline II為将所有文本塊的文本内容進行“從左到右、從上到下”的順序拼接後,對拼接文本整體做BiLSTM+CRF解碼。
表1 整體F1score評價
表2 實體F1score評價
從表1和表2可以看到,本文提出的模型在Basline的基礎上都有明顯提升,其中在僅依靠文本資訊就可以抽取的字段(如日期)上與Baseline持平,而在需要依靠視覺資訊做判斷的字段(如價格、稅額)上有較大提升。
表3 模型簡化測試(F1score)
表3為模型簡化測試結果,進一步研究視覺資訊(初始邊特征)、文本資訊(初始節點特征)與self-attention所扮演的作用。實驗顯示,視覺資訊起主要作用,增加了語義相近文本的區分度。文本資訊也對視覺資訊起到一定的輔助作用。self-attention在固定版式資料上基本沒有幫助,但是在非固定版式資料上有一定提升。
表4 輔助任務有效性驗證(F1score)
表4為輔助任務有效性驗證明驗結果,可以看到輔助任務由于引入了更多資訊,是以取得了更佳的效果。實驗同時發現,引入輔助任務有助于網絡訓練更快收斂。
四、總結及讨論
1. 本文提出了一種用于視覺富文本資料資訊抽取的圖卷積網絡,在圖卷積網絡抽取的特征上做BiLSTM+CRF解碼,對比在獨立文本塊和拼接文本上做BiLSTM+CRF解碼有明顯的效果提升。
2. 本文标注了兩個真實場景視覺富文本資料集,并進行了綜合實驗與分析,直覺展現了視覺資訊、文本資訊、Self-Attention和輔助任務的作用。
3. 本文展現了處理視覺富文本的新思路,未來會應用于更多視覺富文本了解任務。
五、相關資源
• Graph Convolution for Multimodal Information Extraction from Visually Rich Documents 論文位址:
https://arxiv.org/pdf/1903.11279.pdf• GAT論文位址:
https://arxiv.org/pdf/1710.10903.pdf• Self-Attention論文位址:
https://arxiv.org/pdf/1706.03762.pdf參考文獻
[1] Laura Chiticariu, Yunyao Li, and Frederick R Reiss. 2013. Rule-based information extraction is dead! long live rule-based information extraction systems! In Proceedings of the 2013 conference on empirical methods in natural language processing, pages 827–832.
[2] Andreas R Dengel and Bertin Klein. 2002. smartfix: A requirements-driven system for document analysis and understanding. In International Workshop on Document Analysis Systems,pages 433–444. Springer.
[3] Daniel Schuster, Klemens Muthmann, Daniel Esser, Alexander Schill, Michael Berger, Christoph Weidling, Kamil Aliyev, and Andreas Hofmeier. 2013. Intellix–end-user trained information extraction for document archiving. In 2013 12th International Conference on Document Analysis and Recognition,pages 101–105. IEEE.
[4] Mike Schuster and Kuldip K Paliwal. 1997. Bidirectional recurrent neural networks.IEEE Transactions on Signal Processing,45(11):2673.
[5] Petar Veliˇckovi´c, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Li`o,and Yoshua Bengio. 2018. Graph attention networks. International Conference on Learning Representations.
[6] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, ŁukaszKaiser, and Illia Polosukhin. 2017. Attention is all you need. In Advances in Neural Information Processing Systems, pages 5998–6008.
[7] Erik F Sang and Jorn Veenstra. 1999. Representing text chunks. In Proceedings of the ninth conference on European chapter of the Association for Computational Linguistics, pages 173–179.Association for Computational Linguistics.
__
原文作者:Xiaojing Liu, Feiyu Gao,Qiong Zhang, Huasha Zhao
**本文出處:
https://mp.weixin.qq.com/s/CwLN2SRyN7RTEFtNx3u8Pg**