天天看點

通用文檔資訊提取模型淺析

文章目錄

  • ​​1. 前言與痛點​​
  • ​​2. 通用資訊提取模型技術分析​​
  • ​​1. 技術介紹​​
  • ​​2. 原理分析​​
  • ​​1. Layout Detection(視覺檢測子產品):​​
  • ​​2. OCR(文字識别子產品):​​
  • ​​3. NLP(語義協調子產品):​​
  • ​​4. GNN(資訊提取子產品):​​
  • ​​3. 技術效果​​
  • ​​3.1. 通用文字識别​​
  • ​​3.2. 通用表格資訊提取​​
  • ​​3.3. 印章檢測​​
  • ​​3.4. 營業執照檢測​​
  • ​​3.5. 辦公文檔識别​​
  • ​​4. 總結​​

1. 前言與痛點

我們在工作生活中經常需要提取圖檔中的文字,比如小夥伴給你發了一張發票,你需要将發票中的文字資訊錄入到系統中,傳統的方式都是照着圖檔中的文字手動錄入,這種方式低效又容易出錯,想必财務小夥伴對此深有體會。

那麼有沒有一種高效、便捷、快速識别提取圖檔中文字的方式呢?答案當然是有的。OCR就是專門用來識别提取文檔圖像中文字的技術。類似于人通過眼睛的視覺方式來接收外界資訊一樣,OCR技術就相當于是計算機(AI技術)的眼睛,它可以通過視覺感覺技術識别并提取文檔圖像中的文字。然而目前複雜文檔圖像的識别問題似乎已經成為 AI 技術落地中的瓶頸,文檔圖像作為一種非結構化資料,其分析識别面臨一些技術難點:

  1. 文檔圖像版式複雜,結構多樣:

文檔圖像版式多種多樣,文本行方向,形狀,字型風格和顔色各不相同,這就要求圖像識别技術能夠适應各種不同的文檔圖像版式。

自然場景下圖像的背景也是非常複雜,有的圖像因為光照或者拍照角度的原因,導緻OCR難以準确定位提取圖檔中的文字。

有的文檔嚴重變形,文檔品質退化非常嚴重,如下圖産生了極大的摩爾紋,為圖像識别帶來了極大的困難。

通用文檔資訊提取模型淺析
  1. 關鍵資訊提取及結構化了解困難:

    身份證、護照、行駛證、駕駛證、港澳通信證等證照類别,及增值稅發票、普通發票、發票、合同等文檔被篡改後無法檢測出是否真實,PS智能檢測在反欺詐、合規風控等領域意義重大。如下圖證件修改過字和有效期數字,這為識别帶來了新的困難。

雖然,目前市面上有很多OCR技術方案,但是沒有任何一款産品可以可以同時實作在多場景、多任務類型、多語言環境下高效穩定地處理。有些産品專注于文檔處理和轉換;有些産品可以很友善地對螢幕文本截圖識别,但卻無法處理手寫文本;有些産品面面俱到卻效果不佳。一次偶然的機會,我通過CSDN平台了解并體驗了一款讓我驚豔的智能文檔處理和OCR識别的産品平台。合合資訊:它的官網号稱為“掃描全能王”、“名片全能王”提供文字識别引擎。

合合資訊為文檔結構化了解的痛點提供了一系列的新技術。合合資訊實作了通用NLP抽取, 它基于自研NLP資訊抽取技術,無需配置與訓練,可對單頁/多頁、任意版式文檔,智能分析與提取客戶自定義關鍵資訊。 推薦使用場景:各種證件、票據、非标文檔以及合同/标書/保單/網頁截圖等各類電子文檔。

2. 通用資訊提取模型技術分析

1. 技術介紹

當提取文檔資訊并歸納這些資訊的時候,首先需要擷取版面元素,這些元素包括文本、印章、頁眉、頁腳、表格、水印、二維碼、條形碼、公式、Logo等等。接着對提取的版面元素進行資訊識别,最後對資訊進行蒸餾得到關鍵資訊并結構化,這個過程稱為資訊抽取(Information Extraction, IE)。上述步驟可以使用合合資訊提出的通用資訊提取架構中的技術來逐漸完成。合合資訊提出Layout Detection+OCR+NLP+GNN的端到端文檔資訊提取及結構化了解架構,有效的解決了行業相關痛點,利用通用資訊提取技術使得文檔智能成為可能。如下圖所示:

通用文檔資訊提取模型淺析

2. 原理分析

通用文檔資訊提取模型淺析

如上圖所示:整個架構的子產品表現為端到端的輸入與輸出,不同子產品間互相傳遞監督信号,有效的提高了模型的整體預測效果。合合通用文檔資訊提取架構通過将文檔類别與資訊元素之間解耦,能夠推理學習空間位置語義并準确捕捉跨模态文檔資訊,輕松應對各類複雜文檔。有效的提高了架構對于不同類别文檔識别的通用性與準确性。并将文檔智能推向了更高層面的工業應用。

下面為各個子產品的進行詳細介紹。

1. Layout Detection(視覺檢測子產品):

通用文檔資訊提取模型淺析

文檔版面元素是文檔了解的基礎,合合資訊提出Layout Engine作為架構的視覺檢測子產品,首先檢測出文檔中的各個元素,包括文本、印章、頁眉、頁腳、表格、水印、二維碼、條形碼、公式、Logo等。該子產品通過下采樣、上采樣以及attention子產品擷取圖像多尺度、空間以及通道相關的特征。最後采用point-wise的方式擷取文檔元素的heatmap區域,可以有效的提取各種形狀以及各類資訊的元素區域。

2. OCR(文字識别子產品):

通用文檔資訊提取模型淺析

提取出文檔各個部分的元素之後,采用OCR子產品進行元素中資訊識别。該子產品對提取出的文檔元素圖像進行編碼,再通過attention子產品加強圖像内部資訊的聯系,最後通過解碼器得到文檔元素的資訊識别。

3. NLP(語義協調子產品):

利用語義模型對OCR識别出的資訊進行語義合理性推理,進而調整資訊内容,提高資訊識别的準确率。合合資訊基于自研NLP資訊抽取技術,無需配置與訓練,可對單頁/多頁、任意版式文檔,智能分析與提取客戶自定義關鍵資訊。推薦使用場景:各種證件、票據、非标文檔以及合同/标書/保單/網頁截圖等各類電子文檔。

通用文檔資訊提取模型淺析

4. GNN(資訊提取子產品):

通用文檔資訊提取模型淺析

資訊抽取(Information Extraction, IE)是從自然語言文本中抽取實體、屬性、關系及事件等事實類資訊的文本處理技術,是資訊檢索、智能問答、智能對話等人工智能應用的重要基礎。

很多學習任務都需要處理圖資料,這些資料包含了元素之間豐富的關系資訊。 模組化實體系統,學習分子指紋,預測蛋白質界面,以及疾病分類都需要模型從圖形輸入中學習。在文本、圖像等非結構化資料學習等領域,對提取出的句子依賴樹、圖像場景圖等結構進行推理是一個重要的研究課題,也需要圖形推理模型。

圖神經網絡(GNN)是一種連接配接主義模型,它通過在圖的節點之間傳遞消息來擷取圖的依賴性。與标準神經網絡不同的是,圖神經網絡保留了一種狀态,這種狀态可以用任意深度表示鄰居的資訊。

文檔版面元素之間正是包含了豐富的關系資訊,是以自然的聯想到使用GNN網絡對版面元素進行模組化。該子產品利用文本+圖像(文檔元素ROI)多模态資訊輸入到GNN(圖神經網絡模型),圖像資訊編碼作為GNN的邊,即元素間的關系;文本資訊編碼作為GNN的節點,即元素資訊。最後通過MLP(多層感覺機)對元素進行資訊類别的判定以及元素間相關性評估。最終完成對文檔的資訊抽取并結構化輸出。

3. 技術效果

合合資訊自研NLP通用資訊提取架構在如下領域都取得了非常良好的效果。

3.1. 通用文字識别

合合資訊通過領先的深度學習技術,對各種表格,圖檔,文檔、證件、面單等多種通用場景進行快速、精準的檢測和識别,支援簡體中文/繁體中文/英文/數字/西歐主流語言/東歐主流語言等共52種語言,同時支援印刷體、手寫體、傾斜、折疊、旋轉等。

如下圖所示是各種不同語言的【你好】,這些字型大小不同,排版不同(有的傾斜,有的橫排,有的豎排),語言不同。但是合合資訊的通用文字識别功能可以非常輕松将圖檔中所有的文字資訊識别出來。識别結果如下圖所示:

通用文檔資訊提取模型淺析

3.2. 通用表格資訊提取

合合資訊的通用表格識别功能支援識别圖檔/PDF格式文檔中的表格内容,包括有線表格、無線表格、合并單元格表格,同時支援單張圖檔内的多個表格内容識别,傳回各表格的表頭表尾内容、單元格文字内容及其行列位置資訊。如下圖是一個普通的表單圖檔:

通用文檔資訊提取模型淺析

最終的識别結果如下圖所示:

通用文檔資訊提取模型淺析

3.3. 印章檢測

合合資訊印章檢測功能可以識别并提取圖像中的印章,以及辨認印章的所屬機關支援檢測并識别多行業合同檔案和票據中的印章,結構化傳回票據等樣本上單個/多個印章上文字,支援紅章/黑章,正常印章(圓章/方章等),可控制印章切圖外擴留白範圍。

通用文檔資訊提取模型淺析
通用文檔資訊提取模型淺析

3.4. 營業執照檢測

合合資訊支援檢測并識别多行業合同檔案和票據中的印章,結構化傳回票據等樣本上單個/多個印章上文字,支援紅章/黑章,正常印章(圓章/方章等),可控制印章切圖外擴留白範圍。可識别營業執照上的文字資訊,包括社會信用代碼、注冊号、企業名稱、企業類型、企業法人、注冊資本、經營範圍等字段。

通用文檔資訊提取模型淺析
通用文檔資訊提取模型淺析

3.5. 辦公文檔識别

合合資訊可對辦公文檔的圖檔版面進行分析,輸出圖、表、清單、文本、水印、頁眉頁腳、印章、公式的位置及文字,并輸出分版塊内容的OCR識别結果,支援52種語言,手寫、印刷體混排多種場景。識别效果如下圖所示:

4. 總結

繼續閱讀