天天看點

OCR技術學習,智能文檔圖像處理技術應用與實踐

作者:哪吒程式設計

大家好,我是哪吒。

最近在學習OCR相關的技術,是指對包含文本資料的圖像檔案進行分析識别處理,擷取文字及版面資訊的技術。

OCR預處理的最終目的是提高字元識别的準确性和效率。其中版面分析技術指的是OCR系統可以忽略圖像中的非文本區域,并将文本區域劃分為易于處理的行和列,進而減少字元識别的錯誤率。

近期在2023年度視覺與學習青年學者研讨會(VALSE)上,作為智能文檔處理領域的代表合合資訊對于智能文檔處理技術研發與實踐成果也進行了分享,使我受益匪淺。

一、智能文字識别一般包含以下幾個過程

1、圖像輸入

一般在收到一個圖像時,往往可能會因為各種因素(手機像素太低、環境太過陰暗、距離較遠等),圖檔拍攝的不怎麼清晰或是傾斜的、或是背景圖檔過于複雜。

如果圖檔是傾斜的,可以通過OpenCV和Python進行文本傾斜校正,再輔助直線檢測得到圖像對應的正方向; 如果亮度不統一,可以用二值化方法 + 投影解決;

感覺自己可以勝任OCR的任何工作了,但是,如果收到的是一個很複雜的圖像,又該怎麼處理呢?怎麼做版面分析?

太難了。

OCR技術學習,智能文檔圖像處理技術應用與實踐

2、圖像預處理

OCR技術學習,智能文檔圖像處理技術應用與實踐

常見的文檔分析及預處理主要包括彎曲矯正、陰影、去摩爾紋、不清晰等。

(1)彎曲矯正系統pipeline

OCR技術學習,智能文檔圖像處理技術應用與實踐

彎曲矯正系統是一種圖像預處理方法,用于處理拍攝的文檔圖像中可能存在的幾何形變,包括彎曲、褶皺、折疊等因素導緻的畸變。

彎曲矯正系統采用基于位移場網絡學習方法的系統構架,對形變文檔進行智能矯正,同時智能定位文檔邊緣,切除多餘背景。這種方法可以廣泛應用于紙質文檔、書籍、名片等各類彎曲載體的文字識别任務中,通過彎曲矯正技術,可自動“拉平”圖像,提升各類非正常載體文字的識别效率與品質。

(2)摩爾紋去除

OCR技術學習,智能文檔圖像處理技術應用與實踐

圖像預進行中的摩爾紋去除是一個富有挑戰性的任務,目前常見的解決方法是在成像前進行預處理,例如在相機鏡頭前放置抗混疊濾波器,對彩色濾波陣列(CFA)的輸出應用精确插值算法。此外,在專業攝影領域,最有效的去摩爾紋方法是借助專業圖像處理軟體的後處理方法,如Adobe Photoshop。這個方法主要分為兩步,即摩爾條紋去除和色調映射。還有近年來的深度學習,如解碼器網絡,也可以有效地去除摩爾紋。

3、版面分析

将文本區域分割成行、列或單詞。版面分析方法通常分為兩種:規則方法和統計方法。規則方法根據文本的幾何特征(如大小、形狀、方向等)來分割文本區域,而統計方法則使用機率統計方法來識别文本區域。

4、字元切割

OCR預進行中的字元切割是将連續的字元分割成若幹個獨立的字元區域的過程。

這個過程對于OCR識别準确率至關重要。

5、字元識别

OCR預進行中的字元識别是将每個字元翻譯成計算機文字的過程。

在OCR預進行中,字元識别是至關重要的一步。通過字元識别,OCR系統可以将圖像中的文本轉換為計算機文字,進而實作文本資訊的自動化處理。

6、版面恢複

OCR預進行中的版面恢複是将原本不規則排版的文本區域恢複成規則的版面布局的過程。這個過程對于OCR識别準确率至關重要。

7、後處理、核對

OCR預處理的後處理和核對是指在OCR識别結果的基礎上,進行進一步的校對和修正,以提高OCR識别的準确率。

下面具體說一下裡面看似“冷門”但比較重要的技術點——版面分析,版面分析包括實體版面和邏輯版面。

二、實體版面版面分析

OCR技術學習,智能文檔圖像處理技術應用與實踐

實體版面版面分析是為了将文本區域分割成行、列或單詞,進而減少字元識别的錯誤率。

版面分析通常分為兩個步驟:圖像處理和版面分析。

圖像處理通過各種技術(如去噪、二值化、濾波等)将原始圖像轉換為适合OCR處理的格式。

版面分析方法通常分為兩種:規則方法和統計方法。

規則方法根據文本的幾何特征(如大小、形狀、方向等)來分割文本區域,而統計方法則使用機率統計方法來識别文本區域,最終目的是提高字元識别的準确性和效率。

三、邏輯版面版面分析

邏輯版面版面分析是指對文檔的邏輯結構進行分析,以确定文檔中的文本區域、圖像、表格等元素的位置和關系。

這種分析對于OCR識别和文檔處理非常重要,因為它可以幫助我們了解文檔中的資訊分布群組織方式,進而更好地進行資訊提取和整理。

邏輯版面版面分析通常包括以下步驟:

  1. 文本行分割:将文檔中的文本分割成行;
  2. 段落識别:将文檔中的文本分割成段落;
  3. 表格識别:将文檔中的表格提取出來,并進行适當的表格轉換;
  4. 文本區域分割:将文檔中的文本分割成區域,以便于後續的資訊提取和整理;
  5. 圖像識别:識别文檔中的圖像,并進行适當的圖像處理;
  6. 頁面分析:對整個文檔頁面進行布局分析,以便于後續的排版和列印等操作。
OCR技術學習,智能文檔圖像處理技術應用與實踐

通過邏輯版面版面分析,我們可以得到文檔的邏輯結構資訊,進而更好地進行資訊提取和整理。這種分析在OCR識别和文檔進行中廣泛應用,可以幫助我們提高識别和處理的準确率和效率。

四、OCR 文檔還原

OCR 文檔還原(OCR Document Restoration)是指将掃描或圖檔格式的文檔轉換為可編輯的文本格式,友善後續的編輯和處理。OCR技術常用于文檔數字化和資訊提取。

1、下面是通過合合資訊技術實作的版面還原

OCR技術學習,智能文檔圖像處理技術應用與實踐

2、以下是一些OCR文檔還原的步驟:

  1. 圖像預處理:對原始文檔圖像進行預處理,如去噪、二值化、圖像增強等,以提高OCR識别的準确率和穩定性;
  2. 版面分析:對文檔進行邏輯版面分析,将其分割成不同的區域,如文本區域、圖像區域、表格區域等;
  3. OCR識别:對分割後的區域進行OCR識别,将其轉換為文本格式;
  4. 後處理和核對:對OCR識别結果進行後處理和核對,如文法校正、拼寫檢查、詞性标注等,以提高還原文本的品質;
  5. 輸出:将還原後的文本輸出到編輯器或文檔處理軟體中,進行後續的編輯和處理。
OCR技術學習,智能文檔圖像處理技術應用與實踐
OCR技術學習,智能文檔圖像處理技術應用與實踐

OCR文檔還原系統架構包括Web Service、任務排程程式和證件識别伺服器等元件。Web Service負責接收用戶端上傳的需要做識别的證件圖檔,并将識别請求轉發給任務排程程式。任務排程程式再把識别請求分發給空閑的證件識别伺服器,得到識别結果後再依次傳回,最後由Web Service将結果傳回到用戶端。

3、通過合合資訊技術實作的效果展示:

OCR技術學習,智能文檔圖像處理技術應用與實踐

五、版面元素檢測和識别

OCR技術學習,智能文檔圖像處理技術應用與實踐

1、版面元素檢測和識别

版面元素檢測和識别是指對文檔圖像中的版面元素進行自動檢測和分類的過程,是OCR文檔還原和版面分析的關鍵步驟之一。

版面元素包括文本、圖像、表格等元素,它們在文檔中通常具有一定的規則和布局。通過對版面元素的檢測和識别,可以獲得文檔的邏輯結構資訊,進而更好地進行資訊提取和整理。

2、版面元素檢測和識别的常用方法包括:

  1. 基于規則的方法:根據版面元素的幾何特征(如大小、形狀、方向等)和屬性(如文本類型、圖像類型等),制定相應的規則來進行檢測和分類;
  2. 基于機器學習的方法:通過訓練機器學習模型(如決策樹、支援向量機、神經網絡等),對版面元素進行分類和識别;
  3. 基于深度學習的方法:利用深度學習模型(如卷積神經網絡、循環神經網絡等),對版面元素進行端到端的訓練和識别;
  4. 基于遷移學習的方法:利用在自然圖像中訓練的模型,将其遷移到版面元素檢測和識别任務中,以獲得更好的性能。

版面元素檢測和識别的技術不斷發展,可以進一步提高OCR文檔還原和版面分析的準确率和效率。

3、下面是合合資訊技術進行的版面元素檢測和識别

OCR技術學習,智能文檔圖像處理技術應用與實踐

六、總結

通過版面分析技術将文字區域和非文字區域進行分離,進而将文字區域中的排版、布局資訊提取出來,以便于後續的識别處理。版面分析是OCR技術中的一個重要環節,它直接影響到OCR的識别準确率和效率。

通過對OCR技術的不斷專研,我發現,OCR文檔還原的品質受到多種因素的影響,如文檔品質、版式複雜度、字型和字号等。在OCR文檔還原過程中,需要根據實際情況進行調整和優化,以提高還原文本的品質和準确性。

繼續閱讀