使用MODI（Microsoft Office Document Imaging）識别中文，但無法區分段落

2023-08-05 20:51:18

最近打算使用MODI（Microsoft Office Document Imaging）提供的接口識别簡體中文，以實作一個簡單的ocr功能，但在嘗試過程中發現MODI識别出來的中文不包含段落以及空格等特殊字元，本來是打算使用tesseract-ocr的，識别出的文本就包括段落以及空格，但中文識别率較低，通過training也失敗了。

具體代碼如下：

MODI.Document doc = new MODI.Document();
                doc.Create(img_Path);
                MODI.Image image;
                MODI.Layout layout;
                MODI.Word word;
                StringBuilder sbWord = new StringBuilder();
                doc.OCR(MODI.MiLANGUAGES.miLANG_CHINESE_SIMPLIFIED, true, true);  // 識别文字類型
                for (int i = 0; i < doc.Images.Count; i++)
                {
                    image = (MODI.Image)doc.Images[i];
                    layout = image.Layout;
                    sb.Append(layout.Text);
                }

使用MODI（Microsoft Office Document Imaging）識别中文，但無法區分段落

layout.Text輸出的是不包含段落的文本，如我識别以下圖：

使用MODI（Microsoft Office Document Imaging）識别中文，但無法區分段落

輸出的結果是：

恩平市人民政府辦公室檔案思府辦［ 2001 〕 10 号轉發國務院辦公廳關于實施 《 國家行政機關公文處理辦法 》 涉及的幾個具體問題的處理意見的通知各鵝人民墳府市篇農林場耳币府 i 蕊局以上平位：硯将‘國務院辦公廳關于實施（國東行政機關公丈處理辦法）沙及的幾個具體問皿的處理啟見 》 轉發給你們諸認二 t 徹執行

無任何的段落識别，而我想要的效果是每一個段落都有一個換行或者空格

使用MODI（Microsoft Office Document Imaging）識别中文，但無法區分段落

繼續閱讀

Python驗證碼識别tesseract-ocr安裝，報錯解決

tess4j的簡單使用doOCR異常彙總：

java實作阿裡雲圖檔文字識别

圖檔文字識别工具調研2.tesseract安裝與使用3.python

LEADTOOLS WinRT OCR識别代碼示例

場景文本檢測（一）-可微分二值化在基于語義分割方法的場景文本檢測中的應用動機和Contributions現存方法Methodology總結Ref

文本檢測算法----DB、DBNet1. 摘要2. 算法3. 實驗4. 結論

【百度OCR 封裝篇】OCR封裝隻IOCR自定義模版或分類器封裝兩種調用方式

識别PDF文字的軟體，得力OCR文字識别

主流深度學習OCR文字識别方法對比：Tesseract（LSTM）、CTPN+CRNN、Densenetopencv mser算法框出圖檔文字區域

【基于WPF+OneNote+Oracle的中文圖檔識别系統階段總結】之篇三：批量處理後的txt檔案入庫處理篇三：批量處理後的txt檔案入庫處理

百度雲 OCR 識别圖檔驗證碼

爬蟲驗證碼識别_工具篇：安裝pytesseract&Tesseract-OCR

應用移動端銀行卡識别技術，實作APP端快捷綁定銀行卡号

手寫字元識别

Jaspersfot Studio Create Check OCR Font