最近打算使用MODI(Microsoft Office Document Imaging)提供的接口識别簡體中文,以實作一個簡單的ocr功能,但在嘗試過程中發現MODI識别出來的中文不包含段落以及空格等特殊字元,本來是打算使用tesseract-ocr的,識别出的文本就包括段落以及空格,但中文識别率較低,通過training也失敗了。
具體代碼如下:

MODI.Document doc = new MODI.Document();
doc.Create(img_Path);
MODI.Image image;
MODI.Layout layout;
MODI.Word word;
StringBuilder sbWord = new StringBuilder();
doc.OCR(MODI.MiLANGUAGES.miLANG_CHINESE_SIMPLIFIED, true, true); // 識别文字類型
for (int i = 0; i < doc.Images.Count; i++)
{
image = (MODI.Image)doc.Images[i];
layout = image.Layout;
sb.Append(layout.Text);
}

layout.Text輸出的是不包含段落的文本,如我識别以下圖:
輸出的結果是:
恩平市人民政府辦公室檔案思府辦[ 2001 〕 10 号轉發國務院辦公廳關于實施 《 國家行政機關公文處理辦法 》 涉及的幾個具體問題的處理意見的通知各鵝人民墳府市篇農林場耳币府 i 蕊局以上平位:硯将‘國務院辦公廳關于實施(國東行政機關公丈處理辦法)沙及的幾個具體問皿的處理啟見 》 轉發給你們諸認二 t 徹執行
無任何的段落識别,而我想要的效果是每一個段落都有一個換行或者空格