Tesseract的問題

我使用的是Tesseract4.0版本，參照的是别人的部落格，注意不要下載下傳最新版本，部落客使用哪個版本就用哪個，否則會跟人家說明的步驟對不上，我開始下了個最新版本，後來運作某一步的時候會報“icuin63.dll”、“icucu63.dll”缺少的錯誤。

Tesseract4.0 分析他的chi_sim.traineddata 檔案，應該是包含了一級字庫的3755個字，但是有些字是識别不出來的，比如大寫的數字“壹貳叁肆伍陸柒捌玖拾”等。原因不詳，有經驗的跪求指導。。。

jTessBoxEditor 訓練

然後就是按照大家在網上經常能搜到的，試用 jTessBoxEditor進行訓練，其實一直不了解，訓練的目的，原因如下：

第一種訓練方式，是使用工具裡TIFF/Box Generator，可以把文字直接copy到工具的文本框裡，標明字型直接訓練。按照此種方式，我把一級字庫考進來，選了楷體，訓練了一把，結果還不如自帶的字庫chi_sim.traineddata 識别率高。至少，chi_sim.traineddata能識别一級字庫的多種字型，還有基本的标點符号，數字，英文，自己訓練的字庫，隻有一級字庫，字型可以考慮多種字型的訓練後合并。
還是使用工具裡TIFF/Box Generator，隻訓練“壹貳叁肆伍陸柒捌玖拾”，然後放一個圖檔，包含這十個數字，結果還比較可以，除了柒其他都識别出來了，但是，這個資料集隻認識這十個數字，自己訓練的字庫是無法和自帶字庫合并的，搜了一個方法是用+ 連接配接字庫“chi_sim+num”,如果隻識别十個數字，結果比隻用“chi_sim+num”多認出了幾個，還不如隻用“num”字庫認識的多，效果依舊不滿意。
第二種方式，是拿圖檔訓練，拿圖檔訓練的字庫，對于這張圖檔是識别率高了，但是新的圖檔的識别率似乎還是老樣子。