天天看點

用Tesseract和jTessBoxEditor實作OCR的采坑記錄Tesseract的問題jTessBoxEditor 訓練

用Tesseract和jTessBoxEditor實作OCR的采坑記錄

  • Tesseract的問題
  • jTessBoxEditor 訓練

Tesseract的問題

我使用的是Tesseract4.0版本,參照的是别人的部落格,注意不要下載下傳最新版本,部落客使用哪個版本就用哪個,否則會跟人家說明的步驟對不上,我開始下了個最新版本,後來運作某一步的時候會報“icuin63.dll”、“icucu63.dll”缺少的錯誤。

Tesseract4.0 分析他的chi_sim.traineddata 檔案,應該是包含了一級字庫的3755個字,但是有些字是識别不出來的,比如大寫的數字“壹貳叁肆伍陸柒捌玖拾”等。原因不詳,有經驗的跪求指導。。。

jTessBoxEditor 訓練

然後就是按照大家在網上經常能搜到的,試用 jTessBoxEditor進行訓練,其實一直不了解,訓練的目的,原因如下:

  1. 第一種訓練方式,是使用工具裡TIFF/Box Generator,可以把文字直接copy到工具的文本框裡,標明字型直接訓練。按照此種方式,我把一級字庫考進來,選了楷體,訓練了一把,結果還不如自帶的字庫chi_sim.traineddata 識别率高。至少,chi_sim.traineddata能識别一級字庫的多種字型,還有基本的标點符号,數字,英文,自己訓練的字庫,隻有一級字庫,字型可以考慮多種字型的訓練後合并。
  2. 還是使用工具裡TIFF/Box Generator,隻訓練“壹貳叁肆伍陸柒捌玖拾”,然後放一個圖檔,包含這十個數字,結果還比較可以,除了柒其他都識别出來了,但是,這個資料集隻認識這十個數字,自己訓練的字庫是無法和自帶字庫合并的,搜了一個方法是用+ 連接配接字庫“chi_sim+num”,如果隻識别十個數字,結果比隻用“chi_sim+num”多認出了幾個,還不如隻用“num”字庫認識的多,效果依舊不滿意。
  3. 第二種方式,是拿圖檔訓練,拿圖檔訓練的字庫,對于這張圖檔是識别率高了,但是新的圖檔的識别率似乎還是老樣子。

繼續閱讀