天天看點

tesseract訓練字庫

tesseract 訓練字庫先做兩個準備工作

1.下載下傳工具cowboxer

http://download.csdn.net/detail/cxf7394373/5305519

2. 下載下傳tesseract-ocr.exe

https://code.google.com/p/tesseract-ocr/downloads/list

3. 安裝tessract-ocr

我直接安裝在了D:\\下面

現在可以開始了,訓練步驟包括以下幾步:

1. 識别圖檔

打開cmd,cd 至D:\\tesseract\\下面,拷貝一張圖檔1.tif至該目錄下,執行下面的指令

tesseract  1.tif 1 –l chi_sim batch.nochopmakebox

2.在cowbox中調整方框大小

在D:\\tesseract\\下會生成一個檔案1.box,用cowboxer工具打開1.box,會顯示如下圖的内容,糾正不正确的文字框,如果是中文,先輸入拼音,所有修改完之後,儲存。然後用記事本打開1.box,再改成漢字。

tesseract訓練字庫

3. 訓練字庫,在這裡是對兩張圖檔進行了處理,也就是說這個工具可以把多張圖檔的字訓練至一個字庫中,過程如下:

tesseract  1.tif  1 nobatch box.train

tesseract  2.tif  2 nobatch box.train

training\unicharset_extractor 1.box 2.box 

training\mftraining  -U unicharset  -O test.unicharset 1.tr 2.tr

training\cntraining  1.tr  2.tr

rename normproto test.normproto

rename Microfeat test.Microfeat

rename inttemp test.inttemp

rename pffmtable test.pffmtable

..\training\combine_tessdata test. 

最後出現如下的結果,第 2,4,5,6,行出現非-1數字時說明生成了新的字庫。

tesseract訓練字庫