Tesseract 資料訓練

1. Merge合并樣本檔案生成字尾為.tif格式檔案 khm.font.exp0.tif

Tool->merge tiff (jTessBoxEditor工具)

2. 生成 .box檔案 khm.font.exp0.box (注意-l khm –psm)

tesseract khm.font.exp0.tif khm.font.exp0 -l khm –psm 7 batch.nochop makebox

3. 使用JtessBoxEditor 開啟之前生成的.tif檔案

4. 修正調整并儲存

Tesseract 資料訓練

5. 利用.tif和.box檔案生成.lstmf檔案用于lstm訓練

tesseract khm.font.exp0.tif khm.font.exp0 -l khm --psm 7 lstm.train

6. 從已有的.traineddate中提取.lstm 檔案(khm語言資料)

下載下傳位址:https://github.com/tesseract-ocr/tessdata_best

combine_tessdata -e khm.traineddata khm.lstm

7. 建立一個khm.training_file.txt檔案,裡面的内容為.lstmf檔案的路徑位址

Tesseract 資料訓練

8. 進行訓練

lstmtraining

--model_output="<filepath>\output"

--continue_from="<filepath>\khm.lstm"

--train_listfile="C<filepath>\khm.training_files.txt"

--traineddata="<filepath>\khm.traineddata"

--debug_interval -1

--max_iterations 800

9. 将checkpoint檔案和.traineddata檔案合并成新的.traineddata

lstmtraining

--stop_training

--continue_from="<filepath>\output_checkpoint"

--traineddata="<filepath>\khm.traineddata"

--model_output="<filepath>\zth.traineddata"

10. 指令介紹 lstmtraining -help幫助

--modeloutput 模型訓練輸出的路徑（我在new_05檔案夾中建立了一個名為output的檔案夾用來存輸出的檔案)

--continue_from 訓練從哪裡繼續，這裡指定提取的khm.lstm檔案，

--train_listfile 指定上一步建立的檔案的路徑

--traineddata 下載下傳的.traineddata檔案的路徑

--debug_interval 當值為-1時，訓練結束，會顯示訓練的一些結果參數

--max_iterations 指明訓練周遊次數

--stop_training 預設要有的

--continue_from 上一步生成的output_checkpoint檔案路徑

--traineddata 第4步中下載下傳的.traineddata檔案的路徑

--model_output zth.traineddata 輸出的路徑

11. 将生成的zth.traineddata檔案複制到Tesseract-OCR\tessdata路徑下

12. tesseract –-list-langs 檢視支援語言

Tesseract 資料訓練

13. 運作 tesseract 1.jpg output -l zth –psm 7檢視識别結果

Tesseract 資料訓練

繼續閱讀