1. Merge合并樣本檔案 生成字尾為.tif格式檔案 khm.font.exp0.tif
Tool->merge tiff (jTessBoxEditor工具)
2. 生成 .box檔案 khm.font.exp0.box (注意-l khm –psm)
tesseract khm.font.exp0.tif khm.font.exp0 -l khm –psm 7 batch.nochop makebox
3. 使用JtessBoxEditor 開啟之前生成的.tif檔案
4. 修正調整并儲存

5. 利用.tif和.box檔案生成.lstmf檔案用于lstm訓練
tesseract khm.font.exp0.tif khm.font.exp0 -l khm --psm 7 lstm.train
6. 從已有的.traineddate中提取.lstm 檔案(khm語言資料)
下載下傳位址:https://github.com/tesseract-ocr/tessdata_best
combine_tessdata -e khm.traineddata khm.lstm
7. 建立一個khm.training_file.txt檔案,裡面的内容為.lstmf檔案的路徑位址
8. 進行訓練
lstmtraining
--model_output="<filepath>\output"
--continue_from="<filepath>\khm.lstm"
--train_listfile="C<filepath>\khm.training_files.txt"
--traineddata="<filepath>\khm.traineddata"
--debug_interval -1
--max_iterations 800
9. 将checkpoint檔案和.traineddata檔案合并成新的.traineddata
lstmtraining
--stop_training
--continue_from="<filepath>\output_checkpoint"
--traineddata="<filepath>\khm.traineddata"
--model_output="<filepath>\zth.traineddata"
10. 指令介紹 lstmtraining -help幫助
--modeloutput 模型訓練輸出的路徑(我在new_05檔案夾中建立了一個名為output的檔案夾用來存輸出的檔案)
--continue_from 訓練從哪裡繼續,這裡指定提取的khm.lstm檔案,
--train_listfile 指定上一步建立的檔案的路徑
--traineddata 下載下傳的.traineddata檔案的路徑
--debug_interval 當值為-1時,訓練結束,會顯示訓練的一些結果參數
--max_iterations 指明訓練周遊次數
--stop_training 預設要有的
--continue_from 上一步生成的output_checkpoint檔案路徑
--traineddata 第4步中下載下傳的.traineddata檔案的路徑
--model_output zth.traineddata 輸出的路徑
11. 将生成的zth.traineddata檔案複制到Tesseract-OCR\tessdata路徑下
12. tesseract –-list-langs 檢視支援語言
13. 運作 tesseract 1.jpg output -l zth –psm 7檢視識别結果