ocr tesseract 3.4訓練記錄

2023-07-31 09:54:24

安裝tesseract

brew uninstall tesseract
brew install --with-training-tools tesseract

建構字元集

合并為tif

tools-Merge Tiff

儲存為num.myfont.exp0.tif

生成box

tesseract num.myfont.exp0.tif num.myfont.exp0 -l eng -psm 7 batch.nochop makebox

使用jTessBoxEditor修改box檔案（這個檔案也可以手動改）
box檔案如下，可以看出是第幾頁是什麼字元，坐标大小是什麼
A 340 43 359 68 0

B 363 43 379 68 0

B 384 43 400 68 0

D 405 43 420 68 0

E 426 43 440 68 0

F 445 43 460 68 0

G 463 43 479 68 0

H 483 43 500 68 0

I 506 43 510 68 0

J 514 43 529 68 0

K 534 43 550 68 0

L 554 43 568 68 0

M 572 43 593 68 0

N 598 43 616 68 0

O 621 43 637 68 0

P 643 43 659 68 0

Q 662 38 679 68 0

R 684 43 702 68 0

S 706 43 722 68 0

T 724 43 742 68 0

U 745 43 761 68 0

V 765 43 783 68 0

W 785 43 811 68 0

X 814 43 831 68 0

Y 833 43 851 68 0

Z 853 43 870 68 0

1 872 43 883 68 0

2 887 43 901 68 0

3 905 43 919 68 0

4 922 43 940 68 0

5 942 43 957 68 0

6 961 43 975 68 0

7 978 43 993 68 0

8 996 43 1011 68 0

9 1015 43 1030 68 0

0 1034 43 1049 68 0

a 461 44 476 62 1

b 481 44 496 69 1

c 500 45 515 62 1

d 518 44 533 69 1

e 538 44 553 62 1

f 556 45 568 69 1

g 571 38 586 62 1

h 591 45 605 69 1

i 610 45 615 69 1

j 617 38 625 69 1

k 630 45 645 69 1

l 649 45 654 69 1

m 659 45 684 62 1

n 689 45 703 62 1

o 708 45 723 62 1

p 728 38 743 62 1

q 747 38 762 62 1

r 768 45 778 62 1

s 780 45 795 62 1

t 797 45 808 67 1

u 812 44 827 62 1

v 830 45 846 62 1

w 849 45 870 62 1

x 873 45 888 62 1

y 890 38 906 62 1

z 909 45 923 62 1

@ 414 37 430 62 2

# 443 38 466 62 2

$ 479 34 494 65 2

% 507 35 540 62 2

^ 551 49 566 62 2

& 579 38 599 62 2

* 608 49 623 62 2

_ 633 36 648 38 2

- 659 46 668 50 2

= 680 42 693 52 2

+ 705 39 721 55 2

\ 733 33 746 62 2

/ 758 33 772 62 2

< 784 37 801 56 2

> 815 37 832 56 2

" 844 52 859 62 2

| 871 30 874 67 2

? 888 37 902 62 2

! 916 37 921 62 2

` 935 57 942 63 2

~ 957 44 973 51 2

[ 986 33 994 67 2

] 1002 33 1011 67 2

( 1025 30 1033 66 2

) 1041 30 1049 66 2
生産font_properties

echo myfont 0 0 0 0 0 >font_properties

生成訓練檔案

tesseract num.myfont.exp0.tif num.myfont.exp0 -l eng -psm 7 nobatch box.train

生成字元集檔案

unicharset_extractor num.myfont.exp0.box

生成shape

shapeclustering -F font_properties -U unicharset -O myfont.unicharset num.myfont.exp0.tr

聚合字元特征檔案

mftraining -F font_properties -U unicharset -O myfont.unicharset num.myfont.exp0.tr

正常化

cntraining num.myfont.exp0.tr

合并訓練檔案

cp normproto myfont.normproto
cp inttemp myfont.inttemp
cp pffmtable myfont.pffmtable
cp unicharset myfont.unicharset
cp shapetable myfont.shapetable
combine_tessdata myfont.

新增語言

brew list tesseract

檢視tessdata位置

cp myfont.traineddata /usr/local/Cellar/tesseract/3.04.01_2/share/tessdata/
tesseract --list-langs

測試

tesseract 9606.tif output -l myfont -psm 7

doc

jTessBoxEditor
unicharset_extractor: command not found
利用jTessBoxEditor工具進行Tesseract3.02.02樣本訓練，提高驗證碼識别率
使用Tesseract-OCR訓練文字識别記錄
圖像的灰階化原理和實作

總結：

tesseract 4 以下的版本就是修改過後識别率也不是很高，但cnn 識别很好但是慢的很。有空弄一下4.0的lstm 看看效果。

ocr tesseract 3.4訓練記錄

安裝tesseract

建構字元集

新增語言

測試

doc

繼續閱讀

Python驗證碼識别tesseract-ocr安裝，報錯解決

tess4j的簡單使用doOCR異常彙總：

java實作阿裡雲圖檔文字識别

圖檔文字識别工具調研2.tesseract安裝與使用3.python

LEADTOOLS WinRT OCR識别代碼示例

場景文本檢測（一）-可微分二值化在基于語義分割方法的場景文本檢測中的應用動機和Contributions現存方法Methodology總結Ref

文本檢測算法----DB、DBNet1. 摘要2. 算法3. 實驗4. 結論

【百度OCR 封裝篇】OCR封裝隻IOCR自定義模版或分類器封裝兩種調用方式

使用MODI（Microsoft Office Document Imaging）識别中文，但無法區分段落

主流深度學習OCR文字識别方法對比：Tesseract（LSTM）、CTPN+CRNN、Densenetopencv mser算法框出圖檔文字區域

【基于WPF+OneNote+Oracle的中文圖檔識别系統階段總結】之篇三：批量處理後的txt檔案入庫處理篇三：批量處理後的txt檔案入庫處理

百度雲 OCR 識别圖檔驗證碼

爬蟲驗證碼識别_工具篇：安裝pytesseract&Tesseract-OCR

應用移動端銀行卡識别技術，實作APP端快捷綁定銀行卡号

手寫字元識别

Jaspersfot Studio Create Check OCR Font