天天看點

ocr tesseract 3.4訓練記錄

安裝tesseract

brew uninstall tesseract
brew install --with-training-tools tesseract
           

建構字元集

  • 合并為tif

    tools-Merge Tiff

儲存為num.myfont.exp0.tif

  • 生成box
tesseract num.myfont.exp0.tif num.myfont.exp0 -l eng -psm 7 batch.nochop makebox
           
  • 使用jTessBoxEditor修改box檔案(這個檔案也可以手動改)
  • box檔案如下,可以看出是第幾頁是什麼字元,坐标大小是什麼
  • A 340 43 359 68 0

    B 363 43 379 68 0

    B 384 43 400 68 0

    D 405 43 420 68 0

    E 426 43 440 68 0

    F 445 43 460 68 0

    G 463 43 479 68 0

    H 483 43 500 68 0

    I 506 43 510 68 0

    J 514 43 529 68 0

    K 534 43 550 68 0

    L 554 43 568 68 0

    M 572 43 593 68 0

    N 598 43 616 68 0

    O 621 43 637 68 0

    P 643 43 659 68 0

    Q 662 38 679 68 0

    R 684 43 702 68 0

    S 706 43 722 68 0

    T 724 43 742 68 0

    U 745 43 761 68 0

    V 765 43 783 68 0

    W 785 43 811 68 0

    X 814 43 831 68 0

    Y 833 43 851 68 0

    Z 853 43 870 68 0

    1 872 43 883 68 0

    2 887 43 901 68 0

    3 905 43 919 68 0

    4 922 43 940 68 0

    5 942 43 957 68 0

    6 961 43 975 68 0

    7 978 43 993 68 0

    8 996 43 1011 68 0

    9 1015 43 1030 68 0

    0 1034 43 1049 68 0

    a 461 44 476 62 1

    b 481 44 496 69 1

    c 500 45 515 62 1

    d 518 44 533 69 1

    e 538 44 553 62 1

    f 556 45 568 69 1

    g 571 38 586 62 1

    h 591 45 605 69 1

    i 610 45 615 69 1

    j 617 38 625 69 1

    k 630 45 645 69 1

    l 649 45 654 69 1

    m 659 45 684 62 1

    n 689 45 703 62 1

    o 708 45 723 62 1

    p 728 38 743 62 1

    q 747 38 762 62 1

    r 768 45 778 62 1

    s 780 45 795 62 1

    t 797 45 808 67 1

    u 812 44 827 62 1

    v 830 45 846 62 1

    w 849 45 870 62 1

    x 873 45 888 62 1

    y 890 38 906 62 1

    z 909 45 923 62 1

    @ 414 37 430 62 2

    # 443 38 466 62 2

    $ 479 34 494 65 2

    % 507 35 540 62 2

    ^ 551 49 566 62 2

    & 579 38 599 62 2

    * 608 49 623 62 2

    _ 633 36 648 38 2

    - 659 46 668 50 2

    = 680 42 693 52 2

    + 705 39 721 55 2

    \ 733 33 746 62 2

    / 758 33 772 62 2

    < 784 37 801 56 2

    > 815 37 832 56 2

    " 844 52 859 62 2

    | 871 30 874 67 2

    ? 888 37 902 62 2

    ! 916 37 921 62 2

    ` 935 57 942 63 2

    ~ 957 44 973 51 2

    [ 986 33 994 67 2

    ] 1002 33 1011 67 2

    ( 1025 30 1033 66 2

    ) 1041 30 1049 66 2

  • 生産font_properties
echo myfont 0 0 0 0 0 >font_properties
           
  • 生成訓練檔案
tesseract num.myfont.exp0.tif num.myfont.exp0 -l eng -psm 7 nobatch box.train
           
  • 生成字元集檔案
unicharset_extractor num.myfont.exp0.box
           
  • 生成shape
shapeclustering -F font_properties -U unicharset -O myfont.unicharset num.myfont.exp0.tr
           
  • 聚合字元特征檔案
mftraining -F font_properties -U unicharset -O myfont.unicharset num.myfont.exp0.tr
           
  • 正常化
cntraining num.myfont.exp0.tr
           
  • 合并訓練檔案
cp normproto myfont.normproto
cp inttemp myfont.inttemp
cp pffmtable myfont.pffmtable
cp unicharset myfont.unicharset
cp shapetable myfont.shapetable
combine_tessdata myfont.
           

新增語言

brew list tesseract
           

檢視tessdata位置

cp myfont.traineddata /usr/local/Cellar/tesseract/3.04.01_2/share/tessdata/
tesseract --list-langs
           

測試

tesseract 9606.tif output -l myfont -psm 7
           

doc

  • jTessBoxEditor
  • unicharset_extractor: command not found
  • 利用jTessBoxEditor工具進行Tesseract3.02.02樣本訓練,提高驗證碼識别率
  • 使用Tesseract-OCR訓練文字識别記錄
  • 圖像的灰階化原理和實作

總結:

tesseract 4 以下的版本就是修改過後識别率也不是很高,但cnn 識别很好但是慢的很。有空弄一下4.0的lstm 看看效果。

ocr

繼續閱讀