天天看點

Windows環境安裝Tesseract-OCR 4.0

Tesseract最開始是由惠普實驗室在1985年-1994年之間開發的一個OCR(Optical Character Recognition , 光學字元識别)引擎,自2006年之後由Google開發維護。

Github倉庫位址:https://github.com/tesseract-ocr/tesseract

Windows版本下載下傳位址:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-3.05.02-20180621.exe

1.點選下載下傳後的 tesseract-ocr-setup-3.05.02-20180621.exe 進行安裝

安裝時需要注意電腦上是否有visual c++ 2015 或者 visualc++ 2017的庫

 2.設定環境變量

1) 設定PATH變量:在PATH變量裡添加安裝tesseract-OCR 的根目錄位址,如 C:\Program Files (x86)\Tesseract-OCR
Windows環境安裝Tesseract-OCR 4.0
2) 設定TESSDATA_PREFIX變量:添加安裝tesseract-orc目錄下的tessdata目錄,如 C:\Program Files (x86)\Tesseract-OCR\tessdata
Windows環境安裝Tesseract-OCR 4.0

3.打開指令行輸入 tesseract -v ,檢視是否安裝成功

Windows環境安裝Tesseract-OCR 4.0

4.導入中文語言包

下載下傳完 chi_sim.traineddata(中文簡體語言包) 和 chi_tra.traineddata (中文繁體語言包)後,發到安裝目錄下的tessdata目錄
Windows環境安裝Tesseract-OCR 4.0

5.測試識别效果

1)準備一張清晰的圖檔,如 test2.jpg
Windows環境安裝Tesseract-OCR 4.0
2) 在圖檔檔案夾下打開指令行工具,輸入指令 tesseract test2.jpg result -l eng ( tesseract 【圖檔名稱】 【結果儲存文本名稱】 -l 【語言包】)
Windows環境安裝Tesseract-OCR 4.0
3)輸入以上命名後會在該檔案夾生成一個 result.txt的文本檔案,打開檢視結果
Windows環境安裝Tesseract-OCR 4.0
後面?亂碼是測試圖檔底下灰色的水印,英文庫的識别比較穩定,中文庫遇到個别字型會出現亂碼,可能還需要實際的場景做一些訓練,最後需要注意的是tesseract-OCR在識别一張固定格式(如身份證,票據)前,需要先對圖檔做一些預處理,比如去除水印,去除一些不需要的圖案等,才會有理想的識别效果。 

繼續閱讀