Windows環境安裝Tesseract-OCR 4.0

2023-04-26 04:25:36

Tesseract最開始是由惠普實驗室在1985年-1994年之間開發的一個OCR（Optical Character Recognition , 光學字元識别）引擎，自2006年之後由Google開發維護。

Github倉庫位址：https://github.com/tesseract-ocr/tesseract

Windows版本下載下傳位址：https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-3.05.02-20180621.exe

1.點選下載下傳後的 tesseract-ocr-setup-3.05.02-20180621.exe 進行安裝
安裝時需要注意電腦上是否有visual c++ 2015 或者 visualc++ 2017的庫

2.設定環境變量
1) 設定PATH變量:在PATH變量裡添加安裝tesseract-OCR 的根目錄位址,如 C:\Program Files (x86)\Tesseract-OCR

Windows環境安裝Tesseract-OCR 4.0
2) 設定TESSDATA_PREFIX變量：添加安裝tesseract-orc目錄下的tessdata目錄,如 C:\Program Files (x86)\Tesseract-OCR\tessdata

Windows環境安裝Tesseract-OCR 4.0

3.打開指令行輸入 tesseract -v ,檢視是否安裝成功

Windows環境安裝Tesseract-OCR 4.0

4.導入中文語言包
下載下傳完 chi_sim.traineddata（中文簡體語言包）和 chi_tra.traineddata （中文繁體語言包）後，發到安裝目錄下的tessdata目錄

Windows環境安裝Tesseract-OCR 4.0

5.測試識别效果
1）準備一張清晰的圖檔,如 test2.jpg

Windows環境安裝Tesseract-OCR 4.0
2) 在圖檔檔案夾下打開指令行工具，輸入指令 tesseract test2.jpg result -l eng （ tesseract 【圖檔名稱】【結果儲存文本名稱】 -l 【語言包】）

Windows環境安裝Tesseract-OCR 4.0
3）輸入以上命名後會在該檔案夾生成一個 result.txt的文本檔案,打開檢視結果

Windows環境安裝Tesseract-OCR 4.0
後面?亂碼是測試圖檔底下灰色的水印,英文庫的識别比較穩定，中文庫遇到個别字型會出現亂碼,可能還需要實際的場景做一些訓練,最後需要注意的是tesseract-OCR在識别一張固定格式(如身份證,票據）前，需要先對圖檔做一些預處理，比如去除水印，去除一些不需要的圖案等，才會有理想的識别效果。

Windows環境安裝Tesseract-OCR 4.0

1.點選下載下傳後的 tesseract-ocr-setup-3.05.02-20180621.exe 進行安裝

2.設定環境變量

3.打開指令行輸入 tesseract -v ,檢視是否安裝成功

4.導入中文語言包

5.測試識别效果

繼續閱讀

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普