天天看點

Tesseract-OCR識别

官方項目: https://github.com/tesseract-ocr/tesseract 。 網上詳解: https://www.cnblogs.com/holden1/p/9878286.html 。 描述: Tesseract(識别引擎),一款由HP實驗室開發由Google維護的開源 OCR(Optical Character Recognition , 光學字元識别)引擎,與Microsoft Office Document Imaging(MODI)相比,我們可以不斷的訓練的庫,使圖像轉換文本的能力不斷增強;如果團隊深度需要,還可以以它為模闆,開發出符合自身需求的OCR引擎。

安裝說明:Tesseract-ocr安裝很容易,在網上找到下載下傳位址直接下載下傳安裝就可以,安裝過程中需要 注意的是語言子產品(根據自己的需要選擇需要安裝的語言包,建議安裝中文簡體和中文繁體),注意記住自己安裝的路徑。 安裝完成之後需要配置環境變量,配置完環境變量之後可以在cmd指令行中輸入tesseract驗證Tesseract-ocr能否使用。 除了需要配置Tesseract-ocr檔案的環境變量外,還需要配置Tesseract-ocr檔案下的tessdata(語言包)的環境變量。 tessdata官方語言包: https://github.com/tesseract-ocr/tessdata 。

Tesseract-OCR識别

操作說明:打開cmd,将指令行切換至目标圖像檔案目錄,比如我們轉換檔案為test.png(圖檔檔案允許多種格式),位于C:\Users\Lian\Desktop\test;然後在指令行中輸入 tesseract test.png output_1 –l eng 【文法】: tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile…] imagename為目标圖檔檔案名,需加格式字尾;outputbase是轉換結果檔案名;lang是語言名稱(在Tesseract-OCR中tessdata檔案夾可看到以eng開頭的語言檔案eng.traineddata), 如不标-l eng則預設為eng(英語)。

關于java項目調用操作: 1)、原始方式(cmd指令視窗):根據傳入的參數,使用 Process 和 ProcessBuilder 調用tesseract.exe執行檔案識别圖形内容并輸出。 缺點:需要用到tesseract軟體,即伺服器環境裡必須要安裝tesseract。

Tesseract-OCR識别

2)、下載下傳相關的第三方jar包 下載下傳Tess4J jar:該庫提供光學字元識别(OCR)支援,tess4j是針對tesseract進行封裝的javaAPI。安裝好依賴庫之後,就不需要另外再安裝tessereact-ocr了,因為tess4j的jar包裡面自帶了tessereact-ocr。 網址: http://tess4j.sourceforge.net/ 。

Tesseract-OCR識别

隻要指定語言包即可識别圖檔

Tesseract-OCR識别

相關擴充:處理圖檔的工具庫openCV: https://opencv.org/ 。

ocr

繼續閱讀