Tesseract-OCR識别

2023-07-31 11:59:51

官方項目： https://github.com/tesseract-ocr/tesseract 。網上詳解： https://www.cnblogs.com/holden1/p/9878286.html 。描述： Tesseract（識别引擎），一款由HP實驗室開發由Google維護的開源 OCR（Optical Character Recognition , 光學字元識别）引擎，與Microsoft Office Document Imaging（MODI）相比，我們可以不斷的訓練的庫，使圖像轉換文本的能力不斷增強；如果團隊深度需要，還可以以它為模闆，開發出符合自身需求的OCR引擎。

安裝說明：Tesseract-ocr安裝很容易，在網上找到下載下傳位址直接下載下傳安裝就可以，安裝過程中需要注意的是語言子產品（根據自己的需要選擇需要安裝的語言包，建議安裝中文簡體和中文繁體），注意記住自己安裝的路徑。安裝完成之後需要配置環境變量，配置完環境變量之後可以在cmd指令行中輸入tesseract驗證Tesseract-ocr能否使用。除了需要配置Tesseract-ocr檔案的環境變量外，還需要配置Tesseract-ocr檔案下的tessdata（語言包）的環境變量。 tessdata官方語言包： https://github.com/tesseract-ocr/tessdata 。

Tesseract-OCR識别

操作說明：打開cmd，将指令行切換至目标圖像檔案目錄，比如我們轉換檔案為test.png（圖檔檔案允許多種格式），位于C:\Users\Lian\Desktop\test；然後在指令行中輸入 tesseract test.png output_1 –l eng 【文法】: tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile…] imagename為目标圖檔檔案名，需加格式字尾；outputbase是轉換結果檔案名；lang是語言名稱（在Tesseract-OCR中tessdata檔案夾可看到以eng開頭的語言檔案eng.traineddata），如不标-l eng則預設為eng（英語）。

關于java項目調用操作： 1）、原始方式（cmd指令視窗）：根據傳入的參數，使用 Process 和 ProcessBuilder 調用tesseract.exe執行檔案識别圖形内容并輸出。缺點：需要用到tesseract軟體，即伺服器環境裡必須要安裝tesseract。

Tesseract-OCR識别

2）、下載下傳相關的第三方jar包下載下傳Tess4J jar：該庫提供光學字元識别（OCR）支援，tess4j是針對tesseract進行封裝的javaAPI。安裝好依賴庫之後，就不需要另外再安裝tessereact-ocr了，因為tess4j的jar包裡面自帶了tessereact-ocr。網址： http://tess4j.sourceforge.net/ 。

Tesseract-OCR識别

隻要指定語言包即可識别圖檔

Tesseract-OCR識别

相關擴充：處理圖檔的工具庫openCV： https://opencv.org/ 。

Tesseract-OCR識别

繼續閱讀

Python驗證碼識别tesseract-ocr安裝，報錯解決

tess4j的簡單使用doOCR異常彙總：

java實作阿裡雲圖檔文字識别

圖檔文字識别工具調研2.tesseract安裝與使用3.python

LEADTOOLS WinRT OCR識别代碼示例

場景文本檢測（一）-可微分二值化在基于語義分割方法的場景文本檢測中的應用動機和Contributions現存方法Methodology總結Ref

文本檢測算法----DB、DBNet1. 摘要2. 算法3. 實驗4. 結論

【百度OCR 封裝篇】OCR封裝隻IOCR自定義模版或分類器封裝兩種調用方式

使用MODI（Microsoft Office Document Imaging）識别中文，但無法區分段落

主流深度學習OCR文字識别方法對比：Tesseract（LSTM）、CTPN+CRNN、Densenetopencv mser算法框出圖檔文字區域

【基于WPF+OneNote+Oracle的中文圖檔識别系統階段總結】之篇三：批量處理後的txt檔案入庫處理篇三：批量處理後的txt檔案入庫處理

百度雲 OCR 識别圖檔驗證碼

爬蟲驗證碼識别_工具篇：安裝pytesseract&Tesseract-OCR

應用移動端銀行卡識别技術，實作APP端快捷綁定銀行卡号

手寫字元識别

Jaspersfot Studio Create Check OCR Font