Python+Tesseract-OCR識别圖檔文字并儲存到word文檔使用Python+Tesseract-OCR識别圖檔文字并儲存到word文檔

2023-07-31 09:53:49

使用Python+Tesseract-OCR識别圖檔文字并儲存到word文檔

本文通過使用 Tesseract-OCR 進行圖檔文本識别。并通過python進行後續處理把識别的文本儲存到word文檔。本文僅作為入門，由于對于中文圖檔的識别率并不高，需要後續優化。

安裝Tesseract-OCR

Tesseract是一個開源文本識别引擎，通過Apache 2.0授權可用。可以直接使用，或者通過接口程式設計從圖檔提取文本，該引擎廣泛支援各種語言，本文以Python為例說明：

去Windows安裝包下載下傳頁面，選擇需要的 位數 版本.
運作安裝包，一路下一步直至安裝完成；

配置Tesseract-OCR

添加安裝目錄到系統環境變量path，比如：

//添加安裝目錄到系統path
C:\Program Files (x86)\Tesseract-OCR;

通過CMD驗證Tesseract-OCR工作

Python+Tesseract-OCR識别圖檔文字并儲存到word文檔使用Python+Tesseract-OCR識别圖檔文字并儲存到word文檔

安裝pytesseract

//cmd運作下列指令
pip install pytesseract

代碼示例

from PIL import Image
import pytesseract
import os
import io

tessdata_dir = '--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"'
txt = pytesseract.image_to_string(Image.open(
    './img/20180804.jpg'), lang='chi_sim', config=tessdata_dir)
print(txt)

if not os.path.exists('./result'):
    os.mkdir('./result')

with io.open('./result/test.doc', 'w') as fp:
    fp.write(txt)

示例驗證注意事項

中文圖檔需要使用參數 lang=‘chi_sim’

圖檔路徑可自己設定，比如：D:/test.jpg

如果安裝Tesseract-OCR時未安裝該資料包，可重新運作安裝程式，并選擇額外的語言包進行安裝

為避免系統變量設定問題程式不能找到訓練資料，建議設定

tessdata_dir

參數

print(txt) 為調試使用，可删除或者注釋掉

示例圖檔

Python+Tesseract-OCR識别圖檔文字并儲存到word文檔使用Python+Tesseract-OCR識别圖檔文字并儲存到word文檔

結果展示

Python+Tesseract-OCR識别圖檔文字并儲存到word文檔使用Python+Tesseract-OCR識别圖檔文字并儲存到word文檔

識别率不夠高，需要繼續優化，希望有高手指點（抱拳）

學習過程小結

學習流程圖：

Actions speak louder than words.

210 = 1024.

Python+Tesseract-OCR識别圖檔文字并儲存到word文檔使用Python+Tesseract-OCR識别圖檔文字并儲存到word文檔

目錄

使用Python+Tesseract-OCR識别圖檔文字并儲存到word文檔

安裝Tesseract-OCR

配置Tesseract-OCR

通過CMD驗證Tesseract-OCR工作

安裝pytesseract

代碼示例

示例驗證注意事項

示例圖檔

結果展示

學習過程小結

繼續閱讀

來自python的【條件控制/語句循環/break/continue/else/pass】一、條件控制二、語句循環

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入