文章目錄
-
- tesserocr介紹
-
- 下載下傳安裝tesseract
- tesseract 配置環境變量
- 安裝tesserocr
-
-
- 第一種方法
- 第二種方法
-
tesserocr介紹
- OCR,光學識别符。
- tesserocr是Python的一個OCR庫,但其實是對tesseract做的一層Python APIde 封裝,是以他的核心是tesseract。是以,在安裝tesserocr之前,我們需要先安裝tesseract。
下載下傳安裝tesseract
- 下載下傳位址:https://digi.bib.uni-mannheim.de/tesseract/
- 打開之後可以看到有很多檔案,帶dev的為開發版本,不帶dev的為穩定版本,我們選擇下載下傳不帶dev的版本,比如這個: tesseract-ocr-setup-3.05.01-20170602.exe。
Python第三方子產品tesserocr安裝 - 下載下傳完成之後運作安裝,一直點選next,直到安裝完成。
tesseract 配置環境變量
- 找到tesseract-ocr的安裝目錄;
Python第三方子產品tesserocr安裝 - 添加到環境變量的path中;
Python第三方子產品tesserocr安裝 - 将tesseract-ocr的安裝目錄下面的tessdata檔案夾複制到python的安裝目錄下(與lib檔案夾同級)。
Python第三方子產品tesserocr安裝 Python第三方子產品tesserocr安裝
-
注意:如果不執行第三步在使用tesserocr程式會報錯。
錯誤格式:
"""
Traceback (most recent call last):
File "D:/python/zhang/反爬蟲/2.圖檔驗證碼識别.py", line 8, in <module>
result = tesserocr.image_to_text(image)
File "tesserocr.pyx", line 2443, in tesserocr._tesserocr.image_to_text
RuntimeError: Failed to init API, possibly an invalid tessdata path: C:\Users\Administrator\Anaconda3\/tessdata/
"""
"""中文解釋:
追溯(最近一次通話):
<子產品>中第8行的檔案“ D:/ python / zhang /反爬蟲/ 2。圖檔驗證碼識别.py”
結果= tesserocr.image_to_text(image)
tesserocr._tesserocr.image_to_text中的檔案“ tesserocr.pyx”,第2443行
RuntimeError:無法初始化API,可能是無效的tessdata路徑:C:\ Users \ Administrator \ Anaconda3 \ / tessdata /
"""
安裝tesserocr
第一種方法
pip install tesserocr
- 注意:這種安裝方法容易出錯,因為需要安裝安裝Visual Studio++ ,否則安裝不成功。
第二種方法
- 下載下傳對應的.whl包, 在使用pip指令安裝。
- 下載下傳位址:https://github.com/simonflueckiger/tesserocr-windows_build/releases
Python第三方子產品tesserocr安裝 - 下載下傳完之後使用pip進行安裝。
Python第三方子產品tesserocr安裝