天天看點

Python+pytesseract+Tesseract-OCR圖檔文字識别(隻适合新手)

主要看到很多人寫識别碼的,自己照做各種失敗對于我這個python的小白人士來說太困難,找了各種文章看了好久還是不成功,反複調試最終成功

經過總結特寫此文章獻給那些還在坑裡的同學

期望本文可以帶給初學者一些學習的興趣和信心

1.首先準備環境:

python版本:2.7/3.6

作業系統:windows系統

2.準備工具:

tesseract-ocr(百度網盤位址:https://pan.baidu.com/s/1OL0g1MBzeijD23JN0UGC0Q)

Pycharm(下載下傳位址:http://www.jetbrains.com/pycharm/download/#section=windows)

3.安裝相關python包(作者使用的是py2.7)

pip install Pillow

pip install pytesseract

4.使tesseract-ocr與python關聯,進而使python能夠調用Tesseract-OCR程式識别驗證碼/文字:

C:\python27\Lib\site-packages\pytesseract\pytesseract.py

修改pytesseract.py檔案中第24行将tesseract_cmd指向Tesseract-OCR的tesseract.exe

原内容:

Python+pytesseract+Tesseract-OCR圖檔文字識别(隻适合新手)

修改後内容:

Python+pytesseract+Tesseract-OCR圖檔文字識别(隻适合新手)

注:新手一定要注意/與\的區分

5.打開Pycharm寫程式:

Python+pytesseract+Tesseract-OCR圖檔文字識别(隻适合新手)

在此需要告訴新手的其中aaa.jpg是存放在py腳本的目錄下,lang=‘chi_sim’代表中文識别,如果不加無法識别中文

6.運作腳本可以看到結果

特别提醒:如果步驟完全正确,但是運作報錯,請解除安裝pytesseract重新安裝問題就會解決(解除安裝指令pip uninstall pytesseract)

福利:python IDE的清屏一直是很讓人頭疼的一件事,特此文末送上python插件。

百度網盤下載下傳位址:https://pan.baidu.com/s/17ooYaJACLrxKRzCz1MJrXA

技術支援:zsh583943218(微信,注明技術求助)