天天看點

pytesseract OCR 識别

pip install pytesseract   但是缺少各種語言文本解析的庫

下載下傳tesseract-ocr-w64-setup-v4.0.0-beta.1.20180414.exe 并點選安裝

git clone 

https://github.com/tesseract-ocr/tesseract

  可以觀察到将裡面的所有.tessdata  複制到檔案夾Tesseract-OCR/tessdata裡

修改site-packages對應檔案夾中pytesseract.py tesseract_cmd = 'D:\\program_files\\Tesseract-OCR\\tesseract.exe'

将tesseract.exe添加到環境變量PATH中

建立環境變量TESSDATA_PREFIX,添加位址D:\\program_files\\Tesseract-OCR 或者 D:\\program_files\\Tesseract-OCR\\tessdata

重新開機電腦(非常好用的方法,遇到按照說明操作,最後還不行的,都可以試一下重新開機電腦)

print(text)

print('cost time:',time.time()-start_time)

cost time: 6.498211622238159

識别一個圖檔,速度有點慢