pip install pytesseract 但是缺少各種語言文本解析的庫
下載下傳tesseract-ocr-w64-setup-v4.0.0-beta.1.20180414.exe 并點選安裝
git clone
https://github.com/tesseract-ocr/tesseract可以觀察到将裡面的所有.tessdata 複制到檔案夾Tesseract-OCR/tessdata裡
修改site-packages對應檔案夾中pytesseract.py tesseract_cmd = 'D:\\program_files\\Tesseract-OCR\\tesseract.exe'
将tesseract.exe添加到環境變量PATH中
建立環境變量TESSDATA_PREFIX,添加位址D:\\program_files\\Tesseract-OCR 或者 D:\\program_files\\Tesseract-OCR\\tessdata
重新開機電腦(非常好用的方法,遇到按照說明操作,最後還不行的,都可以試一下重新開機電腦)
print(text)
print('cost time:',time.time()-start_time)
cost time: 6.498211622238159
識别一個圖檔,速度有點慢