作者:我不是校長
本系列簡單介紹Tesseract-OCR 3.x版本如何上手使用,隻适用于入門級别。
目錄
1.源碼擷取
2.編譯
3.測試
1.源碼擷取
1.1擷取tesseract-ocr源碼
源碼下載下傳位址:https://github.com/tesseract-ocr/tesseract/tree/3.02.02
在github中可以根據需要選擇不同的版本
1.2因為Tesseract依賴Leptonica庫,是以還需要編譯Leptonica
源碼:leptonica-1.68.tar.gz
VS工程:vs2008-1.68.zip
相關頭檔案和庫:leptonica-1.68-win32-lib-include-dirs.zip
2.編譯
2.1編譯Leptonica
step1 将壓縮包解壓并移動位置如下圖
step2 在vs2008中找到工程并使用vs2010打開工程
step3 編譯
分别對Release和Debug進行編譯,一次成功。
2.2編譯tesseract-ocr
step1 在vs2008檔案夾中找到工程
step2 用vs2010轉換項目後報錯誤
錯誤 1 error C1083: 無法打開包括檔案:“allheaders.h”: No such file or directory
這是因為allheaders.h在Leptonica中,而兩個工程目錄沒有協調導緻。
解決方法:
調整目錄如下圖
step3 調整目錄後重新編譯,報錯
錯誤 2 error C2146: 文法錯誤: 缺少“}”(在辨別符“銆”的前面)
這是錯誤由于檔案編碼格式引起的。
解決方法:
選擇vs2010的菜單“檔案 -- 進階儲存選項”,在視窗中選擇“簡體中文(gb2312)-代碼頁936”,儲存後重新編譯。
終于成功
3.測試
參考資料:
1.《如何在windows上編譯Tesseract OCR》
2.《Tesseract-OCR 進行文字識别 VS2010》
3.《Tesseract-OCR學習系列(二)建構》
4.《Tesseract-OCR學習系列(三)簡例》
5.《幹貨:Tesseract的圖文識别!》
6.《VS2010編譯出現“error C2146: 文法錯誤: 缺少“;”(在辨別符“銆”的前面)”》
關注【OpenCV學習交流】
長按或者掃描下面二維碼即可關注