天天看點

1 Tesseract-ocr 系列 : Ubuntu16.04安裝tesseract-ocr 3.04.02

首先,我的本地環境:

Ubuntu16.04(基于VMWare)上安裝tesseract-ocr 4.00alpha(安裝時間2017年7月)

一、在Ubuntu下自動安裝,一鍵完成

sudo apt-get install tesseract-ocr
           

二、源代碼安裝(基于GitHub)

參考網址:https://github.com/tesseract-ocr/tesseract/wiki/Compiling#linux

1. 指令行安裝

sudo apt-get install g++ # or clang++ (presumably)
	sudo apt-get install autoconf automake libtool
	sudo apt-get install autoconf-archive
	sudo apt-get install pkg-config
	sudo apt-get install libpng12-dev
	sudo apt-get install libjpeg8-dev
	sudo apt-get install libtiff5-dev
	sudo apt-get install zlib1g-dev
           
2. 如果你需要訓練,則還需安裝相應的庫(若不進行訓練則此步可以跳過):
sudo apt-get install libicu-dev
	sudo apt-get install libpango1.0-dev
	sudo apt-get install libcairo2-dev
           
3. 安裝leptonica
wget http://www.leptonica.org/source/leptonica-1.74.tar.gz  
	tar -zxvf leptonica-1.74.tar.gz 
	cd leptonica-1.74
	./configure  
	sudo make  
	sudo make install
           

//注意,因為Ubuntu本身bug, 最後兩步必須用 sudo 指令

因為本地安裝的tesseract-ocr為4.0版本,是以要求的Leptonica必須為1.74或以上版本,這裡選用的為 Leptonica1.74

(參考:Leptonica-1.74 下載下傳位址為:http://www.leptonica.com/download.html)

Tesseract、leptonica 和 Ubuntu對應版本号:

Tesseract Leptonica Ubuntu

4.00 1.74.2 Must build from source

3.05 1.74.0 Must build from source

3.04 1.71 Ubuntu 16.04

3.03 1.70 Ubuntu 14.04

3.02 1.69 Ubuntu 12.04

3.01 1.67

4. 從 Git 安裝 Tesseract-ocr

a) 安裝必須的包:

sudo apt-get install autoconf-archive automake g++ libtool libleptonica-dev pkg-config
           

b) 若要進行訓練,則還需要安裝:

 sudo apt-get install libpango1.0-dev

(以上兩步可能和第1.步有重複,請自行篩查)

c)下載下傳tesseract-ocr源代碼包:

git clone https://github.com/tesseract-ocr/tesseract.git tesseract-ocr
           

// 注意,預設下載下傳最新版本,目前為4.0. 建議自行下載下傳需要的版本

新裝的Ubuntu系統可能會提示需要安裝 git, 按照提示安裝就好

d)下載下傳完成後,進入tesseract-ocr 目錄并編譯、安裝

cd tesseract-ocr
    ./autogen.sh
    ./configure
    make
    sudo make install
    sudo make install-langs     //執行此步時報錯????
    sudo ldconfig
           
若要訓練,請編譯、安裝訓練工具
make training
   sudo make training-install
           

5. 安裝語言包

一般這裡隻安裝自己需要的語言包即可。(http://www.qisanfen.com/?p=185)

參考:

英語: eng.traineddata

簡體中文:chi_sim.traineddata

git clone https://github.com/tesseract-ocr/tessdata.git tesseract-ocr.tessdata
           

以上指令下載下傳的 tesseract-ocr.tessdata 包含所有語言包,總大小為1.4G左右

下載下傳完成後,需要将語言包安裝到 TESSDATA_PREFIX 目錄。因為是新手,且在安裝時沒有自己設定安裝路徑,也就是預設安裝,是以語言包的預設目錄為: /usr/local/share/tessdata/ .

因為是直接下載下傳的 tesseract-ocr.tessdata 整個包,是以将其中的檔案全部拷貝到/usr/local/share/tessdata/ 下即可

sudo cp /home/username/tesseract-ocr/tesseract-ocr.tessdata/* /usr/local/share/tessdata
           

至此,完成安裝。

6. 測試 

   在OCR檔案夾下有要是别的圖檔檔案picture2.png   

cd OCR 
	tesseract picture1.png picture1 -l eng  
           

    //調用tesseract指令, 識别picture1.png, 自動生成名為picture1.txt 的檔案。 -l eng 意為使用英語識别。

附所有參考網址:

http://blog.csdn.net/yimingsilence/article/details/51353772

http://www.qisanfen.com/?p=185

https://github.com/tesseract-ocr/tesseract/wiki/Compiling-%E2%80%93-GitInstallation

https://github.com/tesseract-ocr/tesseract/blob/master/INSTALL.GIT.md

https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract