天天看點

Tesserocr的安裝(python3應用)Tesserocr的安裝(python3應用)

Tesserocr的安裝

  • Tesserocr的安裝(python3應用)
    • Tesserocr是什麼?
    • 相關的一些網址和工具
    • 安裝過程(僅介紹windows10)

Tesserocr的安裝(python3應用)

Tesserocr是什麼?

https://github.com/tesseract-ocr/tesseract/wiki#introduction上的一段介紹:

Tesseract is an open source text recognizer (OCR) Engine, available under the Apache 2.0 license. It can be used directly, or (for programmers) using an API to extract printed text from images. It supports a wide variety of languages.

https://github.com/tesseract-ocr/tesseract#brief-history上的一段介紹:

Tesseract was originally developed at Hewlett-Packard Laboratories Bristol and at Hewlett-Packard Co, Greeley Colorado between 1985 and 1994, with some more changes made in 1996 to port to Windows, and some C++izing in 1998. In 2005 Tesseract was open sourced by HP. Since 2006 it is developed by Google.

自己的了解:Tesserocr是Universitätsbibliothek Mannheim(德國曼海姆大學圖書館)的一個開源的項目git的連結,OCR (Optical Character Recognition,光學字元識别),OCR和圖書館的關系當然我不用介紹了,大家都明白。tesserocr是包裝好的一個庫,可以供軟體開發的時候來調用。

相關的一些網址和工具

  • tesseract的windows官方釋出(1)
  • GitHub上的tessoract-ocr(2)
    • ->其中包含了tesseract(git連結)和tessdata(git連結)
  • PyPI上的tesserocr 2.4.0(3)
  • windows的whl釋出(4)
    • 有些時候pip自動安裝失敗,可能需要手動下載下傳對應的版本pip install xxx.whl來手動安裝。
  • tesserocr DATA FILEs(5)

安裝過程(僅介紹windows10)

  1. 第一步當然是下載下傳官方包啦?、

    根據官方的文檔我們去(1)下載下傳,當然是下載下傳最新版本,有32位和64位選擇,有DEV字樣的是開發版(不建議下載下傳)。

  2. 下載下傳完就可以安裝了,安裝也是相當的簡單,一路next就好了。
  3. 然後要設定一下路徑,環境變量的設定,把tesseract的安裝目錄加到path裡邊,比如我的是C:\Program Files (x86)\Tesseract-OCR。
  4. 這裡還要設定另外一個環境變量,TESSDATA_PREFIX,它的值是tessdata的目錄,比如我的是C:\Program Files (x86)\Tesseract-OCR\tessdata。

    有很多文章介紹說把這個值設成安裝目錄即可,但是我的實踐是不行。(具體可以按照個人情況判斷,如果一個不行,那就嘗試另一個)

  5. 如果安裝的時候沒有把tessdata安裝的話,我們需要手動去下載下傳(5)。

    這裡我們可以有三種選擇tessdata/tessdata_best/tessdata_fast,第一個應該是比較原始的版本,_best應該是通過精度訓練的包,_fast應該是通過速度訓練的包。按照個人需求去下載下傳吧。應用都是一樣的,可能結果會有所差別吧。

    下載下傳後解包,複制到C:\Program Files (x86)\Tesseract-OCR\tessdata目錄下就ok了,具體目錄看個人情況。

  6. tesseract安裝基本完成,我們來測試一下:

    打開指令行執行 tesseract -v 得到類似傳回就表示安裝ok了

    tesseract v4.0.0.20181030
     leptonica-1.76.0
       libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34:libtiff     4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.2.0
               
    接着再執行 tessact --list-langs|more 觀察得到傳回的第一行
    List of available languages (167):
               
    表示tessdata也被識别到了。
  7. 接着我們來安裝python庫:

    我們可以直接運作 pip install tesserocr pillow 來直接安裝。如果順利的話會直接得到這樣的字樣

    Successfully installed tesserocr-x.x.x
               
    pillow 一般不會報錯,我們不用去太多的關注,tesserocr是可能會報錯的,這個時候需要我們自己手動去下載下傳相應版本的whl來本地安裝了,通過網址(4)我們選擇适合的版本下載下傳後,通過指令行 pip install xxxxxxx.whl 來進行安裝。
  8. 最後我們來測試一下,我們可以找一個簡單的英文文字的小圖檔
    Tesserocr的安裝(python3應用)Tesserocr的安裝(python3應用)
    先用指令行直接對圖檔進行識别,圖檔需要再目前目錄:
    指令:tesseract image.jpg result
    傳回:Tesseract Open Source OCR Engine v4.0.0.20181030 with Leptonica
    傳回資訊可能會有所不同。并會在目前的目錄下生成result.txt的文本檔案儲存結果
    可以通過指令:type result.txt來檢視結果
    檔案内容是:tesseract
               

    這樣的結果表示軟體是可用的,下一步我們測試一下python調用:

    同樣也是需要在圖檔的目前目錄下來測試,

    首先鍵入python進入python互動
    >>>import tesserocr
    >>>from PIL import Image
    >>>image=Image.open('image.jpg')
    >>>print(tesserocr.image_to_text(image))
    tesseract
               
    列印出“tesseract”證明python安裝成功,是可用的。
    • author:大團結->沈峥
    • Email:[email protected](勘誤和建議敬請騷擾)
    • date:20190222