1 安裝PPOCRLabel标注工具

2 克隆Paddleocr項目

3 打開PPOCRLabel工具

4 标注步驟

4.1 操作步驟

4.2 注意

4.3 快捷鍵

5 項目實戰

6 大批量自動标注

1 安裝PPOCRLabel标注工具

PPOCRLabel是一款适用于OCR領域的半自動化圖形标注工具，内置PPOCR模型對資料自動标注和重新識别。使用python3和pyqt5編寫，支援矩形框标注和四點标注模式，導出格式可直接用于PPOCR檢測和識别模型的訓練。是以第一步就是要克隆PaddleOCR的項目，這樣才能依托這個項目進行無線套娃式的半自動标注。

2 克隆Paddleocr項目

首先要克隆paddleocr項目，項目位址。打開這個項目就可以看到如下圖的開源項目，可以看到項目裡面就内置了PPOCRLabel這個項目。我們點選上述的克隆按鍵，就可以将這個項目整個下載下傳下來了。

利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6 大批量自動标注

pycharm和paddlepaddle深度學習環境的配置可以參考我的這一篇部落格利用Anaconda安裝pytorch和paddle深度學習環境+pycharm安裝---免額外安裝CUDA和cudnn（适合小白的保姆級教學）。将下載下傳的項目解壓好，然後用一款IDE打開，我用的是pycharm這款IDE。如下圖所示。

利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6 大批量自動标注

然後在paddlepadle環境下安裝pyqt5，可以用pip安裝，我是在pycharm終端（Terminal）中安裝的，執行 pip install pyqt5 這個指令就可以了，就會幫我們裝上了。如下圖所示：

利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6 大批量自動标注

我的已經裝好了，執行完指令就會出現如下的結果。

利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6 大批量自動标注

3 打開PPOCRLabel工具

在pycharm的終端（Terminal），将目錄切換到PPOCRLabel這個目錄下，執行

cd PPOCRLabel這個指令就會到該目錄下面，可以看到，已經進入到這個目錄下面。

利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6 大批量自動标注

執行python PPOCRLabel.py --lang ch這個指令就可以打開标注工具了。如下圖所示：

利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6 大批量自動标注

4 标注步驟

4.1 操作步驟

打開檔案夾：在菜單欄點選 “檔案” - "打開目錄" 選擇待标記圖檔的檔案夾.
自動标注：點選 ”自動标注“，使用PPOCR超輕量模型對圖檔檔案名前圖檔狀态為 “X” 的圖檔進行自動标注。
手動标注：點選 “矩形标注”（推薦直接在英文模式下點選鍵盤中的 “W”)，使用者可對目前圖檔中模型未檢出的部分進行手動繪制标記框。點選鍵盤Q，則使用四點标注模式（或點選“編輯” - “四點标注”），使用者依次點選4個點後，輕按兩下左鍵表示标注完成。
标記框繪制完成後，使用者點選 “确認”，檢測框會先被預配置設定一個 “待識别” 标簽。
重新識别：将圖檔中的所有檢測畫繪制/調整完成後，點選 “重新識别”，PPOCR模型會對目前圖檔中的所有檢測框重新識别。
内容更改：輕按兩下識别結果，對不準确的識别結果進行手動更改。
确認标記：點選 “确認”，圖檔狀态切換為 “√”，跳轉至下一張。
删除：點選 “删除圖像”，圖檔将會被删除至資源回收筒。
儲存結果：使用者可以通過菜單中“檔案-儲存标記結果”手動儲存，同時也可以點選“檔案 - 自動儲存标記結果”開啟自動儲存。手動确認過的标記将會被存放在所打開圖檔檔案夾下的Label.txt中。在菜單欄點選 “檔案” - "儲存識别結果"後，會将此類圖檔的識别訓練資料儲存在crop_img檔案夾下，識别标簽儲存在rec_gt.txt中。

4.2 注意

PPOCRLabel以檔案夾為基本标記機關，打開待标記的圖檔檔案夾後，不會在視窗欄中顯示圖檔，而是在點選 "選擇檔案夾" 之後直接将檔案夾下的圖檔導入到程式中。

圖檔狀态表示本張圖檔使用者是否手動儲存過，未手動儲存過即為 “X”，手動儲存過為 “√”。點選 “自動标注”按鈕後，PPOCRLabel不會對狀态為 “√” 的圖檔重新标注。

點選“重新識别”後，模型會對圖檔中的識别結果進行覆寫。是以如果在此之前手動更改過識别結果，有可能在重新識别後産生變動。

PPOCRLabel産生的檔案放置于标記圖檔檔案夾下，包括一下幾種，請勿手動更改其中内容，否則會引起程式出現異常。

檔案名	說明
Label.txt	檢測标簽，可直接用于PPOCR檢測模型訓練。使用者每儲存5張檢測結果後，程式會進行自動寫入。當使用者關閉應用程式或切換檔案路徑後同樣會進行寫入。
fileState.txt	圖檔狀态标記檔案，儲存目前檔案夾下已經被使用者手動确認過的圖檔名稱。
Cache.cach	緩存檔案，儲存模型自動識别的結果。
rec_gt.txt	識别标簽。可直接用于PPOCR識别模型訓練。需使用者手動點選菜單欄“檔案” - "儲存識别結果"後産生。
crop_img	識别資料。按照檢測框切割後的圖檔。與rec_gt.txt同時産生。

4.3 快捷鍵

快捷鍵	說明
Ctrl + shift + R	對目前圖檔的所有标記重新識别
W	建立矩形框
Q	建立四點框
Ctrl + E	編輯所選框标簽
Ctrl + R	重新識别所選标記
Ctrl + C	複制并粘貼選中的标記框
Ctrl + 滑鼠左鍵	多選标記框
Backspace	删除所選框
Ctrl + V	确認本張圖檔标記
Ctrl + Shift + d	删除本張圖檔
D	下一張圖檔
A	上一張圖檔
Ctrl++	縮小
Ctrl--	放大
↑→↓←	移動标記框

5 項目實戰

按照以上标注步驟打開需要标注的檔案，我的項目是對車牌号的識别和檢測，打開後如圖。

利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6 大批量自動标注

我們來按标注步驟标注第一張圖。

首先按下快捷鍵，快捷鍵w（矩形标注框，從左邊點選，就會出現一個框框，拖動框框覆寫需要标注的區域）。快捷鍵q（四點标注，要順時針點四個點，第四個點輕按兩下左鍵就可以讓一個框框閉合，這個正對不規則的四邊形标注場景，或者是一個位置是斜的矩形）。

由于車牌是一個方方正正的矩形，是以選用矩形框标注就好了，按下快捷鍵w。用框框将需要标注的地方框住，就會出現如下的對話框，我們可以在框框中自己填寫車牌号碼。也可以利用這款标注工具的半标注功能，點選ok。

利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6 大批量自動标注

點選ok之後，右邊的框框出現這個框框的識别結果是待識别，點選重新識别的按鈕，标注工具就會自動識别圖檔中的結果，如果識别結果有錯誤，我們也可以點選識别結果進行更改（标注好了一定要點确定）。不得不說，百度這個工具做的比其他的工具厲害。可以幫我們省了很多力氣。

利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6 大批量自動标注

6 大批量自動标注

由于我們的圖檔經常是成千上萬，一張張圖檔标注起來很是枯燥和費勁。是以PPLabel這款标注工具可以幫助我們大批量自動标注，PPLabel自動幫我們标注好了以後，我們隻需要檢查每一張照片的标注結果，如果有标注錯誤的地方（或者自動标注了我們不需要的地方和文字），我們更改一下，然後确認每一張照片就行。

點選标注工具左下方的自動标注按鈕。就會自動标注，自動标注結束以後點選ok按鈕就可以了。

利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6 大批量自動标注

自動标注結束以後，标注結果沒有自動儲存，自動标注工具隻是幫我們自動标注，但是結果還有待我們确定，是以我們需要對每一張圖檔确定才可以儲存标注結果。确認完每張識别結果以後左邊的檔案清單前面出現√這個符号就說明這個圖檔标注完了，結果并儲存了。然後按如下右圖點選儲存識别結果（不點選這項的話就不會儲存識别結果，就不會出現識别結果的檔案和相應的标簽），該标注工具标注的檔案是用來訓練文本檢測和識别的模型的）。

利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6 大批量自動标注

按上述步驟标注完了，在圖檔檔案中會産生如下幾個檔案。crop_img裡面的内容就是識别資料。

利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6 大批量自動标注

檔案名	說明
Label.txt	檢測标簽，可直接用于PPOCR檢測模型訓練。使用者每儲存5張檢測結果後，程式會進行自動寫入。當使用者關閉應用程式或切換檔案路徑後同樣會進行寫入。
fileState.txt	圖檔狀态标記檔案，儲存目前檔案夾下已經被使用者手動确認過的圖檔名稱。
Cache.cach	緩存檔案，儲存模型自動識别的結果。
rec_gt.txt	識别标簽。可直接用于PPOCR識别模型訓練。需使用者手動點選菜單欄“檔案” - "儲存識别結果"後産生。
crop_img	識别資料。按照檢測框切割後的圖檔。與rec_gt.txt同時産生。

利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6 大批量自動标注

1 安裝PPOCRLabel标注工具

2 克隆Paddleocr項目

3 打開PPOCRLabel工具

4 标注步驟

4.1 操作步驟

4.2 注意

4.3 快捷鍵

5 項目實戰

6 大批量自動标注

至此PPLabel自動标注工具的講解自此已經結束。不得不說這款工具的确是一款很不錯的工具。

繼續閱讀

來自python的【條件控制/語句循環/break/continue/else/pass】一、條件控制二、語句循環

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入