天天看點

利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6  大批量自動标注

目錄

1 安裝PPOCRLabel标注工具

2 克隆Paddleocr項目

3  打開PPOCRLabel工具

4 标注步驟

4.1 操作步驟

4.2 注意

4.3 快捷鍵

5 項目實戰

6 大批量自動标注

1 安裝PPOCRLabel标注工具

        PPOCRLabel是一款适用于OCR領域的半自動化圖形标注工具,内置PPOCR模型對資料自動标注和重新識别。使用python3和pyqt5編寫,支援矩形框标注和四點标注模式,導出格式可直接用于PPOCR檢測和識别模型的訓練。是以第一步就是要克隆PaddleOCR的項目,這樣才能依托這個項目進行無線套娃式的半自動标注。

2 克隆Paddleocr項目

        首先要克隆paddleocr項目,項目位址。打開這個項目就可以看到如下圖的開源項目,可以看到項目裡面就内置了PPOCRLabel這個項目。我們點選上述的克隆按鍵,就可以将這個項目整個下載下傳下來了。

利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6  大批量自動标注

        pycharm和paddlepaddle深度學習環境的配置可以參考我的這一篇部落格利用Anaconda安裝pytorch和paddle深度學習環境+pycharm安裝---免額外安裝CUDA和cudnn(适合小白的保姆級教學)。 将下載下傳的項目解壓好,然後用一款IDE打開,我用的是pycharm這款IDE。如下圖所示。

利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6  大批量自動标注

         然後在paddlepadle環境下安裝pyqt5,可以用pip安裝,我是在pycharm終端(Terminal)中安裝的,執行 pip install pyqt5 這個指令就可以了,就會幫我們裝上了。如下圖所示:

利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6  大批量自動标注

         我的已經裝好了,執行完指令就會出現如下的結果。

利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6  大批量自動标注

3  打開PPOCRLabel工具

        在pycharm的終端(Terminal),将目錄切換到PPOCRLabel這個目錄下,執行

cd PPOCRLabel這個指令就會到該目錄下面,可以看到,已經進入到這個目錄下面。

利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6  大批量自動标注

         執行python PPOCRLabel.py --lang ch這個指令就可以打開标注工具了。如下圖所示:

利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6  大批量自動标注
利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6  大批量自動标注

4 标注步驟

4.1 操作步驟

  1. 打開檔案夾:在菜單欄點選 “檔案” - "打開目錄" 選擇待标記圖檔的檔案夾.
  2. 自動标注:點選 ”自動标注“,使用PPOCR超輕量模型對圖檔檔案名前圖檔狀态為 “X” 的圖檔進行自動标注。
  3. 手動标注:點選 “矩形标注”(推薦直接在英文模式下點選鍵盤中的 “W”),使用者可對目前圖檔中模型未檢出的部分進行手動繪制标記框。點選鍵盤Q,則使用四點标注模式(或點選“編輯” - “四點标注”),使用者依次點選4個點後,輕按兩下左鍵表示标注完成。
  4. 标記框繪制完成後,使用者點選 “确認”,檢測框會先被預配置設定一個 “待識别” 标簽。
  5. 重新識别:将圖檔中的所有檢測畫繪制/調整完成後,點選 “重新識别”,PPOCR模型會對目前圖檔中的所有檢測框重新識别。
  6. 内容更改:輕按兩下識别結果,對不準确的識别結果進行手動更改。
  7. 确認标記:點選 “确認”,圖檔狀态切換為 “√”,跳轉至下一張。
  8. 删除:點選 “删除圖像”,圖檔将會被删除至資源回收筒。
  9. 儲存結果:使用者可以通過菜單中“檔案-儲存标記結果”手動儲存,同時也可以點選“檔案 - 自動儲存标記結果”開啟自動儲存。手動确認過的标記将會被存放在所打開圖檔檔案夾下的Label.txt中。在菜單欄點選 “檔案” - "儲存識别結果"後,會将此類圖檔的識别訓練資料儲存在crop_img檔案夾下,識别标簽儲存在rec_gt.txt中。

4.2 注意

        PPOCRLabel以檔案夾為基本标記機關,打開待标記的圖檔檔案夾後,不會在視窗欄中顯示圖檔,而是在點選 "選擇檔案夾" 之後直接将檔案夾下的圖檔導入到程式中。

        圖檔狀态表示本張圖檔使用者是否手動儲存過,未手動儲存過即為 “X”,手動儲存過為 “√”。點選 “自動标注”按鈕後,PPOCRLabel不會對狀态為 “√” 的圖檔重新标注。

        點選“重新識别”後,模型會對圖檔中的識别結果進行覆寫。是以如果在此之前手動更改過識别結果,有可能在重新識别後産生變動。

        PPOCRLabel産生的檔案放置于标記圖檔檔案夾下,包括一下幾種,請勿手動更改其中内容,否則會引起程式出現異常。

檔案名 說明
Label.txt 檢測标簽,可直接用于PPOCR檢測模型訓練。使用者每儲存5張檢測結果後,程式會進行自動寫入。當使用者關閉應用程式或切換檔案路徑後同樣會進行寫入。
fileState.txt 圖檔狀态标記檔案,儲存目前檔案夾下已經被使用者手動确認過的圖檔名稱。
Cache.cach 緩存檔案,儲存模型自動識别的結果。
rec_gt.txt 識别标簽。可直接用于PPOCR識别模型訓練。需使用者手動點選菜單欄“檔案” - "儲存識别結果"後産生。
crop_img 識别資料。按照檢測框切割後的圖檔。與rec_gt.txt同時産生。

4.3 快捷鍵

快捷鍵 說明
Ctrl + shift + R 對目前圖檔的所有标記重新識别
W 建立矩形框
Q 建立四點框
Ctrl + E 編輯所選框标簽
Ctrl + R 重新識别所選标記
Ctrl + C 複制并粘貼選中的标記框
Ctrl + 滑鼠左鍵 多選标記框
Backspace 删除所選框
Ctrl + V 确認本張圖檔标記
Ctrl + Shift + d 删除本張圖檔
D 下一張圖檔
A 上一張圖檔
Ctrl++ 縮小
Ctrl-- 放大
↑→↓← 移動标記框

5 項目實戰

        按照以上标注步驟打開需要标注的檔案,我的項目是對車牌号的識别和檢測,打開後如圖。

利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6  大批量自動标注

        我們來按标注步驟标注第一張圖。

        首先按下快捷鍵,快捷鍵w(矩形标注框,從左邊點選,就會出現一個框框,拖動框框覆寫需要标注的區域)。快捷鍵q(四點标注,要順時針點四個點,第四個點輕按兩下左鍵就可以讓一個框框閉合,這個正對不規則的四邊形标注場景,或者是一個位置是斜的矩形)。

        由于車牌是一個方方正正的矩形,是以選用矩形框标注就好了,按下快捷鍵w。用框框将需要标注的地方框住,就會出現如下的對話框,我們可以在框框中自己填寫車牌号碼。也可以利用這款标注工具的半标注功能,點選ok。

利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6  大批量自動标注

      點選ok之後,右邊的框框出現這個框框的識别結果是待識别,點選重新識别的按鈕,标注工具就會自動識别圖檔中的結果,如果識别結果有錯誤,我們也可以點選識别結果進行更改(标注好了一定要點确定)。不得不說,百度這個工具做的比其他的工具厲害。可以幫我們省了很多力氣。

利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6  大批量自動标注
利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6  大批量自動标注

6  大批量自動标注

        由于我們的圖檔經常是成千上萬,一張張圖檔标注起來很是枯燥和費勁。是以PPLabel這款标注工具可以幫助我們大批量自動标注,PPLabel自動幫我們标注好了以後,我們隻需要檢查每一張照片的标注結果,如果有标注錯誤的地方(或者自動标注了我們不需要的地方和文字),我們更改一下,然後确認每一張照片就行。

        點選标注工具左下方的自動标注按鈕。就會自動标注,自動标注結束以後點選ok按鈕就可以了。

利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6  大批量自動标注
利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6  大批量自動标注

         自動标注結束以後,标注結果沒有自動儲存,自動标注工具隻是幫我們自動标注,但是結果還有待我們确定,是以我們需要對每一張圖檔确定才可以儲存标注結果。确認完每張識别結果以後左邊的檔案清單前面出現√這個符号就說明這個圖檔标注完了,結果并儲存了。然後按如下右圖點選儲存識别結果(不點選這項的話就不會儲存識别結果,就不會出現識别結果的檔案和相應的标簽),該标注工具标注的檔案是用來訓練文本檢測和識别的模型的)。

利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6  大批量自動标注
利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6  大批量自動标注

        按上述步驟标注完了,在圖檔檔案中會産生如下幾個檔案。crop_img裡面的内容就是識别資料。

利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6  大批量自動标注
利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6  大批量自動标注
利用PPOCRLabel标注工具大批量自動标注自己的資料集1 安裝PPOCRLabel标注工具5 項目實戰6  大批量自動标注
檔案名 說明
Label.txt 檢測标簽,可直接用于PPOCR檢測模型訓練。使用者每儲存5張檢測結果後,程式會進行自動寫入。當使用者關閉應用程式或切換檔案路徑後同樣會進行寫入。
fileState.txt 圖檔狀态标記檔案,儲存目前檔案夾下已經被使用者手動确認過的圖檔名稱。
Cache.cach 緩存檔案,儲存模型自動識别的結果。
rec_gt.txt 識别标簽。可直接用于PPOCR識别模型訓練。需使用者手動點選菜單欄“檔案” - "儲存識别結果"後産生。
crop_img 識别資料。按照檢測框切割後的圖檔。與rec_gt.txt同時産生。

         至此PPLabel自動标注工具的講解自此已經結束。不得不說這款工具的确是一款很不錯的工具。