使用Mask R-CNN模型實作人體關鍵節點标注

摘要：在本案例中，我們将展示如何對基礎的Mask R-CNN進行擴充，完成人體關鍵節點标注的任務。

本文分享自華為雲社群《使用Mask R-CNN模型實作人體關鍵節點标注》，作者：運氣男孩。

前言

ModelArts 是面向開發者的一站式 AI 開發平台，為機器學習與深度學習提供海量資料預處理及互動式智能标注、大規模分布式訓練、自動化模型生成，及端-邊-雲模型按需部署能力，幫助使用者快速建立和部署模型，管理全周期 AI 工作流。

背景

Mask R-CNN是一個靈活開放的架構，可以在這個基礎架構的基礎上進行擴充，以完成更多的人工智能任務。在本案例中，我們将展示如何對基礎的Mask R-CNN進行擴充，完成人體關鍵節點标注的任務。

Mask R-CNN整體架構，它的3個主要網絡：

backbone網絡，用于生成特征圖
RPN網絡，用于生成執行個體的位置、分類、分割(mask)資訊
head網絡，對位置、分類和分割(mask)資訊進行訓練

在head網絡中，有分類、位置框和分割(mask)資訊的3個分支，我們可以對head網絡進行擴充，加入一個人體關鍵節點keypoint分支。并對其進行訓練，使得我們的模型具備關鍵節點分析的能力。那麼我們的模型結構将如下圖所示：

head網絡中，紅色的keypionts分支為新加入的人體關鍵節點分支

MaskRCNN模型的解析可以參考此文章。

本案例的運作環境是 TensorFlow 1.8.0 。

keypoints分支

在RPN中，我們生成Proposal後，當檢測到Proposal的分類為"Person"時，對每個部位的關鍵點生成一個one-hot掩碼，訓練的目标最終是得到一個56*56的二值掩碼，當中隻有一個像素被标記為關鍵點，其餘像素均為背景。對于每一個關鍵點的位置，進行最小化平均交叉熵損失檢測，K個關鍵點是被獨立處理的。

人體姿态檢測中，人本身可以作為一個目标執行個體進行分類檢測。但是，采取了one-hot編碼以後，就可以擴充到coco資料集中被标注的17個人體關鍵點（例如：左眼、右耳），同時也能夠處理非連續型數值特征。

COCO資料集中，對人體中17個關鍵點進行了标注，包括：鼻子,左眼,右眼,左耳,右耳,左肩,右肩,左肘,右肘,左手腕,右手腕,左膝蓋,右膝蓋,左腳踝,右腳踝,左小腿,右小腿，如下圖所示：

基礎環境準備

在使用 ModelArts 進行 AI 開發前，需先完成以下基礎操作哦（如有已完成部分，請忽略），主要分為4步（注冊–>實名認證–>服務授權–>領代金券）：

1、使用手機号注冊華為雲賬号：點選注冊

2、點此去完成實名認證，賬号類型選"個人"，個人認證類型推薦使用"掃碼認證"。

3、點選進入 ModelArts 控制台資料管理頁面，上方會提示通路授權，點選【服務授權】按鈕，按下圖順序操作：

4、進入 ModelArts 控制台首頁，如下圖，點選頁面上的"彩蛋"，領取新手福利代金券！後續步驟可能會産生資源消耗費用，請務必領取。

以上操作，也提供了詳細的視訊教程，點此檢視：ModelArts環境配置

在ModelArts中訓練Mask R-CNN keypoints模型

準備資料和源代碼

第一步：準備資料集和預訓練模型

下載下傳完成後，顯示如下壓縮包

解壓後，得到data目錄，其結構如下：

data/
├── mask_rcnn_coco.h5
├── annotations
│   ├── person_keypoints_train2014.json
│   ├── ***.json
├── train2014
│   ├── COCO_train2014_***.jpg
└── val2014
    ├── COCO_val2014_***.jpg複制

其中data/mask_rcnn_coco_humanpose.h5為預訓練模型，annotations、train2014和val2014為我們提前準備好的最小資料集，包含了500張圖檔的标注資訊。

第二步：準備源代碼

第三步：安裝依賴pycocotools

我們使用COCO資料集，需要安裝工具庫pycocotools

程式初始化

第一步：導入相關的庫，定義全局變量

第二步：生成配置項

我們定義Config類的子類MyTrainConfig，指定相關的參數，較為關鍵的參數有：

__NAME__： Config的唯一名稱
__NUM_CLASSIS__：分類的數量，我們隻生成圓形，正方形和三角形，再加上背景，是以一共是4個分類
__IMAGE_MIN_DIM和IMAGE_MAX_DIM__：圖檔的最大和最小尺寸，我們生成固定的128x128的圖檔，是以都設定為128
__TRAIN_ROIS_PER_IMAGE__：每張圖檔上訓練的RoI個數
__STEPS_PER_EPOCH和VALIDATION_STEPS__：訓練和驗證時，每輪的step數量，減少step的數量可以加速訓練，但是檢測精度降低

第三步：建立資料集對象

我們使用封裝好的CocoDataset類，生成訓練集和驗證集。

建立模型

用"training"模式建立模型對象，并加載預訓練模型

運作完成後輸出下面

訓練模型

Keras中的模型可以按照制定的層進行建構，在模型的train方法中，我們可以通過layers參數來指定特定的層進行訓練。layers參數有以下幾種預設值：

heads:隻訓練head網絡中的分類、mask和bbox回歸
all: 所有的layer
3+: 訓練ResNet Stage3和後續Stage
4+: 訓練ResNet Stage4和後續Stage
5+: 訓練ResNet Stage5和後續Stage

此外，layers參數還支援正規表達式，按照比對規則指定layer，可以調用model.keras_model.summary()檢視各個層的名稱，然後按照需要指定要訓練的層。

我們針對不同的layer進行訓練，首先，訓練head網絡中的4個分支：

輸出結果：

然後訓練ResNet Stage4和後續Stage

最後，對所有layer進行優化，并将訓練的模型儲存到本地

輸出結果：

使用模型檢測圖檔物體

第一步：建立"Inference"模式的模型對象，并加載我們訓練好的模型檔案

第二步：從驗證資料集中随機選出一張圖檔，顯式Ground Truth資訊

輸出結果，識别圖檔如下：

第三步：使用模型對圖檔進行預測，并顯示結果

最終識别結果：

使用Mask R-CNN模型實作人體關鍵節點标注

前言

背景

keypoints分支

基礎環境準備

在ModelArts中訓練Mask R-CNN keypoints模型

準備資料和源代碼

第一步：準備資料集和預訓練模型

第二步：準備源代碼

第三步：安裝依賴pycocotools

程式初始化

第一步：導入相關的庫，定義全局變量

第二步：生成配置項

第三步：建立資料集對象

建立模型

訓練模型

使用模型檢測圖檔物體

總結

繼續閱讀

一步一步解析集合架構ArrayList源碼（2）

asp.net自帶ajax功能總結

Justin_第1組_2009.4.2

資料流圖的設計

mvc原理和mvc模式的優缺點

AS3 類庫

VS2010/MFC程式設計入門之二（利用MFC向導生成單文檔應用程式架構）

VS2010/MFC程式設計入門之四（MFC應用程式架構分析）

推技術聊天室的實作(下)

領域模組化實作思考

項目管理那些事兒

pmbok學習筆記（1）

wecenter二次開發系列（三）——多個wc架構同域網站共享cookie

下載下傳APP顯示伺服器檢索資訊出錯 ”RPC:S-7:AEC-0“等

SSM架構（二）------------表現層的SpringMVC

阿裡巴巴分布式服務架構 Dubbo 團隊成員梁飛專訪