鑒于目前領域内尚缺乏該方面的深度學習開源工具庫,南京理工大學魏秀參教授團隊用時近一年時間,開發、打磨、完成了 Hawkeye——細粒度圖像識别深度學習開源工具庫,供相關領域研究人員和工程師參考使用。本文是對 Hawkeye 的詳細介紹。
目錄
1. 什麼是 Hawkeye 庫
2. Hawkeye 支援的模型及方法
3. 安裝 Hawkeye
4. 使用 Hawkeye 訓練模型
1. 什麼是 Hawkeye 庫
Hawkeye 是一個基于 PyTorch 的細粒度圖像識别深度學習工具庫,專為相關領域研究人員和工程師設計。目前,Hawkeye 包含多種代表性範式的細粒度識别方法,包括 “基于深度濾波器”、“基于注意力機制”、“基于高階特征互動”、“基于特殊損失函數”、“基于網絡資料” 以及其他方法。
Hawkeye 項目代碼風格良好,結構清晰易讀,可拓展性較強。對于剛接觸細粒度圖像識别領域的相關人員而言,Hawkeye 較易上手,便于其了解細粒度圖像識别的主要流程和代表性方法,同時也友善在本工具庫上快速實作自己的算法。此外,我們還給出了庫中各模型的訓練示例代碼,自研方法也可按照示例快速适配并添加至 Hawkeye 中。
Hawkeye 開源庫連結:https://github.com/Hawkeye-FineGrained/Hawkeye
2. Hawkeye 支援的模型及方法
Hawkeye 目前支援細粒度圖像識别中主要學習範式的共 16 個模型與方法,具體如下:
- 基于深度濾波器
- S3N (ICCV 2019)
- Interp-Parts (CVPR 2020)
- ProtoTree (CVPR 2021)
- 基于注意力機制
- OSME+MAMC (ECCV 2018)
- MGE-CNN (ICCV 2019)
- APCNN (IEEE TIP 2021)
- 基于高階特征互動
- BCNN (ICCV 2015)
- CBCNN (CVPR 2016)
- Fast MPN-COV (CVPR 2018)
- 基于特殊損失函數
- Pairwise Confusion (ECCV 2018)
- API-Net (AAAI 2020)
- CIN (AAAI 2020)
- 基于網絡資料
- Peer-Learning (ICCV 2021)
- 其他方法
- NTS-Net (ECCV 2018)
- CrossX (ICCV 2019)
- DCL (CVPR 2019)
3. 安裝 Hawkeye
安裝依賴
使用 conda 或者 pip 安裝相關依賴:
- Python 3.8
- PyTorch 1.11.0 or higher
- torchvison 0.12.0 or higher
- numpy
- yacs
- tqdm
克隆倉庫:
git clone https://github.com/Hawkeye-FineGrained/Hawkeye.git
cd Hawkeye
準備資料集
我們提供了 8 個常用的細粒度識别資料集及最新的下載下傳連結:
- CUB200: https://data.caltech.edu/records/65de6-vp158/files/CUB_200_2011.tgz
- Stanford Dog: http://vision.stanford.edu/aditya86/ImageNetDogs/images.tar
- Stanford Car: http://ai.stanford.edu/~jkrause/car196/car_ims.tgz
- FGVC Aircraft: https://www.robots.ox.ac.uk/~vgg/data/fgvc-aircraft/archives/fgvc-aircraft-2013b.tar.gz
- iNat2018: https://ml-inat-competition-datasets.s3.amazonaws.com/2018/train_val2018.tar.gz
- WebFG-bird: https://web-fgvc-496-5089-sh.oss-cn-shanghai.aliyuncs.com/web-bird.tar.gz
- WebFG-car: https://web-fgvc-496-5089-sh.oss-cn-shanghai.aliyuncs.com/web-car.tar.gz
- WebFG-aircraft: https://web-fgvc-496-5089-sh.oss-cn-shanghai.aliyuncs.com/web-aircraft.tar.gz
首先,下載下傳一個資料集(以 CUB200 為例):
cd Hawkeye/data
wget https://data.caltech.edu/records/65de6-vp158/files/CUB_200_2011.tgz
mkdir bird && tar -xvf CUB_200_2011.tgz -C bird/
我們提供了上述 8 個資料集的 meta-data 檔案,能夠比對庫中的 FGDataset 友善地加載訓練集和測試集,訓練集和測試集為各個資料集官方提供的劃分。使用不同資料集時,隻需在實驗的 config 檔案中修改 dataset 配置即可,友善切換。
在實驗的 config 檔案中修改 dataset 配置,示例如下:
dataset:
name: cub
root_dir: data/bird/CUB_200_2011/images
meta_dir: metadata/cub
4. 使用 Hawkeye 訓練模型
對于 Hawkeye 支援的每個方法,我們均提供了單獨的訓練模闆和配置檔案。例如訓練 APINet 隻需一條指令:
python Examples/APINet.py --config configs/APINet.yaml
實驗的參數都在相應的 yaml 檔案中,可讀性高、便于修改,如:
experiment:
name: API_res101 2 # 實驗名稱
log_dir: results/APINet # 實驗日志、結果等的輸出目錄
seed: 42 # 可以選擇固定的随機數種子
# resume: results/APINet/API_res101 2/checkpoint_epoch_19.pth # 可以從訓練中斷的 checkpoint 中恢複訓練
dataset:
name: cub # 使用 CUB200 資料集
root_dir: data/bird/CUB_200_2011/images # 資料集中圖像放置的路徑
meta_dir: metadata/cub # CUB200 的 metadata 路徑
n_classes: 10 # 類别數,APINet 需要的資料集
n_samples: 4 # 每個類别的樣本數
batch_size: 24 # 測試時的批樣本數
num_workers: 4 # Dataloader 加載資料集的線程數
transformer: # 資料增強的參數配置
image_size: 224 # 圖像輸入模型的尺寸 224x224
resize_size: 256 # 圖像增強前縮放的尺寸 256x256
model:
name: APINet # 使用 APINet 模型,見 `model/methods/APINet.py`
num_classes: 200 # 類别數目
# load: results/APINet/API_res101 1/best_model.pth # 可以加載訓練過的模型參數
train:
cuda: [4] # 使用的 GPU 裝置 ID 清單,[] 時使用 CPU
epoch: 100 # 訓練的 epoch 數量
save_frequence: 10 # 自動儲存模型的頻率
# val_first: False # 可選是否在訓練前進行一次模型精度的測試
optimizer:
name: Adam # 使用 Adam 優化器
lr: 0.0001 # 學習率為 0.0001
weight_decay: 0.00000002
scheduler:
# 本例使用自定義組合的 scheduler,由 warmup 和餘弦退火學習率組合而成,見 `Examples/APINet.py`
name: ''
T_max: 100 # scheduler 的總疊代次數
warmup_epochs: 8 # warmup 的 epoch 數
lr_warmup_decay: 0.01 # warmup 衰減的比例
criterion:
name: APINetLoss # APINet 使用的損失函數,見 `model/loss/APINet_loss.py`