簡單入門了解半監督中的Mean Teacher

2023-05-21 12:26:05

Mean Teacher出自此文。本文所用代碼引用自此處。接下來我們以偏僞代碼的風格來通俗解釋Mean Teacher。

首先，Mean Teacher中有兩個網絡，一個稱為Teacher，一個稱為Student，其結構完全一緻，隻是網絡權重更新方法不同：

model = create_model()	# Student Model
ema_model = create_model(ema=True)	# Teacher Model (Equipped with EMA)

先暫時不管EMA是什麼意思。一般來講，在半監督中，每個輸入Batch包含一半已标注的圖像與一般未标注的圖像。首先，整個Batch會被送入Student Model中，得到一個預測結果。對于Batch中的已标注部分，利用結果與真值計算loss，進行梯度反傳，進而更新Student Model的參數，如下所示：

outputs = model(volume_batch)	# 将圖像輸入Student中
supervised_loss = ce_loss(outputs[:args.labeled_bs], label_batch[:][:args.labeled_bs].long())	# 計算已标注部分的loss

而對于Batch中的未标注部分，其輸入Student Model也會得到一個結果(記為A)，這個結果有什麼用呢？現在我們來看Teacher Model。具體來說，未标注的圖像會在加入随機噪聲後，會被送入Teacher Model中，得到一個預測結果(記為B)：

那麼我們希望A與B的結果保持一緻，如下所示：

現在來回答兩個問題：

Q1：EMA是什麼？Teacher模型不通過Loss反傳更新梯度，那麼其參數是怎麼更新的？
A1：EMA即Exponential Moving Average，指數移動平均。通俗來講的話，Teacher模型的參數由Student模型過去一段時間的參數共同決定，可以通過拷貝Student模型的參數并計算以得到。這麼設計可以使Teacher模型反映Student在過去一段時間内的狀态。
Q2：上面提到的Consistency為何會對半監督起到幫助？
A2：有很多種了解。比方說，如果Teacher與Student能對相同的樣本得到一緻的結果，說明網絡目前的參數比較魯棒泛化——加噪前後的結果一緻，說明網絡不太可能overfit到一些特殊特征；在這種情況下網絡的預測結果一般是比較好的。

簡單入門了解半監督中的Mean Teacher

繼續閱讀

Meta-Learning for Semi-Supervised Few-Shot Classification. （用于半監督少樣本分類的元學習）1. 摘要2. 介紹2. 背景3 半監督少樣本學習4. 其他5. 論文連結

生成對抗網絡GAN損失函數loss的簡單了解

C語言中的自增自減運算符詳解，printf等函數的應用，及其源碼等前言

[論文閱讀] TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation

[論文閱讀] Suggestive Annotation: A Deep Active Learning Framework for Biomedical Image Segmentation

[論文閱讀] TransFuse: Fusing Transformers and CNNs for Medical Image Segmentation

[論文閱讀] Conformer: Local Features Coupling Global Representations for Visual Recognition

Data structure of the experimental order of a: a row of fast row（learning quick sorting）.

Pytorch nn.BCEWithLogitsLoss()的簡單了解與用法

[論文閱讀] Deep Automatic Natural Image Matting

[論文閱讀] A Late Fusion CNN for Digital Matting

簡單了解反向注意力(Reverse Attention)機制

[論文閱讀] Multi-Task Learning for Thyroid Nodule Segmentation with Thyroid Region Prior

檢視英偉達NVIDIA顯示卡型号

[論文閱讀] Unifying Global-Local Representations in Salient Object Detection with Transformer

Python set()函數的簡單用法