發表資訊
2019年,Facebook
所屬領域
半監督學習
文章方法
主要目的
借助非标注資料,提升現有模型效果
方法概述
采用了teacher/student的學習機制,借助了billion級别的unable data和相對小數量級的label data,提升了目前已有模型在圖像分類任務上的效果
提出背景
- 2018年,也是Facebook,提出了weakly supervised方向的研究“Exploring the Limits of Weakly Supervised Pretraining”,采用billion級别的weakly supervised data(圖像有hashtag标簽,圖像來源是Instagram)
- 本方法受啟發于好幾個方向:self- training, distillation, or boosting.
方法介紹
- 所用資料:
大量無标簽+相對少量的有标簽。
(billions of unlabeled images along with a relatively smaller set of task-specific labeled data)
- 具體流程:
- 在labeled data 資料集上A訓一個teacher model
- 用teacher對unlabeled data打僞标簽,對每一類class進行資料選擇(根據僞标簽prediction排序,再選top-K images),建構一個新的訓練集B
- 在資料集B上訓一個student模型,作為pre-train,student的模型規模比teacher要小
- 在label data資料集A上,fine-tune這個student模型
- 方法變式:
文章結論
在文章的第二頁有一個table 1,羅列了6點文章作者對大規模半監督學習過程的建議,濃縮了文中多項實驗的精華,非常值得細品:
本人詳細解讀如下:
方法優勢
-
相比于weakly supervised方法
- 避免了資料長尾分布(long-tail distribution)問題。本方法對unlabeled data打标後手動選擇,可以人工決定資料量和分布(selecting same number of images per label),避免了不同類别數量不均勻的問題
- weakly supervised 的噪聲問題。文章提到“significant amount of inherent noise in the labels due to non-visual, missing and irrelevant tags which can significantly hamper the learning of models”
方法亮點
- 資料規模大
第一次在半監督學習中利用billion級别的無标簽資料。(“semi-supervised learning with neural networks has not been explored before at this scale.”)