天天看點

半監督領域論文筆記——Billion-scale semi-supervised learning for image classification

發表資訊

2019年,Facebook

所屬領域

半監督學習

文章方法

主要目的

借助非标注資料,提升現有模型效果

方法概述

采用了teacher/student的學習機制,借助了billion級别的unable data和相對小數量級的label data,提升了目前已有模型在圖像分類任務上的效果

提出背景

  • 2018年,也是Facebook,提出了weakly supervised方向的研究“Exploring the Limits of Weakly Supervised Pretraining”,采用billion級别的weakly supervised data(圖像有hashtag标簽,圖像來源是Instagram)
  • 本方法受啟發于好幾個方向:self- training, distillation, or boosting.

方法介紹

  • 所用資料:

大量無标簽+相對少量的有标簽。

(billions of unlabeled images along with a relatively smaller set of task-specific labeled data)

  • 具體流程:
  1. 在labeled data 資料集上A訓一個teacher model
  2. 用teacher對unlabeled data打僞标簽,對每一類class進行資料選擇(根據僞标簽prediction排序,再選top-K images),建構一個新的訓練集B
  3. 在資料集B上訓一個student模型,作為pre-train,student的模型規模比teacher要小
  4. 在label data資料集A上,fine-tune這個student模型
半監督領域論文筆記——Billion-scale semi-supervised learning for image classification
  • 方法變式:

文章結論

在文章的第二頁有一個table 1,羅列了6點文章作者對大規模半監督學習過程的建議,濃縮了文中多項實驗的精華,非常值得細品:

半監督領域論文筆記——Billion-scale semi-supervised learning for image classification

本人詳細解讀如下:

方法優勢

  • 相比于weakly supervised方法

  1. 避免了資料長尾分布(long-tail distribution)問題。本方法對unlabeled data打标後手動選擇,可以人工決定資料量和分布(selecting same number of images per label),避免了不同類别數量不均勻的問題
  2. weakly supervised 的噪聲問題。文章提到“significant amount of inherent noise in the labels due to non-visual, missing and irrelevant tags which can significantly hamper the learning of models”

方法亮點

  • 資料規模大

第一次在半監督學習中利用billion級别的無标簽資料。(“semi-supervised learning with neural networks has not been explored before at this scale.”)

具體細節

繼續閱讀