點選我愛計算機視覺标星,更快擷取CVML新技術
分享一篇今天新出的論文DivideMix: Learning with Noisy Labels as Semi-supervised Learning,來自SalesForce研究院的工程師提出一種使用半監督學習方法改進含噪聲标簽資料的學習,顯著改進了精度,大幅超越之前的State-of-the-art。
該文作者資訊:

衆所周知,近年來深度學習的長足進步離不開大規模高标準的标注資料,但在大多數現實問題中,獲得數量可觀的标注資料需要付出大量的時間和金錢代價。
而網際網路上可以獲得大量的含有标簽噪聲的資料,比如從搜尋引擎查找傳回的資料、從社交網絡下載下傳的含有tag的資料等,如何利用這些大規模含噪聲标簽的資料是降低标注成本的重要方向。
該文提出DivideMix方法,核心思想為 co-divide + 改進的MixMatch,其算法流程如下:
1. 提出了co-divide,該過程同時訓練兩個網絡。對于每個網絡,在其每個樣本的損失分布上動态拟合高斯混合模型(GMM),以将訓練樣本分為有标簽資料(最可能幹淨的資料)和無标簽資料(最可能是噪聲的資料)。然後,将分割後的資料用于訓練另一個網絡。同分使兩個網絡保持分開,以便它們可以過濾不同類型的錯誤并避免自訓練中的确認偏差。
2. 在後續的半監督學習階段,通過标簽co-refinement和co-guessing來改進MixMatch,解決标簽噪音問題。對于有标簽的樣本,我們使用GMM針對另一個網絡的網絡預測來完善其真實标簽。對于沒有标簽的樣本,我們使用兩個網絡的內建為它們的标記做出可靠的猜測。
算法流程:
實驗結果
作者在多個資料集上不同的噪聲比例下進行了實驗,結果表明,DivideMix在多個基準資料集上顯著提高了精度。齊刷刷站到最高點!
該文已經被ICLR 2020錄用,作者也已将代碼開源,感興趣的小夥伴,趕緊實驗下吧。
論文位址:
https://arxiv.org/pdf/2002.07394.pdf
代碼位址:
https://github.com/LiJunnan1992/DivideMix