天天看點

NIPS22|即插即用!資料集蒸餾新方法HaBa:顯著提升下遊模型性能

作者:極市平台

作者丨GlobalTrack

編輯丨極市平台

NIPS22|即插即用!資料集蒸餾新方法HaBa:顯著提升下遊模型性能

論文連結: https://openreview.net/pdf?id=luGXvawYWJ

代碼連結: https://github.com/Huage001/DatasetFactorization

簡介

深度學習取得了巨大成功,訓練一般需要大量的資料。存儲、傳輸和資料集預處理成為大資料集使用的阻礙。另外釋出原始資料可能會有隐私版權等問題。

資料集蒸餾(Dataset Distillation)是一種解決方案,通過蒸餾一個資料集形成一個隻包含少量樣本的合成資料集,同時訓練成本顯著降低。資料集蒸餾可以用于持續學習、神經網絡架構搜尋等領域。

最早提出的資料集蒸餾算法核心思想即優化合成資料集,在下遊任務中最小化損失函數。DSA( Dataset condensation with differentiable siamese augmentation)、GM( Dataset condensation with gradient matching)、CS(Dataset condensation with contrastive signals)等方法提出比對真實資料集和合成資料集的梯度資訊的算法。 MTT(Dataset distillation by matching training trajectories)指出由于跨多個步驟的誤差累計,單次疊代的訓練誤差可能導緻較差的性能,提出在真實資料集上比對模型的長期動态訓練過程。除了比對梯度資訊的方法,DM(Dataset condensation with distribution matching)提出了比對資料集分布,具體方法是添加最大平均差異限制( Maximum Mean Discrepancy,MMD)。

本文方法将合成資料集分解為兩個部分:資料幻覺器網絡(Data Hallucination Network)和基礎資料(Bases)。資料幻覺器網絡将基礎資料作為輸入,輸出幻覺圖像(合成圖像)。在資料幻覺器網絡訓練過程中,本文考慮添加特殊設計的對比學習損失和一緻性損失。本文方法得到的合成資料集在跨架構任務中比基準方法取得了精度10%的提升

NIPS22|即插即用!資料集蒸餾新方法HaBa:顯著提升下遊模型性能

方法

NIPS22|即插即用!資料集蒸餾新方法HaBa:顯著提升下遊模型性能

基與幻覺器

先前資料集蒸餾方法中,為了在下遊模型中輸入和輸出的形狀保持一直,合成資料的形狀需要與真實資料相同。由于幻覺器網絡可以使用空間和通道變換,本文方法沒有形狀相同限制。

NIPS22|即插即用!資料集蒸餾新方法HaBa:顯著提升下遊模型性能

對抗性對比限制

本文的幻覺器網絡訓練過程是一個最小-最大博弈(min-max game)過程。最大化過程即最大化不同幻覺器間的差異。輸入xij在幻覺器最後一層的輸出定義為F−1(xij)。損失函數類似于對比學習,可以描述為:

NIPS22|即插即用!資料集蒸餾新方法HaBa:顯著提升下遊模型性能

分解訓練方法

與先前的資料集蒸餾方法訓練範式類似,合成資料集按照疊代算法更新。每一個疊代周期,随機選取幻覺器和基,形成若幹幻覺器-基組合。訓練的損失函數包含知識蒸餾損失與一緻性損失:

NIPS22|即插即用!資料集蒸餾新方法HaBa:顯著提升下遊模型性能

本文的資料集蒸餾損失函數采用MTT方法。核心思想是使用訓練周期為t的模型權重,使用合成資料集S訓練N次,使用真實資料集T訓練M次,通過損失函數使合成資料集更新的參數與真實資料集更新的參數保持一緻:

NIPS22|即插即用!資料集蒸餾新方法HaBa:顯著提升下遊模型性能

實驗

與SOTA方法的比較結果。比較的方法包括核心集算法(Coreset),資料集蒸餾方法(元學習方法DD、LD,訓練比對方法DC、DSA、DSA,分布比對方法DM、CAFE)和本文方法Factorization。超參數,每一類合成樣本數(IPC)[1,10,50],本文的每一類基數量(BPC)[1,9,49]。

下圖給出了實驗結果。可以看出本文方法取得了最高的精度,在合成資料集樣本數小于1%時性能差異最為顯著。

NIPS22|即插即用!資料集蒸餾新方法HaBa:顯著提升下遊模型性能

與不同合成資料集生成算法和不同卷積神經網絡模型組合的比較實驗。在AlexNet網絡的實驗中,本文的方法與MTT相比最高取得了17.57%的性能提升。

NIPS22|即插即用!資料集蒸餾新方法HaBa:顯著提升下遊模型性能

不同類别是否共享幻覺器的Ablation實驗。在相同的BPC條件下,較少的合成樣本數情況下不共享幻覺器的方法(w/o share)可以獲得更好的性能。較多的BPC情況下,不共享幻覺器方法不能獲得更好的性能。主要原因:1)共享幻覺器方法可以獲得資料集的全局資訊。2)不共享幻覺器的方法給優化過程較大的負擔

NIPS22|即插即用!資料集蒸餾新方法HaBa:顯著提升下遊模型性能

本文方法基和幻覺器生成圖像的可視化如下:

NIPS22|即插即用!資料集蒸餾新方法HaBa:顯著提升下遊模型性能

繼續閱讀