簡介

深度學習取得了巨大成功，訓練一般需要大量的資料。存儲、傳輸和資料集預處理成為大資料集使用的阻礙。另外釋出原始資料可能會有隐私版權等問題。

資料集蒸餾（Dataset Distillation）是一種解決方案，通過蒸餾一個資料集形成一個隻包含少量樣本的合成資料集，同時訓練成本顯著降低。資料集蒸餾可以用于持續學習、神經網絡架構搜尋等領域。

最早提出的資料集蒸餾算法核心思想即優化合成資料集，在下遊任務中最小化損失函數。DSA（ Dataset condensation with differentiable siamese augmentation）、GM（ Dataset condensation with gradient matching）、CS（Dataset condensation with contrastive signals）等方法提出比對真實資料集和合成資料集的梯度資訊的算法。 MTT（Dataset distillation by matching training trajectories）指出由于跨多個步驟的誤差累計，單次疊代的訓練誤差可能導緻較差的性能，提出在真實資料集上比對模型的長期動态訓練過程。除了比對梯度資訊的方法，DM（Dataset condensation with distribution matching）提出了比對資料集分布，具體方法是添加最大平均差異限制（ Maximum Mean Discrepancy，MMD）。

本文方法将合成資料集分解為兩個部分：資料幻覺器網絡（Data Hallucination Network）和基礎資料（Bases）。資料幻覺器網絡将基礎資料作為輸入，輸出幻覺圖像（合成圖像）。在資料幻覺器網絡訓練過程中，本文考慮添加特殊設計的對比學習損失和一緻性損失。本文方法得到的合成資料集在跨架構任務中比基準方法取得了精度10%的提升

方法

基與幻覺器

先前資料集蒸餾方法中，為了在下遊模型中輸入和輸出的形狀保持一直，合成資料的形狀需要與真實資料相同。由于幻覺器網絡可以使用空間和通道變換，本文方法沒有形狀相同限制。

對抗性對比限制

本文的幻覺器網絡訓練過程是一個最小-最大博弈（min-max game）過程。最大化過程即最大化不同幻覺器間的差異。輸入xij在幻覺器最後一層的輸出定義為F−1(xij)。損失函數類似于對比學習，可以描述為:

分解訓練方法

與先前的資料集蒸餾方法訓練範式類似，合成資料集按照疊代算法更新。每一個疊代周期，随機選取幻覺器和基，形成若幹幻覺器-基組合。訓練的損失函數包含知識蒸餾損失與一緻性損失：

本文的資料集蒸餾損失函數采用MTT方法。核心思想是使用訓練周期為t的模型權重，使用合成資料集S訓練N次，使用真實資料集T訓練M次，通過損失函數使合成資料集更新的參數與真實資料集更新的參數保持一緻：

實驗

與SOTA方法的比較結果。比較的方法包括核心集算法（Coreset）,資料集蒸餾方法（元學習方法DD、LD，訓練比對方法DC、DSA、DSA，分布比對方法DM、CAFE）和本文方法Factorization。超參數，每一類合成樣本數（IPC）[1，10，50]，本文的每一類基數量（BPC）[1，9，49]。

下圖給出了實驗結果。可以看出本文方法取得了最高的精度，在合成資料集樣本數小于1%時性能差異最為顯著。

與不同合成資料集生成算法和不同卷積神經網絡模型組合的比較實驗。在AlexNet網絡的實驗中，本文的方法與MTT相比最高取得了17.57%的性能提升。

不同類别是否共享幻覺器的Ablation實驗。在相同的BPC條件下，較少的合成樣本數情況下不共享幻覺器的方法（w/o share）可以獲得更好的性能。較多的BPC情況下，不共享幻覺器方法不能獲得更好的性能。主要原因：1）共享幻覺器方法可以獲得資料集的全局資訊。2）不共享幻覺器的方法給優化過程較大的負擔

本文方法基和幻覺器生成圖像的可視化如下：

NIPS22｜即插即用！資料集蒸餾新方法HaBa：顯著提升下遊模型性能

簡介

方法

基與幻覺器

對抗性對比限制

分解訓練方法

實驗

繼續閱讀

保時捷991.2/992無損動力更新！無損動力解鎖第一步！保時捷991.2/992加裝RACECHIPGTSBLACK外

#約克水生态中央空調#約克水系統中央空調#約克水生态中央空調地暖二合一#約克中央空調#科特時控約克YVAG、YVAS、Y

Gartner釋出《2023年新興技術影響力雷達》，包含4個主題26項技術！報告中提到基礎模型和圖形技術等人工智能技術的

雷柏（Rapoo）VH10RGB律動幻彩背光遊戲電競耳機支架（多接口型）幻彩RGB拾音聲控節奏燈，玩出個性；RGB拾音氛

谷歌大腦開源最強調參指南。強烈推薦谷歌大腦團隊最近開源的深度學習調參指南，目前已獲得9K個星标。這份指南主要介紹如何調整

WiFi/4G聯網，即插即用；遠端開關機，模式切換，水溫設定，故障報警，故障複位APP版本：鴻蒙、安卓、蘋果iOS。#約

投影儀接口介紹投影儀常用的接口主要有：HDMI、AV、USB、VGA、YPbPr、TF、SD、DVI、網口等。其中HDM

現在越來越多的人開始用藍牙耳機，手機上也取消了3.5mm耳機接口，不過仍然有少部分HiFi發燒友在堅持用有線耳機。想要用

華為NM存儲卡是一種華為研發的、專門為華為手機設計的擴充存儲卡。它使用了NanoMemoryCard（NM）技術，提供了

因工作的需求，有很多大容量檔案需要存檔，平時也會跟同僚有頻繁的資料傳輸需求，小容量U盤已經無法滿足需求，是以移動硬碟是剛

吉時利2601B源表單通道型号具有40W功率輸出-4象限源/測量具有6位半分辨率-電流最大值/最小值：3A直流、10A脈

高速存儲，記錄創意時刻！#數位好物薦#優越者2.5英寸硬碟盒S233A✅硬碟安裝免工具，即插即用；✅USB3.0高速讀寫

MFC中，彈窗選擇确定還是取消

IO_REMOVE_LOCK（删除鎖）

适用于任意模糊核心的深度即插即用超分辨率（DPSR論文筆記-2019CVPR）

兩鍵的成本效益高，即插即用複制粘貼，還可以自定義。辦公必備#好物推薦🔥#遊戲#辦公#賽博朋克#改造