天天看點

[NeurIPS 2022] 基于動力學的深度主動學習

作者:機器學習與資料分析

導語

在人工智能的快速發展中,深度學習已成為衆多領域的重要工具,包括圖像識别、自然語言處理和預測模組化等。然而,深度學習模型通常需要大量的标記資料來進行訓練,這不僅消耗大量時間,而且需要大量的計算資源。這裡,主動學習(Active Learning)出現了,它通過智能地選擇有代表性的資料樣本來進行标記和訓練,進而減少了所需的資料量和計算成本。

[NeurIPS 2022] 基于動力學的深度主動學習

最近,一篇題為“Deep Active Learning by Leveraging Training Dynamics”的論文,發表在NeurIPS 2022,進一步推動了深度主動學習的研究。該研究來自伊利諾伊大學厄巴納-香槟分校和新南威爾士大學的合作,旨在探索如何通過利用神經網絡動力學來改善深度主動學習的效率。

[NeurIPS 2022] 基于動力學的深度主動學習

文章連結:https://arxiv.org/abs/2110.0861

介紹

深度學習,尤其是神經網絡模型,已經在各種任務中取得了卓越的表現。然而,它們的成功往往依賴于大量的标記資料,這使得它們在資料稀缺的情況下變得不太實用。此外,深度學習模型也常常需要大量的計算資源和時間來訓練,這增加了其應用的複雜性和成本。

主動學習作為一個解決方案,試圖通過智能地選擇最有價值的資料樣本來進行标記和訓練,進而減少所需的資料量和計算成本。然而,盡管主動學習已經在傳統的機器學習設定中得到了廣泛的研究,但其在深度學習場景中的應用仍然是一個相對較新和未開發的研究領域。

對于從經典理論(非神經網絡理論)角度來了解和分析主動學習,一個很大的問題是這些經典設定的理論分析可能不适用于過參數化的深度神經網絡,其中傳統的智慧是無效的。是以,從理論上講,這樣的分析很難指導我們設計實用的主動學習方法。此外,從經驗上看,深度主動學習,借鑒了經典理論和方法的觀察和見解,已經被觀察到無法在一些應用場景适用。

另一方面,神經網絡的優化和泛化性能的分析近年來在深度學習理論方面有了一些令人興奮的發展。使用梯度下降的深度神經網絡的訓練動态可以通過無限寬度網絡的神經切線核(NTK)來表征。這進一步被用來通過Rademacher複雜度分析來表征過參數化網絡的泛化。是以,我們受到啟發,提出這樣一個問題:

我們如何為深度神經網絡設計一個具有理論依據的實用和通用的主動學習方法?

為了回答這個問題,我們首先探讨了模型在測試資料上的性能與過參數化深度神經網絡在訓練資料上的收斂速度之間的關系。基于NTK架構,我們理論上展示了,如果一個深度神經網絡收斂得更快(“更快訓練”),那麼它往往具有更好的泛化性能(“更好泛化”):

我們通過Alignment來連接配接優化和泛化

[NeurIPS 2022] 基于動力學的深度主動學習

其中優化理論:

[NeurIPS 2022] 基于動力學的深度主動學習

連接配接橋梁:

[NeurIPS 2022] 基于動力學的深度主動學習

先看看優化和橋梁的關系:

[NeurIPS 2022] 基于動力學的深度主動學習

泛化理論:

[NeurIPS 2022] 基于動力學的深度主動學習

泛化和橋梁的關系:

[NeurIPS 2022] 基于動力學的深度主動學習

受到上述連接配接的啟發,我們首先引入訓練動力學,即訓練損失對疊代的導數,作為一個代理來定量描述訓練過程。在此基礎上,我們正式提出了我們的通用和理論驅動的深度主動學習方法,dynamicAL,它将為一組最大限度地增加訓練動态的未标記樣本查詢标簽。為了僅使用未标記樣本計算訓練動态,我們利用兩種放松方法,僞标簽和子集近似來解決這個非平凡的子集選擇問題。我們的放松方法能夠有效地估計訓練動态,并通過将複雜度從O(Nb)降低到O(b)來有效地解決子集選擇問題。

[NeurIPS 2022] 基于動力學的深度主動學習

關于實驗,我們通過在三個資料集上進行廣泛的實驗來實證驗證了我們的理論,這三個資料集是CIFAR10,SVHN和Caltech101,使用三種類型的網絡結構:CNN,ResNet和VGG。我們首先顯示子集近似提供的子集選擇問題的結果接近全局最優解。此外,在主動學習設定下,我們的方法不僅勝過其他基線,而且在大型深度學習模型上也具有很好的擴充性。

[NeurIPS 2022] 基于動力學的深度主動學習

總結

在這項工作中,我們彌合了深度神經網絡的理論發現和實際世界的深度主動學習應用之間的差距。通過探索泛化性能和訓練動态之間的關系,我們提出了一種基于理論的方法,dynamicAL,它選擇樣本以最大化訓練動态。我們證明,在超寬條件下,訓練的收斂速度和泛化性能是(積極地)強相關的,我們顯示最大化訓練動态将導緻更低的泛化誤差。從經驗上看,我們的工作表明,dynamicAL不僅在各種設定中始終勝過強基線,而且在大型深度學習模型上也具有很好的擴充性。