天天看点

[NeurIPS 2022] 基于动力学的深度主动学习

作者:机器学习与数据分析

导语

在人工智能的快速发展中,深度学习已成为众多领域的重要工具,包括图像识别、自然语言处理和预测建模等。然而,深度学习模型通常需要大量的标记数据来进行训练,这不仅消耗大量时间,而且需要大量的计算资源。这里,主动学习(Active Learning)出现了,它通过智能地选择有代表性的数据样本来进行标记和训练,从而减少了所需的数据量和计算成本。

[NeurIPS 2022] 基于动力学的深度主动学习

最近,一篇题为“Deep Active Learning by Leveraging Training Dynamics”的论文,发表在NeurIPS 2022,进一步推动了深度主动学习的研究。该研究来自伊利诺伊大学厄巴纳-香槟分校和新南威尔士大学的合作,旨在探索如何通过利用神经网络动力学来改善深度主动学习的效率。

[NeurIPS 2022] 基于动力学的深度主动学习

文章链接:https://arxiv.org/abs/2110.0861

介绍

深度学习,尤其是神经网络模型,已经在各种任务中取得了卓越的表现。然而,它们的成功往往依赖于大量的标记数据,这使得它们在数据稀缺的情况下变得不太实用。此外,深度学习模型也常常需要大量的计算资源和时间来训练,这增加了其应用的复杂性和成本。

主动学习作为一个解决方案,试图通过智能地选择最有价值的数据样本来进行标记和训练,从而减少所需的数据量和计算成本。然而,尽管主动学习已经在传统的机器学习设置中得到了广泛的研究,但其在深度学习场景中的应用仍然是一个相对较新和未开发的研究领域。

对于从经典理论(非神经网络理论)角度来理解和分析主动学习,一个很大的问题是这些经典设置的理论分析可能不适用于过参数化的深度神经网络,其中传统的智慧是无效的。因此,从理论上讲,这样的分析很难指导我们设计实用的主动学习方法。此外,从经验上看,深度主动学习,借鉴了经典理论和方法的观察和见解,已经被观察到无法在一些应用场景适用。

另一方面,神经网络的优化和泛化性能的分析近年来在深度学习理论方面有了一些令人兴奋的发展。使用梯度下降的深度神经网络的训练动态可以通过无限宽度网络的神经切线核(NTK)来表征。这进一步被用来通过Rademacher复杂度分析来表征过参数化网络的泛化。因此,我们受到启发,提出这样一个问题:

我们如何为深度神经网络设计一个具有理论依据的实用和通用的主动学习方法?

为了回答这个问题,我们首先探讨了模型在测试数据上的性能与过参数化深度神经网络在训练数据上的收敛速度之间的关系。基于NTK框架,我们理论上展示了,如果一个深度神经网络收敛得更快(“更快训练”),那么它往往具有更好的泛化性能(“更好泛化”):

我们通过Alignment来连接优化和泛化

[NeurIPS 2022] 基于动力学的深度主动学习

其中优化理论:

[NeurIPS 2022] 基于动力学的深度主动学习

连接桥梁:

[NeurIPS 2022] 基于动力学的深度主动学习

先看看优化和桥梁的关系:

[NeurIPS 2022] 基于动力学的深度主动学习

泛化理论:

[NeurIPS 2022] 基于动力学的深度主动学习

泛化和桥梁的关系:

[NeurIPS 2022] 基于动力学的深度主动学习

受到上述连接的启发,我们首先引入训练动力学,即训练损失对迭代的导数,作为一个代理来定量描述训练过程。在此基础上,我们正式提出了我们的通用和理论驱动的深度主动学习方法,dynamicAL,它将为一组最大限度地增加训练动态的未标记样本查询标签。为了仅使用未标记样本计算训练动态,我们利用两种放松方法,伪标签和子集近似来解决这个非平凡的子集选择问题。我们的放松方法能够有效地估计训练动态,并通过将复杂度从O(Nb)降低到O(b)来有效地解决子集选择问题。

[NeurIPS 2022] 基于动力学的深度主动学习

关于实验,我们通过在三个数据集上进行广泛的实验来实证验证了我们的理论,这三个数据集是CIFAR10,SVHN和Caltech101,使用三种类型的网络结构:CNN,ResNet和VGG。我们首先显示子集近似提供的子集选择问题的结果接近全局最优解。此外,在主动学习设置下,我们的方法不仅胜过其他基线,而且在大型深度学习模型上也具有很好的扩展性。

[NeurIPS 2022] 基于动力学的深度主动学习

总结

在这项工作中,我们弥合了深度神经网络的理论发现和实际世界的深度主动学习应用之间的差距。通过探索泛化性能和训练动态之间的关系,我们提出了一种基于理论的方法,dynamicAL,它选择样本以最大化训练动态。我们证明,在超宽条件下,训练的收敛速度和泛化性能是(积极地)强相关的,我们显示最大化训练动态将导致更低的泛化误差。从经验上看,我们的工作表明,dynamicAL不仅在各种设置中始终胜过强基线,而且在大型深度学习模型上也具有很好的扩展性。