天天看点

论文笔记-Semi-Supervised Learning by Augmented Distribution Alignment

论文信息

  • 论文标题:Semi-Supervised Learning by Augmented Distribution Alignment
  • 论文作者:Qin Wang, Wen Li, Luc Van Gool
  • 研究机构:ETH Zurich; KU Leuven
  • 论文出处:ICCV 2019
  • 引用信息:
    @inproceedings{DBLP:conf/iccv/WangLG19,
      author    = {Qin Wang and
                   Wen Li and
                   Luc Van Gool},
      title     = {Semi-Supervised Learning by Augmented Distribution Alignment},
      booktitle = {2019 {IEEE/CVF} International Conference on Computer Vision, {ICCV}
                   2019, Seoul, Korea (South), October 27 - November 2, 2019},
      pages     = {1466--1475},
      publisher = {{IEEE}},
      year      = {2019},
      url       = {https://doi.org/10.1109/ICCV.2019.00155},
      doi       = {10.1109/ICCV.2019.00155},
      timestamp = {Thu, 05 Mar 2020 13:43:22 +0100},
      biburl    = {https://dblp.org/rec/conf/iccv/WangLG19.bib},
      bibsource = {dblp computer science bibliography, https://dblp.org}
    }
               
  • 代码链接:https://github.com/qinenergy/adanet

论文主要贡献和参考价值

  • 主要贡献:
    • (1)提出新的理解半监督学习中的实际分布不匹配问题,实际分布不匹配问题再 SSL 场景中是广泛存在的,但是现有的 SSL 方法都没有揭露这个问题;
    • (2)提出增强分布对齐方法,显式地解决 SSL 中的实际分布不匹配的我呢提;
    • (3)提出的方法可以简单地在现有的 SSL 框架中实现;(4)提出的方法是简单有效的,达到了新的 SOTA 分类性能
  • 参考价值:
    • 特征空间对齐
  • 数据分布差异的解决?MMD 扩展

    论文要点翻译

    • 摘要
      • 本文提出简单有效的半监督学习方法,称之为增强分布对齐,本文研究表明,由于标注数据有限,半监督学习中必然存在采样偏差,这通常会导致实际的标签数据和无标签数据的不匹配问题
      • 本文提出对于实际的标注数据和无标注数据进行分布对齐,减少这种采样的偏差:一方面,采用对抗学习策略最小化标注数据和无标注数据之间的分布距离,这一点和其他的域适应方法是类似的;另一方面,为了处理标注数据样本数量较少的问题,本文提出简单的插值策略用于生成伪数据样本,两个策略的结合可以在现有的神经网络中简单实现
      • 本文说明本文的方法在 SVHN 和 CIFAR10 上具有实际效果
    • 引言
      • 半监督学习 SSL 主要目标在于利用有限数量的标注数据和大量的无标注数据学习鲁棒的模型,在传统的分类问题中,机器学习和计算机视觉领域都已经对半监督学习提出许多研究,其中的很多方法包括标签传播、图正则化等,最近关于神经网络的半监督训练场景成为研究热点,由于传统的深度学习具有数据密集的本质,导致对于标注数据有较大的需求,而标注数据通常需要一定代价
      • 虽然很多方法已经提出使用无标注数据改进模型,其中的半监督学习算法的样本偏差的问题很少有文献提到,也就是说,标注数据的实际分布通常和真实样本的分布之间有差异,这主要是由于标注数据样本大小有限,本文使用经典的双月数据进行说明
      • 左下角画出的 6 个标注数据点,以及中下的 1000 个无标注数据样本,可观察到,双月结构可以通过大量样本充分描述,但是由于采样的随机性和样本大小的限制,很难利用标注数据描述真实的样本空间分布,即使两个数据都是从双月数据分布中采样得到的,在实际的分布中,标注数据和无标注数据之间也存在许多差异,如图中的左上角和中上的在 x 轴的投影图所示
      • 相似的实际分布的不匹配问题也在真实的半监督学习数据集中存在,在域适应网络中观察到,当运用到一个差异较大的数据域时,模型的性能可能大幅度下降,因此,SSL 模型也会受到标注数据和无标注数据之间的分布差异的影响,标签传播也可能存在问题
      • 为了解决上述问题,本文提出显式地降低实际 SSL 分布不匹配的问题,具体而言,设计了简单有效的成为增强分布对齐的方式(1)一方面,采用对抗学习策略将标注数据和无标注数据之间的差异最小化,使得两者在隐空间的分布尽可能对齐;(2)另一方面,为了减少小样本空间带来的影响,增强数据的分布对齐,帮你问提出的数据增强策略用于在标注数据和无标注数据之间通过插值生成伪样本。此外,值得一提的是,两个策略的实现都是简单的,其中的对抗学习策略可以使用简单的梯度反向层实现,因此,可以将其直接在现有的网络基础上进行改进;本文在 SVHN 和 CIFAR10 数据集上说明了提出方法的哟小型,达到了新的分类问题的 SOTA 性能
      • 本文主要贡献包括:(1)提出新的理解半监督学习中的实际分布不匹配问题,实际分布不匹配问题再 SSL 场景中是广泛存在的,但是现有的 SSL 方法都没有揭露这个问题;(2)提出增强分布对齐方法,显式地解决 SSL 中的实际分布不匹配的我呢提;(3)提出的方法可以简单地在现有的 SSL 框架中实现;(4)提出的方法是简单有效的,达到了新的 SOTA 分类性能
    • 相关工作
      • 半监督学习:标签传播、图正则化、协同训练等,【55】提供了全面的综述文章,最近的关于深度学习网络中的半监督学习;DNN 的数据密集本质;对无标注数据的处理;正则化技巧;自训练思想;和之前方法不同,本文的解决思路是之前的文献中没有考虑的实际分布不匹配的问题,新提出的增强的分布对齐技巧可以在简单的神经网络上使其改进达到现有方法的 SOTA 性能,由于处理的思路是新的方式,方法是其他方法的补充,可以进一步增强这些方法的性能
      • 采样偏差问题:采样偏差一般在监督学习和域适应场景中讨论,提出的主要是在学习过程中衡量或者解决样本采样偏差的问题,最近在 GAN 的帮助下,对抗学习策略也被广泛用于处理实际分布不匹配问题,但是主要在域适应场景中使用,虽然人们假设两个域数据从两个不同分布采样的,实际上 SSL 中的标注数据和无标注数据是从相同分布中采样的,减少域分布不匹配的方法可以用于解决 SSL 中的实际分布不匹配的问题,本文使用 【16】 提出的对抗学习策略,潜在的挑战在于本文条件中的样本数量较少,导致对齐分布的支持度不足,为此,本文添加了样本增强策略
      • 其他相关工作:基于数据增强方法的插值、对齐分布,使用伪标签,本文主要使用无标注样本的伪标签,通过结合有标签数据和无标签数据的插值过程,实际分布可以更为接近
    • 问题描述和动机
      • 给定的标注标签数据 D l = { ( x i l , y i ) } i = 1 n \mathcal D_l=\{(x_i^l,y_i)\}_{i=1}^n Dl​={(xil​,yi​)}i=1n​ 和无标注样本数据 D u = { x i u } i = 1 m \mathcal D_u=\{x_i^u\}_{i=1}^m Du​={xiu​}i=1m​ 其中的 m ≫ n m \gg n m≫n
      • SSL 中的实际分布不匹配问题
        • SSL 中,标注的训练样本和无标注样本是同一个分布采样得到的,但是由于训练的标注样本数量太少,实际分布可能和观察到的分布之间存在一定的差异
        • 精确来说,本文使用双月数据作为说明,如引言所述,由于样本数量较少,当随机采样许多轮后,可以观测到每次采样拟合的实际标注数据的分布变化都是显著的
        • 这个现象实际是可以通过最大均值差异衡量两个采样集合之间的距离的,在 SSL 中,潜在的标注数据和无标注数据的分布假定是相同,标注数据和无标注数据之间如果两个采样集合足够大,则 MMD 应当会消失
        • 在 SSL 场景中,标注数据的样本通常较小,这是导致实际的标注样本和无标注样本之间的分布差异的主要原因,本文将不同大小的数据样本数量对应的 MMD 图画出
        • 可以发现,当标注数据样本数量足够大时,MMD 的值会变得很小,这说明在 SSL 中的实际样本的分布不匹配主要原因就是样本数量导致的,虽然传统的 SSL 方法利用不同的策略从无标注数据出发处理这个问题,但是都没有真正考虑到实际分布不一致的问题,这也是传统 SSL 方法不稳定的主要原因
      • 对实际分布不匹配问题的解决
        • 为了克服上述的实际分布不匹配问题,本文提出增强分布对齐方法,除了利用标注数据的监督信号训练网络之外,本文同时试图最小化标注数据和无标注数据之间的分布散度,使得实际的标注数据和无标注数据之间可以在隐空间对齐
        • 本文将损失函数表示为 ℓ ( f ( x i l ) , y i ) \ell(f(x_i^l),y_i) ℓ(f(xil​),yi​) 其中的 f 是需要学习的分类器,本文定义 Ω ( D l , D u ) \Omega(\mathcal D_l,\mathcal D_u) Ω(Dl​,Du​) 为两个数据集合之间的分布散度,因此,本文的思想可以形式化为最小化目标函数 min ⁡ f ∑ i = 1 n ℓ ( f ( x i l ) , y i ) + γ Ω ( D l , D u ) \min\limits_{f}\sum\limits_{i=1}^n \ell(f(x_i^l),y_i)+\gamma\Omega(\mathcal D_l,\mathcal D_u) fmin​i=1∑n​ℓ(f(xil​),yi​)+γΩ(Dl​,Du​)
        • 上述目标的主要问题在于标注数据的样本数量过少,为了解决这个问题,本文提出数据增强策略,受到 mixup 中的方法其实,通过在标注数据和无标注数据之间进行插值得到新的训练数据,将这些数据用于训练分类器,以减少实际分布散度
      • SSL 中的增强分布对齐
        • 对抗式分布对齐
          • 本文使用 H \mathcal H H 散度衡量分布之间的散度,将 g ( ⋅ ) g(\cdot) g(⋅) 用于表示特征提取器(多个卷积层),将样本数据映射到特征空间,其中的 h : g ( x ) → { 0 , 1 } h:g(x)\to \{0,1\} h:g(x)→{0,1} 表示二元判别器,判断样本是标注样本还是无标注样本,其中的散度可以写为 d H ( D l , D u ) = 2 ( 1 − min ⁡ h ∈ H [ e r r ( h , g , D l ) + e r r ( h , g , D u ) ] ) d_{\mathcal H}(D_l,D_u)=2(1-\min_{h \in \mathcal H}[err(h,g,D_l)+err(h,g,D_u)]) dH​(Dl​,Du​)=2(1−minh∈H​[err(h,g,Dl​)+err(h,g,Du​)]),其中的 err 表示预测误差
          • 直观上,当实际分布不匹配问题严重时,判别器对标注数据和无标注数据可以容易区分,因此,为了减少这个分布不匹配问题,本文主要通过最小分布距离使得特征提取器提取的特征在两个集合特征上可以较好地对齐
          • 即对于上述的散度,g 对器最大化,h 最小化,这样的最大最小问题即可通过对抗训练的方式进行训练
        • 多集合样本增强:受限于标注数据的样本数量,优化过程可能不稳定,为了增强对齐,本文提出产生新的训练样本,主要通过在标注数据和五表述数据之间的插值
          • 具体而言,对于每个 x u x^u xu ,对其指派一个伪标签 y ^ u \hat y^u y^​u ,主要利用之前训练网络进行预测,然后给定标签样本和无标签样本,插值过程可以表示为 (1) x ~ = λ x l + ( 1 − λ ) x u \tilde x=\lambda x^l+(1-\lambda)x^u x~=λxl+(1−λ)xu (2) y ~ = λ y l + ( 1 − λ ) y ^ u \tilde y=\lambda y^l+(1-\lambda)\hat y^u y~​=λyl+(1−λ)y^​u (3) z ~ = λ ⋅ 0 + ( 1 − λ ) ⋅ 1 \tilde z=\lambda \cdot 0+(1-\lambda)\cdot 1 z~=λ⋅0+(1−λ)⋅1
          • 上述的跨集合的样本增强好处在于:(1)插值样本可以扩大训练集合;(2)帮助提高模型鲁棒性
          • 将 p l p_l pl​ 和 p u p_u pu​ 分别表示实际的标注数据和无标注数据的分布,则其泛化的能量距离的欧氏距离形式可以写为 J 2 ( p l , p u ) = E [ ∥ x l − x u ∥ 2 ] − E [ ∥ x l − x l ′ ∥ 2 − E [ ∥ x u − x u ′ ∥ 2 ] ] J^2(p_l,p_u)=\mathbb E[\|x^l-x^u\|^2]-\mathbb E[\|x^l-x^{l'}\|^2-\mathbb E[\|x^u-x^{u'}\|^2]] J2(pl​,pu​)=E[∥xl−xu∥2]−E[∥xl−xl′∥2−E[∥xu−xu′∥2]]

继续阅读