天天看點

論文筆記-Semi-Supervised Learning by Augmented Distribution Alignment

論文資訊

  • 論文标題:Semi-Supervised Learning by Augmented Distribution Alignment
  • 論文作者:Qin Wang, Wen Li, Luc Van Gool
  • 研究機構:ETH Zurich; KU Leuven
  • 論文出處:ICCV 2019
  • 引用資訊:
    @inproceedings{DBLP:conf/iccv/WangLG19,
      author    = {Qin Wang and
                   Wen Li and
                   Luc Van Gool},
      title     = {Semi-Supervised Learning by Augmented Distribution Alignment},
      booktitle = {2019 {IEEE/CVF} International Conference on Computer Vision, {ICCV}
                   2019, Seoul, Korea (South), October 27 - November 2, 2019},
      pages     = {1466--1475},
      publisher = {{IEEE}},
      year      = {2019},
      url       = {https://doi.org/10.1109/ICCV.2019.00155},
      doi       = {10.1109/ICCV.2019.00155},
      timestamp = {Thu, 05 Mar 2020 13:43:22 +0100},
      biburl    = {https://dblp.org/rec/conf/iccv/WangLG19.bib},
      bibsource = {dblp computer science bibliography, https://dblp.org}
    }
               
  • 代碼連結:https://github.com/qinenergy/adanet

論文主要貢獻和參考價值

  • 主要貢獻:
    • (1)提出新的了解半監督學習中的實際分布不比對問題,實際分布不比對問題再 SSL 場景中是廣泛存在的,但是現有的 SSL 方法都沒有揭露這個問題;
    • (2)提出增強分布對齊方法,顯式地解決 SSL 中的實際分布不比對的我呢提;
    • (3)提出的方法可以簡單地在現有的 SSL 架構中實作;(4)提出的方法是簡單有效的,達到了新的 SOTA 分類性能
  • 參考價值:
    • 特征空間對齊
  • 資料分布差異的解決?MMD 擴充

    論文要點翻譯

    • 摘要
      • 本文提出簡單有效的半監督學習方法,稱之為增強分布對齊,本文研究表明,由于标注資料有限,半監督學習中必然存在采樣偏差,這通常會導緻實際的标簽資料和無标簽資料的不比對問題
      • 本文提出對于實際的标注資料和無标注資料進行分布對齊,減少這種采樣的偏差:一方面,采用對抗學習政策最小化标注資料和無标注資料之間的分布距離,這一點和其他的域适應方法是類似的;另一方面,為了處理标注資料樣本數量較少的問題,本文提出簡單的插值政策用于生成僞資料樣本,兩個政策的結合可以在現有的神經網絡中簡單實作
      • 本文說明本文的方法在 SVHN 和 CIFAR10 上具有實際效果
    • 引言
      • 半監督學習 SSL 主要目标在于利用有限數量的标注資料和大量的無标注資料學習魯棒的模型,在傳統的分類問題中,機器學習和計算機視覺領域都已經對半監督學習提出許多研究,其中的很多方法包括标簽傳播、圖正則化等,最近關于神經網絡的半監督訓練場景成為研究熱點,由于傳統的深度學習具有資料密集的本質,導緻對于标注資料有較大的需求,而标注資料通常需要一定代價
      • 雖然很多方法已經提出使用無标注資料改進模型,其中的半監督學習算法的樣本偏差的問題很少有文獻提到,也就是說,标注資料的實際分布通常和真實樣本的分布之間有差異,這主要是由于标注資料樣本大小有限,本文使用經典的雙月資料進行說明
      • 左下角畫出的 6 個标注資料點,以及中下的 1000 個無标注資料樣本,可觀察到,雙月結構可以通過大量樣本充分描述,但是由于采樣的随機性和樣本大小的限制,很難利用标注資料描述真實的樣本空間分布,即使兩個資料都是從雙月資料分布中采樣得到的,在實際的分布中,标注資料和無标注資料之間也存在許多差異,如圖中的左上角和中上的在 x 軸的投影圖所示
      • 相似的實際分布的不比對問題也在真實的半監督學習資料集中存在,在域适應網絡中觀察到,當運用到一個差異較大的資料域時,模型的性能可能大幅度下降,是以,SSL 模型也會受到标注資料和無标注資料之間的分布差異的影響,标簽傳播也可能存在問題
      • 為了解決上述問題,本文提出顯式地降低實際 SSL 分布不比對的問題,具體而言,設計了簡單有效的成為增強分布對齊的方式(1)一方面,采用對抗學習政策将标注資料和無标注資料之間的差異最小化,使得兩者在隐空間的分布盡可能對齊;(2)另一方面,為了減少小樣本空間帶來的影響,增強資料的分布對齊,幫你問提出的資料增強政策用于在标注資料和無标注資料之間通過插值生成僞樣本。此外,值得一提的是,兩個政策的實作都是簡單的,其中的對抗學習政策可以使用簡單的梯度反向層實作,是以,可以将其直接在現有的網絡基礎上進行改進;本文在 SVHN 和 CIFAR10 資料集上說明了提出方法的喲小型,達到了新的分類問題的 SOTA 性能
      • 本文主要貢獻包括:(1)提出新的了解半監督學習中的實際分布不比對問題,實際分布不比對問題再 SSL 場景中是廣泛存在的,但是現有的 SSL 方法都沒有揭露這個問題;(2)提出增強分布對齊方法,顯式地解決 SSL 中的實際分布不比對的我呢提;(3)提出的方法可以簡單地在現有的 SSL 架構中實作;(4)提出的方法是簡單有效的,達到了新的 SOTA 分類性能
    • 相關工作
      • 半監督學習:标簽傳播、圖正則化、協同訓練等,【55】提供了全面的綜述文章,最近的關于深度學習網絡中的半監督學習;DNN 的資料密集本質;對無标注資料的處理;正則化技巧;自訓練思想;和之前方法不同,本文的解決思路是之前的文獻中沒有考慮的實際分布不比對的問題,新提出的增強的分布對齊技巧可以在簡單的神經網絡上使其改進達到現有方法的 SOTA 性能,由于處理的思路是新的方式,方法是其他方法的補充,可以進一步增強這些方法的性能
      • 采樣偏差問題:采樣偏差一般在監督學習和域适應場景中讨論,提出的主要是在學習過程中衡量或者解決樣本采樣偏差的問題,最近在 GAN 的幫助下,對抗學習政策也被廣泛用于處理實際分布不比對問題,但是主要在域适應場景中使用,雖然人們假設兩個域資料從兩個不同分布采樣的,實際上 SSL 中的标注資料和無标注資料是從相同分布中采樣的,減少域分布不比對的方法可以用于解決 SSL 中的實際分布不比對的問題,本文使用 【16】 提出的對抗學習政策,潛在的挑戰在于本文條件中的樣本數量較少,導緻對齊分布的支援度不足,為此,本文添加了樣本增強政策
      • 其他相關工作:基于資料增強方法的插值、對齊分布,使用僞标簽,本文主要使用無标注樣本的僞标簽,通過結合有标簽資料和無标簽資料的插值過程,實際分布可以更為接近
    • 問題描述和動機
      • 給定的标注标簽資料 D l = { ( x i l , y i ) } i = 1 n \mathcal D_l=\{(x_i^l,y_i)\}_{i=1}^n Dl​={(xil​,yi​)}i=1n​ 和無标注樣本資料 D u = { x i u } i = 1 m \mathcal D_u=\{x_i^u\}_{i=1}^m Du​={xiu​}i=1m​ 其中的 m ≫ n m \gg n m≫n
      • SSL 中的實際分布不比對問題
        • SSL 中,标注的訓練樣本和無标注樣本是同一個分布采樣得到的,但是由于訓練的标注樣本數量太少,實際分布可能和觀察到的分布之間存在一定的差異
        • 精确來說,本文使用雙月資料作為說明,如引言所述,由于樣本數量較少,當随機采樣許多輪後,可以觀測到每次采樣拟合的實際标注資料的分布變化都是顯著的
        • 這個現象實際是可以通過最大均值差異衡量兩個采樣集合之間的距離的,在 SSL 中,潛在的标注資料和無标注資料的分布假定是相同,标注資料和無标注資料之間如果兩個采樣集合足夠大,則 MMD 應當會消失
        • 在 SSL 場景中,标注資料的樣本通常較小,這是導緻實際的标注樣本和無标注樣本之間的分布差異的主要原因,本文将不同大小的資料樣本數量對應的 MMD 圖畫出
        • 可以發現,當标注資料樣本數量足夠大時,MMD 的值會變得很小,這說明在 SSL 中的實際樣本的分布不比對主要原因就是樣本數量導緻的,雖然傳統的 SSL 方法利用不同的政策從無标注資料出發處理這個問題,但是都沒有真正考慮到實際分布不一緻的問題,這也是傳統 SSL 方法不穩定的主要原因
      • 對實際分布不比對問題的解決
        • 為了克服上述的實際分布不比對問題,本文提出增強分布對齊方法,除了利用标注資料的監督信号訓練網絡之外,本文同時試圖最小化标注資料和無标注資料之間的分布散度,使得實際的标注資料和無标注資料之間可以在隐空間對齊
        • 本文将損失函數表示為 ℓ ( f ( x i l ) , y i ) \ell(f(x_i^l),y_i) ℓ(f(xil​),yi​) 其中的 f 是需要學習的分類器,本文定義 Ω ( D l , D u ) \Omega(\mathcal D_l,\mathcal D_u) Ω(Dl​,Du​) 為兩個資料集合之間的分布散度,是以,本文的思想可以形式化為最小化目标函數 min ⁡ f ∑ i = 1 n ℓ ( f ( x i l ) , y i ) + γ Ω ( D l , D u ) \min\limits_{f}\sum\limits_{i=1}^n \ell(f(x_i^l),y_i)+\gamma\Omega(\mathcal D_l,\mathcal D_u) fmin​i=1∑n​ℓ(f(xil​),yi​)+γΩ(Dl​,Du​)
        • 上述目标的主要問題在于标注資料的樣本數量過少,為了解決這個問題,本文提出資料增強政策,受到 mixup 中的方法其實,通過在标注資料和無标注資料之間進行插值得到新的訓練資料,将這些資料用于訓練分類器,以減少實際分布散度
      • SSL 中的增強分布對齊
        • 對抗式分布對齊
          • 本文使用 H \mathcal H H 散度衡量分布之間的散度,将 g ( ⋅ ) g(\cdot) g(⋅) 用于表示特征提取器(多個卷積層),将樣本資料映射到特征空間,其中的 h : g ( x ) → { 0 , 1 } h:g(x)\to \{0,1\} h:g(x)→{0,1} 表示二進制判别器,判斷樣本是标注樣本還是無标注樣本,其中的散度可以寫為 d H ( D l , D u ) = 2 ( 1 − min ⁡ h ∈ H [ e r r ( h , g , D l ) + e r r ( h , g , D u ) ] ) d_{\mathcal H}(D_l,D_u)=2(1-\min_{h \in \mathcal H}[err(h,g,D_l)+err(h,g,D_u)]) dH​(Dl​,Du​)=2(1−minh∈H​[err(h,g,Dl​)+err(h,g,Du​)]),其中的 err 表示預測誤差
          • 直覺上,當實際分布不比對問題嚴重時,判别器對标注資料和無标注資料可以容易區分,是以,為了減少這個分布不比對問題,本文主要通過最小分布距離使得特征提取器提取的特征在兩個集合特征上可以較好地對齊
          • 即對于上述的散度,g 對器最大化,h 最小化,這樣的最大最小問題即可通過對抗訓練的方式進行訓練
        • 多集合樣本增強:受限于标注資料的樣本數量,優化過程可能不穩定,為了增強對齊,本文提出産生新的訓練樣本,主要通過在标注資料和五表述資料之間的插值
          • 具體而言,對于每個 x u x^u xu ,對其指派一個僞标簽 y ^ u \hat y^u y^​u ,主要利用之前訓練網絡進行預測,然後給定标簽樣本和無标簽樣本,插值過程可以表示為 (1) x ~ = λ x l + ( 1 − λ ) x u \tilde x=\lambda x^l+(1-\lambda)x^u x~=λxl+(1−λ)xu (2) y ~ = λ y l + ( 1 − λ ) y ^ u \tilde y=\lambda y^l+(1-\lambda)\hat y^u y~​=λyl+(1−λ)y^​u (3) z ~ = λ ⋅ 0 + ( 1 − λ ) ⋅ 1 \tilde z=\lambda \cdot 0+(1-\lambda)\cdot 1 z~=λ⋅0+(1−λ)⋅1
          • 上述的跨集合的樣本增強好處在于:(1)插值樣本可以擴大訓練集合;(2)幫助提高模型魯棒性
          • 将 p l p_l pl​ 和 p u p_u pu​ 分别表示實際的标注資料和無标注資料的分布,則其泛化的能量距離的歐氏距離形式可以寫為 J 2 ( p l , p u ) = E [ ∥ x l − x u ∥ 2 ] − E [ ∥ x l − x l ′ ∥ 2 − E [ ∥ x u − x u ′ ∥ 2 ] ] J^2(p_l,p_u)=\mathbb E[\|x^l-x^u\|^2]-\mathbb E[\|x^l-x^{l'}\|^2-\mathbb E[\|x^u-x^{u'}\|^2]] J2(pl​,pu​)=E[∥xl−xu∥2]−E[∥xl−xl′∥2−E[∥xu−xu′∥2]]

繼續閱讀