天天看點

弱監督學習入門

确定之後的研究方向為弱監督學習,找到了這篇弱監督學習入門的文章,真的是梳理的很清楚。作者在文中也說相比于論文這篇文章更像是綜述索引,可以以此為根據進行後續的學習

(以下為自己對文章各個子產品的了解非翻譯)

論文連結

–Abstract

       機器學習尤其是深度學習的方法已經發展的非常成功,但是大部分的模型都極度依賴與龐大的資料集,在實際應用過程中由于諸多因素導緻無法擷取足夠充足,達到标準的資料集。是以引出了研究問題,對于不标準或不優質的資料集處理尤為重要。

在此篇文章中作者将弱監督學分為幾類

  1. 不完全監督(incomplete supervision)
  2. 不确切監督I(inexact supervision)
  3. 不準确監督(inaccurate supervision)

–Introduction

1.不完全監督(incomplete supervision)

       指的是訓練資料隻有部分是帶有标簽的,同時大量資料是沒有被标注過的的。這是最常見的由于标注成本 過高而導緻無法獲得完全的強監督信号的情況,該問題可以表述為:

       在訓練資料為 D = {(x_1, y_1), …, (x_l, y_l), x_{l+1}, …, x_m},其中 l 個資料有标簽、u=m-l 個資料無标簽的情況下,訓練得到 f:x->y。

2.不确切監督I(inexact supervision)

       即訓練樣本隻有粗粒度的标簽。例如,針對一幅圖檔,隻擁有對整張圖檔的類别标注,而對于圖檔中的各個實體(instance)則沒有标注的監督資訊。例如:當我們對一張肺部 X 光圖檔進行分類時,我們隻知道某張圖檔是肺炎患者的肺部圖檔,但是并不知道具體圖檔中哪個部位的響應說明了該圖檔的主人患有肺炎。該問題可以被形式化表示為:

       學習任務為 f: X -> Y,其訓練集為 D = {(X_1, y_1), …, (X_m, y_m)},其中 X_i = {x_{I, 1}, …, x_{I, m_i}}, X_i 屬于X,X_i 稱為一個包,樣本 x_{i, j}屬于X_i(j屬于{1, …, m_i})。m_i 是 X_i 中的樣本個數,y_i 屬于 Y = {Y, N}。當存在 x_{i, p}是正樣本時,X_i 就是一個正包,其中 p 是未知的且 p 屬于 {1, …, m_i}。模型的目标就是預測未知包的标簽。

3. 不準确監督(inaccurate supervision)

       即給定的标簽并不總是真值。出現這種情況的原因有很多

值得注意的是在實際訓練過程中,上述問題通常一同發生

這是文章中一張圖檔解釋的非常生動

弱監督學習入門

       訓練集由訓練執行個體組成;訓練執行個體包含特征向量(描述标準物體,如檢測物體坐标資訊,顔色rgb等資訊),标簽;标簽可以包含回歸結果或者分類結果,包含具體值或者分類結果

2 Incomplete Surpervision

       針對解決标簽不全面的問題,有兩個主要解決此問題的方法:

  1. 主動學習(active learning)
  2. 半監督學習(semi-supervised learning)
  3. 遷移學習(Transductive learning)

作者解釋說其實遷移學習是半監督學習的一種形式,隻不過關于資料的預測是不同的。也就說半監督學習是根據帶标簽資料對不帶标簽資料的一種預測,而遷移學習是通過其他管道獲得的預訓練模型遷移到具體問題中在進行fintune。兩者都用到了帶标簽資料隻不過用途是不一樣的

2.1 With Human Intervention

1.主動學習(active learning)

       它假設未标注資料的真值标簽可以向人類專家查詢,讓專家為估計模型最有價值的資料點打上标簽。在主動學習中,目标是通過标記資料點來更有效地利用SMEs,這些資料點被估計為對模型最有價值。換句話說就是通過帶标簽資料的特征分布等資訊選出unlabeled中最具價值的資訊向專家提出問題,進行打标簽

       是以引出了詢問的兩個标準Informativeness measures和Representativeness measures;但是兩者都有明顯的缺點,同時兩者的精度不能兼顧

       Informativeness measures資訊量衡量的是一個未标注資料能夠在多大程度上降低統計模型的不确定性。缺點是:嚴重依賴對于資料集的标注,當資料樣本較小的時候表現出性能的不穩定性

       Representativeness measures代表性衡量一個樣本在多大程度上能代表模型的輸入分布。缺點是:嚴重依賴unlabeled的聚類結果

作者得出結論:主動學習不能提供很大的幫助但是對于複雜的任務可以替代一些細緻的手工操作

2.2 Without Human Intervention

2.半監督學習(semi-supervision learning)

       與主動學習不同,半監督學習是一種在沒有人類專家參與的情況下對未标注資料加以分析、利用的學習範式。通常,盡管未标注的樣本沒有明确的标簽資訊,但是其資料的分布特征與已标注樣本的分布往往是相關的,這樣的統計特性對于預測模型是十分有用的。

實際上,半監督學習對于資料的分布有兩種假設:聚類假設和流形假設。

       前者假設資料具有内在的聚類結構,是以,落入同一個聚類的樣本類别相同。後者假設資料分布在一個流形上,在流形上相近的樣本具有相似的預測結果。可見,兩個假設的本質都是相似的資料輸入應該有相似的輸出。是以,如何更好地衡量樣本點之間的相似性,如何利用這種相似性幫助模型進行預測,是半監督學習的關鍵。半監督學習的方法主要包括:生成式方法、基于圖的方法、低密度分割法、基于分歧的方法。

由于對基于圖卷積網絡的半監督學習方法最感興趣,是以隻總結這一部分内容

Graph-based methods

構造圖,圖中節點對應于訓練執行個體和邊緣對應關系(通常是某種相似性或執行個體之間的距離),然後根據一些條件在圖上傳播标簽資訊;例如,标簽可以在不同的子圖中傳播用最小割線分隔。顯然,性能在很大程度上取決于圖的構造方式,對于m個資料點,此類方法通常需要大約O(m2)的存儲空間,幾乎需要O(m3)計算複雜度。是以挑戰之一就是可擴充性十分糟糕;此外,如果不進行圖的重構很難預測到新的執行個體

3.遷移學習(transductive learning)

       遷移學習(transfer learning):遷移學習是近年來被廣泛研究,風頭正勁的學習範式,感覺已經成為一個獨立的研究領域。其内在思想是借鑒人類「舉一反三」的能力,提高對資料的使用率。通俗地講,遷移學習的目标是将已經在在不同資料集上訓練過的一個或多個應用到我們的資料集和任務中

3 Inexact Supervision

       解決此問題的主要方法是多示例學習(Multi-instance learning)

具體感念可以參考這篇文章在這裡不做多餘總結

多示例學習(Multi-instance learning)

4 Inaccurate Supervision

       基本的解決此問題的方法是學習标簽噪聲,在此篇文章中舉出一個基于圖神經網絡的例子,在這裡加以整理

       例如,資料編輯方法構造了一個相對鄰域圖,其中每個節點對應一個訓練示例,一個邊連接配接兩個具有不同标簽的節點稱為切割邊緣。然後,測量切邊重量統計量,直覺認為,如果執行個體與許多切割邊緣相關聯,則該執行個體是可疑的。可疑執行個體可以删除或重新标記

弱監督學習入門

繼續閱讀