天天看點

深度學習樣本不均衡問題解決資料層面算法層面代價敏感學習算法(Cost-Sensitive Learning)

在深度學習中,樣本不均衡是指不同類别的資料量差别較大,利用不均衡樣本訓練出來的模型泛化能力差并且容易發生過拟合。

對不平衡樣本的處理手段主要分為兩大類:資料層面 (簡單粗暴)、算法層面 (複雜) 。

資料層面

采樣(Sample)

資料重采樣:上采樣或者下采樣

上采樣 下采樣
使用情況 資料不足時 資料充足 (支撐得起你的浪費)
資料集變化 增加 間接減少(量大類被截流了)
具體手段 大量複制量少類樣本 批處理訓練時,控制從量大類取的圖像數量
風險 過拟合

資料合成

資料合成方法是利用已有樣本生成更多的樣本。其中最常見的一種方法叫做SMOTE,它利用小衆樣本在特征空間的相似性來生成新樣本。對于小衆樣本xi∈Smin,從它屬于小種類的K近鄰中随機選取一個樣本,生成一個新的小衆樣本xnew:

深度學習樣本不均衡問題解決資料層面算法層面代價敏感學習算法(Cost-Sensitive Learning)

上圖是SMOTE方法在K=6近鄰下的示意圖,黑色圓點是生成的新樣本。

算法層面

在目标函數中,增加量少類樣本被錯分的損失值 。

準确度這個評價名額在類别不均衡的分類任務中并不能work.

代價敏感學習算法(Cost-Sensitive Learning)

不同類型的五分類情況導緻的代價是不一樣的。是以定義代價矩陣,Cij表示将類别j誤分類為i的代價,顯然C00=C11=0.C01和C10為兩種不同的誤分類代價,當兩者相等時為代價不敏感的學習問題。

深度學習樣本不均衡問題解決資料層面算法層面代價敏感學習算法(Cost-Sensitive Learning)

代價敏感學習方法主要有以下的實作方式:

(1)從學習模型出發,着眼于對某一具體學習方法的改造,使之能适應不平衡資料下的學習,研究者們針對不同的學習模型如感覺機,支援向量機,決策樹,神經網絡等分别提出了其代價敏感的版本。以代價敏感的決策樹為例,可從三個方面對其進行改進以适應不平衡資料的學習,這三個方面分别是決策門檻值的選擇方面、分裂标準的選擇方面、剪枝方面,這三個方面中都可以将代價矩陣引入。

(2)從貝葉斯風險理論出發,把代價敏感學習看成是分類結果的一種後處理,按照傳統方法學習到一個模型,以實作損失最小為目标對結果進行調整,優化公式如下所示。此方法的優點在于它可以不依賴所用具體的分類器,但是缺點也很明顯它要求分類器輸出值為機率。

深度學習樣本不均衡問題解決資料層面算法層面代價敏感學習算法(Cost-Sensitive Learning)

(3)從預處理的角度出發,将代價用于權重的調整,使得分類器滿足代價敏感的特性。

參考:

[1] http://blog.csdn.net/jningwei/article/details/79249195

[2] https://www.jianshu.com/p/3e8b9f2764c8

[3] http://blog.csdn.net/lujiandong1/article/details/52658675

繼續閱讀