資料層面

采樣（Sample）

資料重采樣：上采樣或者下采樣

上采樣	下采樣
使用情況	資料不足時	資料充足 (支撐得起你的浪費)
資料集變化	增加	間接減少(量大類被截流了)
具體手段	大量複制量少類樣本	批處理訓練時，控制從量大類取的圖像數量
風險	過拟合

資料合成

資料合成方法是利用已有樣本生成更多的樣本。其中最常見的一種方法叫做SMOTE,它利用小衆樣本在特征空間的相似性來生成新樣本。對于小衆樣本xi∈Smin,從它屬于小種類的K近鄰中随機選取一個樣本,生成一個新的小衆樣本xnew:

深度學習樣本不均衡問題解決資料層面算法層面代價敏感學習算法(Cost-Sensitive Learning)

上圖是SMOTE方法在K=6近鄰下的示意圖，黑色圓點是生成的新樣本。

算法層面

在目标函數中，增加量少類樣本被錯分的損失值。

準确度這個評價名額在類别不均衡的分類任務中并不能work.

代價敏感學習算法(Cost-Sensitive Learning)

不同類型的五分類情況導緻的代價是不一樣的。是以定義代價矩陣，Cij表示将類别j誤分類為i的代價，顯然C00=C11=0.C01和C10為兩種不同的誤分類代價，當兩者相等時為代價不敏感的學習問題。

深度學習樣本不均衡問題解決資料層面算法層面代價敏感學習算法(Cost-Sensitive Learning)

代價敏感學習方法主要有以下的實作方式：

(1)從學習模型出發，着眼于對某一具體學習方法的改造，使之能适應不平衡資料下的學習，研究者們針對不同的學習模型如感覺機，支援向量機，決策樹，神經網絡等分别提出了其代價敏感的版本。以代價敏感的決策樹為例，可從三個方面對其進行改進以适應不平衡資料的學習，這三個方面分别是決策門檻值的選擇方面、分裂标準的選擇方面、剪枝方面，這三個方面中都可以将代價矩陣引入。

(2)從貝葉斯風險理論出發，把代價敏感學習看成是分類結果的一種後處理，按照傳統方法學習到一個模型，以實作損失最小為目标對結果進行調整，優化公式如下所示。此方法的優點在于它可以不依賴所用具體的分類器，但是缺點也很明顯它要求分類器輸出值為機率。

深度學習樣本不均衡問題解決資料層面算法層面代價敏感學習算法(Cost-Sensitive Learning)

(3)從預處理的角度出發，将代價用于權重的調整，使得分類器滿足代價敏感的特性。

參考：

[1] http://blog.csdn.net/jningwei/article/details/79249195

[2] https://www.jianshu.com/p/3e8b9f2764c8

[3] http://blog.csdn.net/lujiandong1/article/details/52658675

深度學習樣本不均衡問題解決資料層面算法層面代價敏感學習算法(Cost-Sensitive Learning)

資料層面

采樣（Sample）

資料合成

算法層面

代價敏感學習算法(Cost-Sensitive Learning)

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡