1、資料層方法

1、對正樣本随機過采樣，對負樣本随機下采樣。

2、按照樣本特征和比例來過采樣正樣本或下采樣負樣本，

雖然重采樣在樣本不均衡問題中經常使用，但是如何确定最好的資料分布比例呢？在一片論文中降到了，實驗表明平衡的資料分布表現一般很好，但是通常不是最好的。而最好的比例在不同的資料集之間是不同的。

3、如何重采樣也是一個問題。通常随機采樣不是很好，發現類别的子概念，然後對每個概念分别重采樣達到平衡。現在有很多這方面的方法，但是很多技巧隻在特定領域有效。

2、算法層方法

通常，普通處理樣本不均衡問題的政策是選擇一個合适的偏差。對于決策樹，樣本不均衡問題是調整葉節點的機率評估，另一個方法時新的剪枝方法。

1、支援向量機

用對不同類别采取不同的懲罰權重，調整類别便捷。

2、關聯分析

改進算法需要分類器算法相關知識和應用領域的系那個管隻是，尤其是對算法在樣本不均衡條件下，為什麼失敗的原因有一個全面的了解

3、在識别單類别學習中，隻是識别出目标種類即可，這種方法沒有試圖找到正負樣本的便捷，但是試圖找到圍繞目标概念的邊界。對于分類目的，位置對象和目标類别的相似性。兩種單分類學習方法是神經網絡和支援向量機。在多分類領域内的确定條件下，但分類方法比二分類方法更有效。這個方法的門檻值代表兩個類别的邊界。一個嚴格的門檻值意味着正樣本被正确篩選。很多機器學習算法，

3 代價敏感學習

代價敏感分類認為不同的誤分類類型的代價。代價矩陣表示了不同分類的代價。

1、賦予資料空間不同的權重

訓練集的分布被修正為誤分類的代價，和不考慮代價的正常空間相比，

2、用特殊的分類器學習算法敏感代價

在決策樹背景下，建樹政策用來最小化誤分類代價。選擇最好的屬性分支，決定子樹是否被剪掉。

3、用貝葉斯風險理論配置設定每個樣本的最小風險

如果把依賴樣本的代價轉換為樣本權重，這種方法被應用在正常的分類器，沒有改變算法，被認為實在資料層進行改變。

boosting 方法

減小方差，adaboost可以件次奧偏差，adaboost給相當于上采樣和下采樣，都是資料層面上的。可以選擇adaC2，來完成預測。資料合成算法和提升程式，這些算法引入了合成的樣本資料，是以也引入了新的學習代價

分類問題——樣本不均衡1、資料層方法2、算法層方法3 代價敏感學習

1、資料層方法

2、算法層方法

3 代價敏感學習

1、賦予資料空間不同的權重

2、用特殊的分類器學習算法敏感代價

3、用貝葉斯風險理論配置設定每個樣本的最小風險

boosting 方法

繼續閱讀

準确率、精确率、召回率、F值

pandas 1: pandas.Series.map

鄰接熵(Branch Entropy)

項目：Matplotlib讓資料可以動起來目的代碼

Task 5 合并學習筆記複習提綱練習一【練習二】reference

描述長度增益（Description length gain）

[機器學習與資料分析] 內建學習結合政策