資料層:通過重采樣使樣本空間均衡
算法層:重點學習正樣本來适應現存的分類器
損失敏感方法:整合資料層和算法層的思想,假設正樣本誤分類的損失更大。
boosting算法:不斷提高樣本權重
1、資料層方法
1、對正樣本随機過采樣,對負樣本随機下采樣。
2、按照樣本特征和比例來過采樣正樣本或下采樣負樣本,
雖然重采樣在樣本不均衡問題中經常使用,但是如何确定最好的資料分布比例呢?在一片論文中降到了,實驗表明平衡的資料分布表現一般很好,但是通常不是最好的。而最好的比例在不同的資料集之間是不同的。
3、如何重采樣也是一個問題。通常随機采樣不是很好,發現類别的子概念,然後對每個概念分别重采樣達到平衡。 現在有很多這方面的方法,但是很多技巧隻在特定領域有效。
2、算法層方法
通常,普通處理樣本不均衡問題的政策是選擇一個合适的偏差。對于決策樹,樣本不均衡問題是調整葉節點的機率評估,另一個方法時新的剪枝方法。
1、支援向量機
用對不同類别采取不同的懲罰權重,調整類别便捷。
2、關聯分析
改進算法需要分類器算法相關知識和應用領域的系那個管隻是,尤其是對算法在樣本不均衡條件下,為什麼失敗的原因有一個全面的了解
3、在識别單類别學習中,隻是識别出目标種類即可,這種方法沒有試圖找到正負樣本的便捷,但是試圖找到圍繞目标概念的邊界。對于分類目的,位置對象和目标類别的相似性。兩種單分類學習方法是神經網絡和支援向量機。在多分類領域内的确定條件下,但分類方法比二分類方法更有效。這個方法的門檻值代表兩個類别的邊界。一個嚴格的門檻值意味着正樣本被正确篩選。很多機器學習算法,
3 代價敏感學習
代價敏感分類認為不同的誤分類類型的代價。代價矩陣表示了不同分類的代價。
1、賦予資料空間不同的權重
訓練集的分布被修正為誤分類的代價,和不考慮代價的正常空間相比,
2、用特殊的分類器學習算法敏感代價
在決策樹背景下,建樹政策用來最小化誤分類代價。選擇最好的屬性分支,決定子樹是否被剪掉。
3、用貝葉斯風險理論配置設定每個樣本的最小風險
如果把依賴樣本的代價轉換為樣本權重,這種方法被應用在正常的分類器,沒有改變算法,被認為實在資料層進行改變。
boosting 方法
減小方差,adaboost可以件次奧偏差,adaboost給相當于上采樣和下采樣,都是資料層面上的。可以選擇adaC2,來完成預測。資料合成算法和提升程式,這些算法引入了合成的樣本資料,是以也引入了新的學習代價