天天看點

EasyEnsemble算法淺談

總結一下:

EasyEnsemble算法用途:解決資料的不均衡問題。

目前,對于資料不均衡問題,多使用采樣的方法,包括過采樣(上采樣)和欠采樣(下采樣)以及混合采樣,其中

  • 欠采樣簡單地說就是從多數類樣本中抽取樣本,使得抽取的樣本數與少數類樣本相等,進而達到資料均衡。常見的欠采樣有随機欠采樣、ENN等;
  • 過采樣即增加少數類樣本,使得少數類樣本數與多種類樣本相等,進而實作樣本均衡,常見的過采樣包括随機過采樣、SMOTE過采樣等

但實際上,根據文獻指出,欠采樣方法優于過采樣方法, 但該方法的缺點也很明顯,即對多數類樣本進行欠采樣會導緻多數類樣本資訊丢失,忽略很多潛在有用的多數類樣本資訊

是以,可以嘗試使用EasyEnsemble算法

該算法彌補了一般欠采樣可能損失重要分類資訊的缺陷

EasyEnsemble算法就是将多數類樣本集随機分成 N 個子集,且每一個子集樣本與少數類樣本相同,然後分别将各個多數類樣本子集與少數類樣本進行組合,使用AdaBoost基分類模型進行訓練,最後內建各基分類器,得到最終模型。

從EasyEnsemble算法的基本思想來看,該算法也是一種內建學習方法,且和随機森林類似,有屬于Bagging內建的政策,即也需要訓練多個基分類器,對樣本集合進行随機采樣,擷取多個樣本子集,然後用這多個樣本子集并行化訓練多個基分類器,最後內建多個基分類器的分析結果并輸出。

根據參考文獻《基于資料挖掘的營運商使用者流失預測研究與應用》,論文總結了EasyEnsemble算法與随機森林算法的幾點不同點,包括但不限于:

(1)在随機采樣方面,因為EasyEnsemble算法目标是處理資料的不均衡問題,是以隻針對多數類樣本進行随機欠采樣,而随機森林是對所有類别就行随機采樣。

(2)在基分類器方面,随機森林算法以決策樹作為基分類器,而EasyEnsemble算法以AdaBoost作為基分類器,該分類器屬于Boosting政策的內建學習,是以EasyEnsemble算法既有Bagging內建政策,也有Boosting內建政策,屬于一種混合內建政策。

(3)在內建結果方面,随機森林算法在分類問題上對各決策樹基分類器結果進行投票産生最終結果,而EasyEnsemble算法通過對所有AdaBoost基分類器進行求和的方式內建最終的結果。

繼續閱讀