天天看点

EasyEnsemble算法浅谈

总结一下:

EasyEnsemble算法用途:解决数据的不均衡问题。

目前,对于数据不均衡问题,多使用采样的方法,包括过采样(上采样)和欠采样(下采样)以及混合采样,其中

  • 欠采样简单地说就是从多数类样本中抽取样本,使得抽取的样本数与少数类样本相等,从而达到数据均衡。常见的欠采样有随机欠采样、ENN等;
  • 过采样即增加少数类样本,使得少数类样本数与多种类样本相等,从而实现样本均衡,常见的过采样包括随机过采样、SMOTE过采样等

但实际上,根据文献指出,欠采样方法优于过采样方法, 但该方法的缺点也很明显,即对多数类样本进行欠采样会导致多数类样本信息丢失,忽略很多潜在有用的多数类样本信息

因此,可以尝试使用EasyEnsemble算法

该算法弥补了一般欠采样可能损失重要分类信息的缺陷

EasyEnsemble算法就是将多数类样本集随机分成 N 个子集,且每一个子集样本与少数类样本相同,然后分别将各个多数类样本子集与少数类样本进行组合,使用AdaBoost基分类模型进行训练,最后集成各基分类器,得到最终模型。

从EasyEnsemble算法的基本思想来看,该算法也是一种集成学习方法,且和随机森林类似,有属于Bagging集成的策略,即也需要训练多个基分类器,对样本集合进行随机采样,获取多个样本子集,然后用这多个样本子集并行化训练多个基分类器,最后集成多个基分类器的分析结果并输出。

根据参考文献《基于数据挖掘的运营商用户流失预测研究与应用》,论文总结了EasyEnsemble算法与随机森林算法的几点不同点,包括但不限于:

(1)在随机采样方面,因为EasyEnsemble算法目标是处理数据的不均衡问题,所以只针对多数类样本进行随机欠采样,而随机森林是对所有类别就行随机采样。

(2)在基分类器方面,随机森林算法以决策树作为基分类器,而EasyEnsemble算法以AdaBoost作为基分类器,该分类器属于Boosting策略的集成学习,因此EasyEnsemble算法既有Bagging集成策略,也有Boosting集成策略,属于一种混合集成策略。

(3)在集成结果方面,随机森林算法在分类问题上对各决策树基分类器结果进行投票产生最终结果,而EasyEnsemble算法通过对所有AdaBoost基分类器进行求和的方式集成最终的结果。

继续阅读