天天看点

分类问题——样本不均衡1、数据层方法2、算法层方法3 代价敏感学习

数据层:通过重采样使样本空间均衡

算法层:重点学习正样本来适应现存的分类器

损失敏感方法:整合数据层和算法层的思想,假设正样本误分类的损失更大。

boosting算法:不断提高样本权重

1、数据层方法

1、对正样本随机过采样,对负样本随机下采样。

2、按照样本特征和比例来过采样正样本或下采样负样本,

虽然重采样在样本不均衡问题中经常使用,但是如何确定最好的数据分布比例呢?在一片论文中降到了,实验表明平衡的数据分布表现一般很好,但是通常不是最好的。而最好的比例在不同的数据集之间是不同的。

3、如何重采样也是一个问题。通常随机采样不是很好,发现类别的子概念,然后对每个概念分别重采样达到平衡。 现在有很多这方面的方法,但是很多技巧只在特定领域有效。

2、算法层方法

通常,普通处理样本不均衡问题的策略是选择一个合适的偏差。对于决策树,样本不均衡问题是调整叶节点的概率评估,另一个方法时新的剪枝方法。

1、支持向量机

用对不同类别采取不同的惩罚权重,调整类别便捷。

2、关联分析

改进算法需要分类器算法相关知识和应用领域的系那个管只是,尤其是对算法在样本不均衡条件下,为什么失败的原因有一个全面的理解

3、在识别单类别学习中,只是识别出目标种类即可,这种方法没有试图找到正负样本的便捷,但是试图找到围绕目标概念的边界。对于分类目的,位置对象和目标类别的相似性。两种单分类学习方法是神经网络和支持向量机。在多分类领域内的确定条件下,但分类方法比二分类方法更有效。这个方法的阈值代表两个类别的边界。一个严格的阈值意味着正样本被正确筛选。很多机器学习算法,

3 代价敏感学习

代价敏感分类认为不同的误分类类型的代价。代价矩阵表示了不同分类的代价。

1、赋予数据空间不同的权重

训练集的分布被修正为误分类的代价,和不考虑代价的正常空间相比,

2、用特殊的分类器学习算法敏感代价

在决策树背景下,建树策略用来最小化误分类代价。选择最好的属性分支,决定子树是否被剪掉。

3、用贝叶斯风险理论分配每个样本的最小风险

如果把依赖样本的代价转换为样本权重,这种方法被应用在正常的分类器,没有改变算法,被认为实在数据层进行改变。

boosting 方法

减小方差,adaboost可以件次奥偏差,adaboost给相当于上采样和下采样,都是数据层面上的。可以选择adaC2,来完成预测。数据合成算法和提升程序,这些算法引入了合成的样本数据,因此也引入了新的学习代价