1、数据层方法

1、对正样本随机过采样，对负样本随机下采样。

2、按照样本特征和比例来过采样正样本或下采样负样本，

虽然重采样在样本不均衡问题中经常使用，但是如何确定最好的数据分布比例呢？在一片论文中降到了，实验表明平衡的数据分布表现一般很好，但是通常不是最好的。而最好的比例在不同的数据集之间是不同的。

3、如何重采样也是一个问题。通常随机采样不是很好，发现类别的子概念，然后对每个概念分别重采样达到平衡。现在有很多这方面的方法，但是很多技巧只在特定领域有效。

2、算法层方法

通常，普通处理样本不均衡问题的策略是选择一个合适的偏差。对于决策树，样本不均衡问题是调整叶节点的概率评估，另一个方法时新的剪枝方法。

1、支持向量机

用对不同类别采取不同的惩罚权重，调整类别便捷。

2、关联分析

改进算法需要分类器算法相关知识和应用领域的系那个管只是，尤其是对算法在样本不均衡条件下，为什么失败的原因有一个全面的理解

3、在识别单类别学习中，只是识别出目标种类即可，这种方法没有试图找到正负样本的便捷，但是试图找到围绕目标概念的边界。对于分类目的，位置对象和目标类别的相似性。两种单分类学习方法是神经网络和支持向量机。在多分类领域内的确定条件下，但分类方法比二分类方法更有效。这个方法的阈值代表两个类别的边界。一个严格的阈值意味着正样本被正确筛选。很多机器学习算法，

3 代价敏感学习

代价敏感分类认为不同的误分类类型的代价。代价矩阵表示了不同分类的代价。

1、赋予数据空间不同的权重

训练集的分布被修正为误分类的代价，和不考虑代价的正常空间相比，

2、用特殊的分类器学习算法敏感代价

在决策树背景下，建树策略用来最小化误分类代价。选择最好的属性分支，决定子树是否被剪掉。

3、用贝叶斯风险理论分配每个样本的最小风险

如果把依赖样本的代价转换为样本权重，这种方法被应用在正常的分类器，没有改变算法，被认为实在数据层进行改变。

boosting 方法

减小方差，adaboost可以件次奥偏差，adaboost给相当于上采样和下采样，都是数据层面上的。可以选择adaC2，来完成预测。数据合成算法和提升程序，这些算法引入了合成的样本数据，因此也引入了新的学习代价

分类问题——样本不均衡1、数据层方法2、算法层方法3 代价敏感学习

1、数据层方法

2、算法层方法

3 代价敏感学习

1、赋予数据空间不同的权重

2、用特殊的分类器学习算法敏感代价

3、用贝叶斯风险理论分配每个样本的最小风险

boosting 方法

继续阅读

准确率、精确率、召回率、F值

pandas 1: pandas.Series.map

邻接熵(Branch Entropy)

项目：Matplotlib让数据可以动起来目的代码

Task 5 合并学习笔记复习提纲练习一【练习二】reference

描述长度增益（Description length gain）

[机器学习与数据分析] 集成学习结合策略