随机森林

1、概念：

随机森林顾名思义，随机森立算法中的“随机”一词是指通过Bagging中的bootstrapping得到不同的数据，进而体现出来的随机性：从行（观测）的角度进行bootstrap抽样，而且还要从列（变量）的角度进行随机抽样（抽样的个数少于所有变量个数），通过不同的组合生成不同的训练样本集。是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类（对于分类算法），然后看看哪一类被选择最多，就预测这个样本为那一类。

2、随机森林的原理

在建立每一棵决策树的过程中，有两点需要注意 - 采样与完全分裂。

首先是两个随机采样的过程，random forest对输入的数据要进行行、列的采样：

① 对于行采样，采用有放回的方式，也就是在采样得到的样本集合中，可能有重复的样本。假设输入样本为N个，那么采样的样本也为N个。这样使得在训练的时候，每一棵树的输入样本都不是全部的样本，使得相对不容易出现over-fitting。

② 然后进行列采样（Bootstrap重新抽样），从M 个feature中，选择m个特征(m << M)。

之后就是对采样之后的数据使用完全分裂的方式建立出决策树，这样决策树的某一个叶子节点要么是无法继续分裂的，要么里面的所有样本的都是指向的同一个分类。决策树形成过程中每个节点都要按完全分裂的方式来分裂，一直到不能够再分裂为止。一般很多的决策树算法都有一个重要的步骤 - 剪枝，但是随机森林不需要剪枝，由于之前的两个随机采样的过程保证了随机性，所以就算不剪枝，也不会出现over-fitting。

按这种算法得到的随机森林中的每一棵都是很弱的，但是大家组合起来就很厉害了。每一棵决策树就是一个精通于某一个窄领域的专家，这样在随机森林中就有了很多个精通不同领域的专家，对一个新的问题（新的输入数据），可以用不同的角度去看待它，最终由各个专家，投票得到结果，即随机森林随机地生成几百个至几千个分类树，然后选择重复程度最高的树作为最终结果。

3、随机森林优点和缺点

优点：

a.两个随机性的引入，使得随机森林不容易陷入过拟合

b.两个随机性的引入，使得随机森林具有很好的抗噪声能力

c.它能够处理很高维度（feature很多）的数据，并且不用做特征选择，对数据集的适应能力强：既能处理离散型数据，也能处理连续型数据，数据集无需规范化

d. 在训练完后，它能够给出哪些feature比较重要

e. 在创建随机森林的时候，对generlization error使用的是无偏估计

f. 训练速度快，可以得到变量重要性排序

g. 在训练过程中，能够检测到feature间的互相影响

h. 容易做成并行化方法

i. 实现比较简单

随机森林模型有着惊人的准确性，可以替代一般线性模型（线性回归、方差分析等）和广义线性模型（逻辑斯蒂回归、泊松回归等）等等。

缺点：

随机森林的主要劣势在于模型大小。你可能需要数百兆的内存才能轻松地结束一个森林，而且评估的速度也很慢。随机森林模型其实是个很难去解释的黑盒子。

4、随机森林应用范围

随机森林可以用于分类和回归。当因变量Y是分类变量时，是分类；当因变量Y是连续变量时，是回归。自变量X可以是多个连续变量和多个分类变量的混合。随机森林既可以处理属性为离散值的量，如ID3算法，也可以处理属性为连续值的量，比如C4.5算法。另外，随机森林还可以用来进行无监督学习聚类和异常点检测。

随机森林和使用决策树作为基本分类器的（bagging）有些类似。以决策树为基本模型的bagging在每次bootstrap放回抽样之后，产生一棵决策树，抽多少次样本就生成多少棵树，在生成这些树的时候没有进行更多的干预。而随机森林也是进行bootstrap抽样，但它与bagging的区别是：在生成每棵树的时候，每个节点变量都仅仅在随机选出的少数变量中产生。因此，不但样本是随机的，连每个节点变量（Features）的产生都是随机的。

许多研究表明，组合分类器比单一分类器的分类效果好，随机森林（random forest）是一种利用多个分类树对数据进行判别与分类的方法，它在对数据进行分类的同时，还可以给出各个变量（基因）的重要性评分，评估各个变量在分类中所起的作用。

5、决策树与随机森林的区别：

决策树（decision tree）：是一个树结构（可以是二叉树或非二叉树）。其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。

随机森林：是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类，然后看看哪一类被选择最多，就预测这个样本为那一类。

随机森林相比于神经网络，降低了运算量的同时也提高了预测精度，该算法对多元共线性不敏感以及对缺失数据和非平衡数据比较稳健，可以很好地适应多达几千个解释变量数据集。

3、随机森林随机森林

随机森林

1、概念：

2、随机森林的原理

3、随机森林优点和缺点

4、随机森林应用范围

5、决策树与随机森林的区别：

继续阅读

简单文档分类——朴素贝叶斯算法朴素贝叶斯算法简单文档分类实例步骤总结朴素贝叶斯分类调用(sklearn)

【分类算法】什么是分类算法定义分类与聚类分类过程方法

分类算法的评价指标

K-近邻算法以及图像分类应用

weka之NB算法

使用weka的select attribute

weka中分类器算法

在weka中集成自己的算法

【多变量线性回归】学习记录序思路实现终

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

【趋高机器视觉】机器视觉技术原理解析及解决方案

吴恩达 coursera ML 第七课总结+作业答案前言目录正文模型表示作业答案

XGBoost Plotting API以及GBDT组合特征实践 XGBoost Plotting API以及GBDT组合特征实践

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告