1.其他术语概念（前提）

随机森林我们可以理解为多个决策树组成的模型，但是如何组合，组合的方式是什么，我们就得知道集成学习的思想，bootstraping，bagging的概念。

集成学习思想：集成学习主要的作用是为了解决单个模型在运行时固有的缺陷，从而将多个单个模型组合到一起，取长补短，共同发挥功效。简单的理解人多力量大。随机森林就是这个思想下的产物。这里借用另一个博主的一张图可以更好的理解这个思想。

随机森林算法原理梳理1.其他术语概念（前提）2.随机森林的基本概念3.随机森林的优缺点4.sklearn重要参数详解

bootstraping：自助抽样法，从样本中有放有回的随机抽取样本，这样能保证每个样本被抽取的概率都一样。

bagging： boostrap aggregation的缩写，自主抽样集成，袋装法。它是一种根据均匀概率分布从数据集中重复抽样（有放回的）的技术。子训练样本集的大小和原始数据集相同。在构造每一个子分类器的训练样本时，由于是对原始数据集的有放回抽样，因此同一个训练样本集中可能出现多次同一个样本数据。

讲到bagging，还可以拓展下，其实模型的组合方式分两种，分别为1.通过处理训练数据集，2.通过处理输入特征，刚才说的bagging属于前一种。其他类型的可以看下下面这张图。

随机森林算法原理梳理1.其他术语概念（前提）2.随机森林的基本概念3.随机森林的优缺点4.sklearn重要参数详解

2.随机森林的基本概念

随机森林其实就是一种特殊的bagging的方法，它的基础模型就是单棵决策树，它利用bootstrap方法生成m个训练集，对每个训练集构造一棵决策树，但是在找分裂结点时，它并不是使用全部特征，而是从所有特征中随机抽取部分特征，所以说每个决策树的分裂结点所使用的特征未必相同。实际上，随机森林同时对数据集，特征都进行了随机采样，所以说是一种特殊的bagging方法。

随机森林将成百上千棵决策树组合在一起，在略微不同的观察集上训练每个决策树，在每棵树中仅考虑有限数量的
特征来拆分节点。随机森林的最终预测是通过平均每棵树的预测来得到的。

随机森林的部分展示图（设定深度为6）

随机森林算法原理梳理1.其他术语概念（前提）2.随机森林的基本概念3.随机森林的优缺点4.sklearn重要参数详解

3.随机森林的优缺点

优点：

1、随机抽样和随机抽取特征可以很好地防止过拟合现象；

2、随机抽取特征也可以克服特征维度过高问题；

3、模型结构相对简单；

缺点：

1、对于数据噪音过大的样本集，容易产生过拟合现象

4.sklearn重要参数详解

参数详解：

criterion: 不纯度衡量指标 entropy(信息熵) / gini(基尼系数)
max_depth: 最大深度
min_samples_leaf: 一个结点所包含的最少样本数量，少于它就不会分枝
max_features: 一个结点包含的最大特征数量，超过会限制个数的特征会被舍弃
n_estimators: 森林中的树木的数量，一般越大的话，模型效果越好，但要注意过拟合问题。

随机森林算法原理梳理1.其他术语概念（前提）2.随机森林的基本概念3.随机森林的优缺点4.sklearn重要参数详解

1.其他术语概念（前提）

2.随机森林的基本概念

3.随机森林的优缺点

4.sklearn重要参数详解

继续阅读

机器学习之随机森林（Random Forest）文本算法的精确率

为什么说bagging是减少variance，而boosting是减少bias?

集成学习 - Bagging

机器学习建模中的Bagging思想！

税务合规性预测

练习——随机森林分类毒、可食用蘑菇数据集

随机森林笔记随机森林

随机森林总结随机森林总结

3、随机森林随机森林

【随机森林】随机森林的原理/ 样例实现/ 参数调优分析及 Python代码实现

随机森林回归应用中遇到的问题二、某个特征的取值减少后，效果会变好？？三、随机森林总结

数据分享|R语言用主成分PCA、逻辑回归、决策树、随机森林分析心脏病数据并高维可视化|附代码数据

Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型

【RF分类】基于matlab随机森林算法数据分类【含Matlab源码 2048期】

R语言决策树和随机森林分类电信公司用户流失churn数据和参数调优、ROC曲线可视化

R语言惩罚逻辑回归、线性判别分析LDA、广义加性模型GAM、多元自适应回归样条MARS