天天看点

随机森林算法梳理——任务1

任务内容:

随机森林算法梳理

集成学习的概念

集成学习的关键点(中心极限定理):

让弱学习器相互独立(算法不同、使用的训练数据不同、使用的特征不同)。理想状态下,25个弱学习器中,一个弱学习器的误差率为0.35,强学习器的误差率为0.06。

增加更多的基分类器

基分类器应当好于随机猜测分类器,即误差率小于50%

集成学习中基学习器的误差率不能超过50%,否则组合分类器的误差率会大于50%

个体学习器的概念

boosting bagging的概念、异同点

理解不同的结合策略(平均法,投票法,学习法)

随机森林的思想

随机森林的推广

随机森林的优缺点

随机森林在sklearn中的参数解释

随机森林的应用场景