任务内容:
随机森林算法梳理
集成学习的概念
集成学习的关键点(中心极限定理):
让弱学习器相互独立(算法不同、使用的训练数据不同、使用的特征不同)。理想状态下,25个弱学习器中,一个弱学习器的误差率为0.35,强学习器的误差率为0.06。
增加更多的基分类器
基分类器应当好于随机猜测分类器,即误差率小于50%
集成学习中基学习器的误差率不能超过50%,否则组合分类器的误差率会大于50%
个体学习器的概念
boosting bagging的概念、异同点
理解不同的结合策略(平均法,投票法,学习法)
随机森林的思想
随机森林的推广
随机森林的优缺点
随机森林在sklearn中的参数解释
随机森林的应用场景