天天看点

为什么说bagging是减少variance,而boosting是减少bias?

Bagging中有两个操作都可以达到降低variance的效果,首先每一轮生成树的时候都是用bootstrap的方式在采样,即保证了数据集的相对多样性;此外bagging还随机选择k个特征,这可以进一步保证每个树之间的差异性,因此对于单独的一棵树来说它的偏差是非常高的,但是由于bagging生成的树可以是多种多样的,达到了防止过拟合的作用,即降低了方差。而对于bias来说的话,由于基分类器优化的目标本质上是一致的,所以bagging前后的bias是差不多的。

Boosting,每一轮迭代都根据前面迭代模型的效果来进行修正,进行样本或分类器的加权。这个过程也可以理解为一步一步的逼近真实值。因此如果迭代次数足够多,可以产生更好的预测结果,也就是减少了偏差。同时由于boosting中的基分类器是强相关的,总是利用残差来进行计算,所以不能显著的降低variance。

继续阅读