天天看點

為什麼說bagging是減少variance,而boosting是減少bias?

Bagging中有兩個操作都可以達到降低variance的效果,首先每一輪生成樹的時候都是用bootstrap的方式在采樣,即保證了資料集的相對多樣性;此外bagging還随機選擇k個特征,這可以進一步保證每個樹之間的差異性,是以對于單獨的一棵樹來說它的偏差是非常高的,但是由于bagging生成的樹可以是多種多樣的,達到了防止過拟合的作用,即降低了方差。而對于bias來說的話,由于基分類器優化的目标本質上是一緻的,是以bagging前後的bias是差不多的。

Boosting,每一輪疊代都根據前面疊代模型的效果來進行修正,進行樣本或分類器的權重。這個過程也可以了解為一步一步的逼近真實值。是以如果疊代次數足夠多,可以産生更好的預測結果,也就是減少了偏差。同時由于boosting中的基分類器是強相關的,總是利用殘差來進行計算,是以不能顯著的降低variance。

繼續閱讀