關于adaboost算法的兩篇論文
the boosting approach to machine learning
a short introduction to boosting
論文内容基本相同,推薦完完整整看完其中一篇之後,在掃一下第二篇。
擔心這兩篇論文原始位址變了,上傳一份csdn的資源,作為備份。
the boosting approach to machine learning an overview
我獲益最大的内容:
1.二分類問題下adaboost的算法步驟:
![](https://img.laitimes.com/img/_0nNw4CM6IyYiwiM6ICdiwiIwATN1UDOwATM4IDMxMTMwIzLcRXZu5ibkN3Yuc2bsJmLn1Wavw1LcpDc0RHaiojIsJye.jpg)
步驟中各參數及其意義:
zt起到歸一化dt的機率分布的作用,使所有dt(i)的總和為1,是以zt為:
2.為什麼adaboost多個弱分類器可以提高整體分類效果:
2.1.adaboost在訓練樣本上的誤差上界為:
2.2.證明通過添加一個分類誤差大于>0.5的弱分類器,可以減小誤差上界
3.adaboost疊代次數的确定:
機器學習的許多算法中,訓練樣本上的過度學習,會導緻過拟合問題,這篇論文在<4 generalization error>一節中
指出,adaboost在測試集合上的誤差,與疊代次數無關,是以可以放心疊代降低分類器在訓練樣本上的誤差,并且同時指出,
減少訓練樣本誤差,有助于減少測試樣本的誤差。
在這裡辨析兩個概念:
分類(classfication)&回歸(regression)
分類在資料集上學習規則,對輸入的特征,輸出其對應的類别(離散值),其中類别由先驗知識确定
回歸在資料集上拟合函數,對輸入的特征,輸出其對應的值(實數值),例如函數曲線拟合
可參考 difference between classification and regression