天天看點

機器學習_adaboost 算法

關于adaboost算法的兩篇論文

the boosting approach to machine learning

a short introduction to boosting

論文内容基本相同,推薦完完整整看完其中一篇之後,在掃一下第二篇。

擔心這兩篇論文原始位址變了,上傳一份csdn的資源,作為備份。

the boosting approach to machine learning an overview

我獲益最大的内容:

        1.二分類問題下adaboost的算法步驟:

機器學習_adaboost 算法

        步驟中各參數及其意義:

機器學習_adaboost 算法

        zt起到歸一化dt的機率分布的作用,使所有dt(i)的總和為1,是以zt為:

機器學習_adaboost 算法

2.為什麼adaboost多個弱分類器可以提高整體分類效果:

        2.1.adaboost在訓練樣本上的誤差上界為:

機器學習_adaboost 算法

        2.2.證明通過添加一個分類誤差大于>0.5的弱分類器,可以減小誤差上界

機器學習_adaboost 算法

3.adaboost疊代次數的确定:

        機器學習的許多算法中,訓練樣本上的過度學習,會導緻過拟合問題,這篇論文在<4 generalization error>一節中

指出,adaboost在測試集合上的誤差,與疊代次數無關,是以可以放心疊代降低分類器在訓練樣本上的誤差,并且同時指出,

減少訓練樣本誤差,有助于減少測試樣本的誤差。

在這裡辨析兩個概念:

分類(classfication)&回歸(regression)

        分類在資料集上學習規則,對輸入的特征,輸出其對應的類别(離散值),其中類别由先驗知識确定

        回歸在資料集上拟合函數,對輸入的特征,輸出其對應的值(實數值),例如函數曲線拟合

可參考 difference between classification and regression

繼續閱讀