1. regularizationis used to control the over-fitting phenomenon
過拟合時,w的值會很大,引入後面的正則項可以防止w過大
2.
3.prior probability and posterior probability
4.累積分布函數P(x) 求導後 得到 機率密度函數p(x)
5.貝葉斯學派和頻率學派的差別之一:特别重視先驗資訊對于inference的影響
共轭先驗:采用共轭先驗的原因是可以使得先驗分布和後驗分布的形式相同,這樣一方面合符人的直覺(它們應該是相同形式的)另外一方面是可以形成一個先驗鍊,即現在的後驗分布可以作為下一次計算的先驗分布,如果形式相同,就可以形成一個鍊條。
後驗分布=(似然函數*先驗分布)/p(D)
p(D) normalization constant,確定後驗分布的機率總和等于1
似然函數p(D|w) expresses how probable the observed data set is for different settings of the parameter vector w
計算p(D|w),頻率派:視w為固定的參數,誤差根據不同的資料集D(boostrap)來計算。
而貝葉斯方法,資料集D是固定的,隻有一份。
貝葉斯缺點:choice of prior distribution
如果先驗機率和似然函數可以使得先驗分布和後驗分布有相同的形式(如同為指數族分布),那麼就稱先驗分布與似然函數是共轭的
先驗機率稱為似然函數的共轭先驗
詳細的可參考http://wenku.baidu.com/view/a542dbf2770bf78a6529546a.html?st=1