1.1 統計學習
1、統計學習方法的三要素:模型、政策和算法
2、統計學習的方法是基于資料建構統計模型進而對資料進行預測與分析。
3、統計學習由監督學習、非監督學習、半監督學習和強化學習等組成。
1.2 監督學習
1、監督學習的任務是學習一個模型,使模型能夠對任意給定的輸入,對其相應的輸出做出一個好的預測。
2、輸入變量與輸出變量均為連續變量的預測問題稱為回歸問題;輸出變量為有限個離散變量的預測問題稱為分類問題;輸入變量與輸出變量均為變量的序列的預測問題稱為标注問題。
1.3 統計學習三要素
統計學習方法都是由模型、政策和算法構成的。
方法=模型+政策+算法
1.3.1 模型
1、在監督學習中,模型就是所要學習的條件機率分布或決策函數。模型的假設空間包含所有可能的條件機率分布或決策函數。
1.3.2 政策
有了模型的假設空,統計學習接着需要考慮的是按照什麼樣的準則學習或選擇最優的模型。統計學習的目的在于從假設空間中選取最優模型。
損失函數度量模型一次預測的好壞,風險函數度量平均意義下模型預測的好壞。
1、損失函數和風險函數
預測值f(X)與真實值Y可能一緻,也可能不一緻,用一個損失函數或代價函數來度量預測錯誤的程度。損失韓式是f(X)和Y的非負實值函數,記作L(Y,f(X)).
常用的損失函數如下:
(1)0-1損失函數
(2)平方損失函數
(3)絕對損失函數
(4)對數損失函數或對數似然損失函數
2、損失函數值越小,模型就越好。由于模型的輸入、輸出(X,Y)是随機變量,遵循聯合分布P(X,Y),是以損失函數的期望是
這稱為風險函數或期望損失。
3、模型f(X)關于訓練資料集的平均損失稱為經驗風險或經驗損失,記作
:
4、經驗風險最小化(ERM)的政策認為,經驗風險最小化的模型是最優模型,根據這一政策,經驗風險最小化求最優模型就是求解最優化問題:
5、極大似然估計就是經驗風險最小化的一個例子。當模型是條件機率分布,損失函數是對數損失函數時,經驗風險最小化等價于似然估計。
6、當樣本容量很小時,經驗風險最小化學習的效果不好,會産生過拟合現象。為解決過拟合問題,提出了結構風險最小化的政策,結構風險最小化等價于正則化。結構風險最小化實在經驗風險上加上表示模型複雜度的正則項或罰項。結構風險的定義是:
其中J(f)為模型的複雜度,模型f越複雜,複雜度J(f)就越大,反之,模型f越簡單,複雜度J(f)就越小。
是系數,用來權衡經驗風險和模型複雜度。結構風險小需要經驗風險與模型複雜度同時小。結構風險小的模型預測比較好。
7、結構風險最小化的政策認為結構風險最小的模型是最優的模型。是以求最優模型,就是求解最優化的問題:
1.4 模型評估與模型選擇
1、通常将學習方法對未知資料的預測能力稱為泛化能力。
2、模型選擇時,不僅要考慮對已知資料的預測能力,而且還要考慮對未知資料的預測能力。
1.5 正則化與交叉驗證
1.5.1 正則化
模型選擇的典型方法是正則化。正則化是結構風險最小化政策的實作,是在經驗風險上加一個正則化項或者罰項。正則化一般是模型複雜度的單調遞增函數,模型越複雜,正則化值就越大。比如,正則化項可以是模型參數向量的範數。
正則化一般具有如下形式:
其中,第一項是經驗風險,第二項是正則化項,
為調整兩者之間關系的系數。
正則化項可以取不同的形式。例如,回歸問題中,損失函數時平方損失,正則化項可以是參數向量的
範數:
注:簡單說,0範數表示向量中非零元素的個數;1範數表示為向量元素絕對值之和;2範數表示向量元素的平方和再開方。
正則化的作用是選擇經驗風險與模型複雜度同時較小的模型。
1.5.2 交叉驗證
另一種常用的模型選擇方法是交叉驗證。
如果樣本充足,進行模型選擇的另一種方法是随機地将資料集切分成訓練集、驗證集和測試集。訓練集用來訓練模型,驗證集用于模型的選擇,而測試集用于最終對學習方法的評估。
但是,大部分應用中資料集是不充足的。為了選擇好的模型,可以采用交叉驗證方法。交叉驗證的基本思想是重複地使用資料;把給定的資料進行切分,将切分的資料集組合為訓練集和測試集,在此基礎上反複的進行訓練、測試以及模型的選擇。
1、簡單交叉驗證
簡單交叉驗證方法是:随機的将資料集分為兩部分,一部分作為訓練集,另一部分作為測試集。
2、S折交叉驗證(應用最多)
方法是:首先随機地将已給的資料切分為S個互不相交的大小相同的子集;然後利用S-1個子集的資料訓練模型,利用餘下的子集測試模型;将這一過程對可能的S種選擇重複進行;最後選出S次評測中平均測試誤差最小的模型。
3、留一交叉驗證
S折交叉驗證的特殊情況是S=N,稱為留一交叉驗證,往往在資料缺乏的情況下使用,N是給定資料集的容量。
1.6 泛化能力
學習方法的泛化能力是指由該方法學習到的模型對未知資料的預測能力。
1.6.1 泛化誤差
模型對未知資料預測的誤差就是泛化誤差。事實上,泛化誤差就是模型的期望風險。
1.7 生成模型與判别模型
監督學習方法可以分為生成方法和判别方法,所學到的模型分别稱為生成模型和判别模型。
生成方法由資料學習聯合機率分布P(X,Y),然後求出條件機率分布P(Y|X)作為預測的模型,即生成模型:
這樣的方法之是以稱為生成方法,是因為模型表示了給定輸入X産生輸出Y的生成關系。典型的生成模型有:樸素貝葉斯法和隐馬爾可夫模型。
判别方法由資料直接學習決策函數f(X)或者條件機率分布P(Y|X)作為預測的模型,即判别模型。判别方法關心的是對給定的輸入X,應該預測什麼樣的輸出Y。典型的判别模型包括:k近鄰法、感覺機、決策樹、邏輯斯蒂回歸、最大熵模型、支援向量機、提升方法和條件随機場等。
1.8 回歸問題
1、回歸用于預測輸入變量和輸出變量之間的關系。回歸模型表示從輸入變量到輸出變量之間的映射的函數。
2、回歸問題按照輸入變量和輸出變量之間關系的類型即模型的類型,分為線性回歸和非線性回歸。
線性回歸和非線性回歸的差別:通過指數來進行判斷即可,線性回歸就是每個變量的指數都是1(一次方),為直線形态,而非線性回歸就是至少有一個變量的指數不是1(二次方或多次方),為曲線形态。