李航 統計學習方法 第一章 緒論
第一章 緒論
- 1.1 統計學習
- 1.2 監督學習
- 1.3 統計學習三要素
- 1.4 模型評估和選擇
- 1.5 正則化與交叉驗證
- 1.6 泛化能力
- 1.7 生成模型和判别模型
- 1.8 分類問題
- 1.9 标注問題和回歸
- 1.10 極大似然估計和貝葉斯估計
1.1 統計學習
a 得到一個有限的訓練資料集合
b 确定包含所有可能模型的假設空間
c 确定模型選擇的規則,即選擇學習政策
d 實作求解最優化模型的算法
e 通過學習方法選擇最優化模型
f 利用學習的最優化模型對新資料進行預測分析
1.2 監督學習
任務:學習一個模型,使模型能夠對任意給定的輸入,對其相應的輸出做一個很好的預測
任務輸出:
- 輸出為離散—>分類問題
- 輸出若為連續,且輸入也連續—>回歸問題
假設空間:輸入空間到輸出空間之間的映射的集合
映射—>監督學習模型:
- 機率模型 P(Y|X)
- 非機率模型 Y=f(x)
1.3 統計學習三要素
方法=模型+政策+算法
模型:
政策:用于判斷是否是最優模型
損失:給定X,輸出Y與真實值Y的差距。用損失函數來度量損失的程度。
1.4 模型評估和選擇
令學習後的模型為f(x),訓練誤差則是關于訓練資料集的平均損失,
測試誤差則是關于測試資料集的平均損失
過拟合問題
1.5 正則化與交叉驗證
正則化,也就是我們之前提到了結構化風險最小化的實作。
在回歸問題中,loss函數若為平方損失,則模型複雜度可以為L2範數。
交叉驗證:
- 簡單交叉驗證
- S折交叉驗證
1.6 泛化能力
模型對未知資料的預測能力
1.7 生成模型和判别模型
生成方法時由資料學習聯合機率分布P(X,Y)
判别方法時由資料直接學習決策函數f(x)
1.8 分類問題
分類問題的決策函數交分類器。
1)True positives(TP): 被正确地劃分為正例的個數,即實際為正例且被分類器劃分為正例的執行個體數(樣本數);
2)False positives(FP): 被錯誤地劃分為正例的個數,即實際為負例但被分類器劃分為正例的執行個體數;
3)False negatives(FN):被錯誤地劃分為負例的個數,即實際為正例但被分類器劃分為負例的執行個體數
4)True negatives(TN): 被正确地劃分為負例的個數,即實際為負例且被分類器劃分為負例的執行個體數。
1)正确率(accuracy
正确率是我們最常見的評價名額,accuracy = (TP+TN)/(P+N),這個很容易了解,就是被分對的樣本數除以所有的樣本數,通常來說,正确率越高,分類器越好;
2)錯誤率(error rate)
錯誤率則與正确率相反,描述被分類器錯分的比例,error rate = (FP+FN)/(P+N),對某一個執行個體來說,分對與分錯是互斥事件,是以accuracy =1 - error rate;
3)靈敏度(sensitive)
sensitive = TP/P,表示的是所有正例中被分對的比例,衡量了分類器對正例的識别能力;
4)特效度(specificity)
specificity = TN/N,表示的是所有負例中被分對的比例,衡量了分類器對負例的識别能力;
5)精度(precision)
精度是精确性的度量,表示被分為正例的示例中實際為正例的比例,precision=TP/(TP+FP);
6)召回率(recall)
召回率是覆寫面的度量,度量有多個正例被分為正例,recall=TP/(TP+FN)=TP/P=sensitive,可以看到召回率與靈敏度是一樣的。
1.9 标注問題和回歸
标注問題也是分類問題的一種推廣,例如,标記字元
回歸問題用于預測輸入和輸出之間的關系,回歸問題常用的loss函數為平方損失,也通過最小二乘進行求解。
1.10 極大似然估計和貝葉斯估計
似然:在已知結果下,去推測産生這個結果的參數(環境結構)
極大似然:在已知結果下,該事件在不同條件下發生可能性,似然值越大,該事件對應條件下發生可能性越大。
對于貝葉斯估計來說,則會考慮認為給定的先驗資訊和樣本資訊。
參考:https://blog.csdn.net/qq_21997625/article/details/79853483