李航統計學習方法第一章緒論

第一章緒論

1.1 統計學習
1.2 監督學習
1.3 統計學習三要素
1.4 模型評估和選擇
1.5 正則化與交叉驗證
1.6 泛化能力
1.7 生成模型和判别模型
1.8 分類問題
1.9 标注問題和回歸
1.10 極大似然估計和貝葉斯估計

1.1 統計學習

a 得到一個有限的訓練資料集合

b 确定包含所有可能模型的假設空間

c 确定模型選擇的規則，即選擇學習政策

d 實作求解最優化模型的算法

e 通過學習方法選擇最優化模型

f 利用學習的最優化模型對新資料進行預測分析

1.2 監督學習

任務：學習一個模型，使模型能夠對任意給定的輸入，對其相應的輸出做一個很好的預測

任務輸出：

輸出為離散—>分類問題
輸出若為連續，且輸入也連續—>回歸問題

假設空間：輸入空間到輸出空間之間的映射的集合

映射—>監督學習模型：

機率模型 P(Y|X)
非機率模型 Y=f(x)

1.3 統計學習三要素

方法=模型+政策+算法

模型：

政策：用于判斷是否是最優模型

損失：給定X,輸出Y與真實值Y的差距。用損失函數來度量損失的程度。

1.4 模型評估和選擇

令學習後的模型為f(x),訓練誤差則是關于訓練資料集的平均損失，

測試誤差則是關于測試資料集的平均損失

過拟合問題

1.5 正則化與交叉驗證

正則化，也就是我們之前提到了結構化風險最小化的實作。

在回歸問題中，loss函數若為平方損失，則模型複雜度可以為L2範數。

交叉驗證：

簡單交叉驗證
S折交叉驗證

1.6 泛化能力

模型對未知資料的預測能力

1.7 生成模型和判别模型

生成方法時由資料學習聯合機率分布P(X,Y)

判别方法時由資料直接學習決策函數f(x)

1.8 分類問題

分類問題的決策函數交分類器。

1）True positives(TP): 被正确地劃分為正例的個數，即實際為正例且被分類器劃分為正例的執行個體數（樣本數）；

2）False positives(FP): 被錯誤地劃分為正例的個數，即實際為負例但被分類器劃分為正例的執行個體數；

3）False negatives(FN):被錯誤地劃分為負例的個數，即實際為正例但被分類器劃分為負例的執行個體數

4）True negatives(TN): 被正确地劃分為負例的個數，即實際為負例且被分類器劃分為負例的執行個體數。

1）正确率（accuracy

　　正确率是我們最常見的評價名額，accuracy = （TP+TN）/(P+N)，這個很容易了解，就是被分對的樣本數除以所有的樣本數，通常來說，正确率越高，分類器越好；

2）錯誤率（error rate)

　　錯誤率則與正确率相反，描述被分類器錯分的比例，error rate = (FP+FN)/(P+N)，對某一個執行個體來說，分對與分錯是互斥事件，是以accuracy =1 - error rate；

3）靈敏度（sensitive）

　　sensitive = TP/P，表示的是所有正例中被分對的比例，衡量了分類器對正例的識别能力；

4）特效度（specificity)

　　specificity = TN/N，表示的是所有負例中被分對的比例，衡量了分類器對負例的識别能力；

5）精度（precision）

　　精度是精确性的度量，表示被分為正例的示例中實際為正例的比例，precision=TP/（TP+FP）；

6）召回率（recall）

　　召回率是覆寫面的度量，度量有多個正例被分為正例，recall=TP/(TP+FN)=TP/P=sensitive，可以看到召回率與靈敏度是一樣的。

1.9 标注問題和回歸

标注問題也是分類問題的一種推廣，例如，标記字元

回歸問題用于預測輸入和輸出之間的關系，回歸問題常用的loss函數為平方損失，也通過最小二乘進行求解。

1.10 極大似然估計和貝葉斯估計

似然：在已知結果下，去推測産生這個結果的參數(環境結構)

極大似然：在已知結果下，該事件在不同條件下發生可能性，似然值越大，該事件對應條件下發生可能性越大。

對于貝葉斯估計來說，則會考慮認為給定的先驗資訊和樣本資訊。

參考：https://blog.csdn.net/qq_21997625/article/details/79853483

李航統計學習方法第一章緒論1.1 統計學習1.2 監督學習1.3 統計學習三要素1.4 模型評估和選擇1.5 正則化與交叉驗證1.6 泛化能力1.7 生成模型和判别模型1.8 分類問題1.9 标注問題和回歸1.10 極大似然估計和貝葉斯估計

第一章緒論

1.1 統計學習

1.2 監督學習

1.3 統計學習三要素

1.4 模型評估和選擇

1.5 正則化與交叉驗證

1.6 泛化能力

1.7 生成模型和判别模型

1.8 分類問題

1.9 标注問題和回歸

1.10 極大似然估計和貝葉斯估計

繼續閱讀

了解英短貓的“優點”和“缺點”，養貓不踩坑！

恥辱一戰！雷霆狂勝獨行俠49分結束正常賽登頂西部第一

NBA西部最終排名：雷霆狂勝鎖定頭名！太陽逆襲進前6，湖人戰鹈鹕

NBA正常賽收官，雷霆時隔11年再次登頂西部，季後賽及附加賽對陣出爐

西部收官戰：雷霆1掘金2森林狼3太陽6，附加賽鹈鹕vs湖人

曆史最年輕55 勝球隊！雷霆4連勝重回第一，西部前三戰績一模一樣

雷霆提防被黑八！湖人躲掘金打西部第一？青年軍存兩大漏洞

迷你版055？雷霆A2000無人艇垂發1坑4彈，無人機巡飛彈消耗菲律賓

今日，NBA官方公布了即時的正常賽各獎項投票情況：MVP：約老師遙遙領先，大機率當選！最快進步球員：馬克西和懷特都有希望

西部第一！雷霆主帥戴格諾特當選教練協會年度最佳教練

湖人到底要不要放水，避掘金打雷霆？這幾點的資訊量太大

前臉又有新設計，東風風行雷霆增程式混動版申報資訊曝光

NBA西部最新排名：國王創NBA奇迹，雷霆收大禮，湖人喜憂參半

随着鹈鹕106：110湖人，國王118:94勇士，西部對決已經有三場可以确定了。雷霆VS（國王或者鹈鹕）掘金VS湖人森林

快船重回西部第4！雷霆拒20分逆轉，錫安空砍29+10，亞曆山大24+8

勇士重建，庫裡5大下家出爐：熱火4換1，馬刺5換1，雷霆6換1

李航 統計學習方法 第一章 緒論1.1 統計學習1.2 監督學習1.3 統計學習三要素1.4 模型評估和選擇1.5 正則化與交叉驗證1.6 泛化能力1.7 生成模型和判别模型1.8 分類問題1.9 标注問題和回歸1.10 極大似然估計和貝葉斯估計

第一章 緒論

1.1 統計學習

1.2 監督學習

1.3 統計學習三要素

1.4 模型評估和選擇

1.5 正則化與交叉驗證

1.6 泛化能力

1.7 生成模型和判别模型

1.8 分類問題

1.9 标注問題和回歸

1.10 極大似然估計和貝葉斯估計

繼續閱讀

李航統計學習方法第一章緒論1.1 統計學習1.2 監督學習1.3 統計學習三要素1.4 模型評估和選擇1.5 正則化與交叉驗證1.6 泛化能力1.7 生成模型和判别模型1.8 分類問題1.9 标注問題和回歸1.10 極大似然估計和貝葉斯估計

第一章緒論