天天看點

李航 統計學習方法 第一章 緒論1.1 統計學習1.2 監督學習1.3 統計學習三要素1.4 模型評估和選擇1.5 正則化與交叉驗證1.6 泛化能力1.7 生成模型和判别模型1.8 分類問題1.9 标注問題和回歸1.10 極大似然估計和貝葉斯估計

李航 統計學習方法 第一章 緒論

第一章 緒論

  • 1.1 統計學習
  • 1.2 監督學習
  • 1.3 統計學習三要素
  • 1.4 模型評估和選擇
  • 1.5 正則化與交叉驗證
  • 1.6 泛化能力
  • 1.7 生成模型和判别模型
  • 1.8 分類問題
  • 1.9 标注問題和回歸
  • 1.10 極大似然估計和貝葉斯估計

1.1 統計學習

a 得到一個有限的訓練資料集合

b 确定包含所有可能模型的假設空間

c 确定模型選擇的規則,即選擇學習政策

d 實作求解最優化模型的算法

e 通過學習方法選擇最優化模型

f 利用學習的最優化模型對新資料進行預測分析

1.2 監督學習

任務:學習一個模型,使模型能夠對任意給定的輸入,對其相應的輸出做一個很好的預測

任務輸出:

  1. 輸出為離散—>分類問題
  2. 輸出若為連續,且輸入也連續—>回歸問題

假設空間:輸入空間到輸出空間之間的映射的集合

映射—>監督學習模型:

  1. 機率模型 P(Y|X)
  2. 非機率模型 Y=f(x)

1.3 統計學習三要素

方法=模型+政策+算法

模型:

政策:用于判斷是否是最優模型

損失:給定X,輸出Y與真實值Y的差距。用損失函數來度量損失的程度。

1.4 模型評估和選擇

令學習後的模型為f(x),訓練誤差則是關于訓練資料集的平均損失,

測試誤差則是關于測試資料集的平均損失

過拟合問題

1.5 正則化與交叉驗證

正則化,也就是我們之前提到了結構化風險最小化的實作。

在回歸問題中,loss函數若為平方損失,則模型複雜度可以為L2範數。

交叉驗證:

  1. 簡單交叉驗證
  2. S折交叉驗證

1.6 泛化能力

模型對未知資料的預測能力

1.7 生成模型和判别模型

生成方法時由資料學習聯合機率分布P(X,Y)

判别方法時由資料直接學習決策函數f(x)

1.8 分類問題

分類問題的決策函數交分類器。

1)True positives(TP): 被正确地劃分為正例的個數,即實際為正例且被分類器劃分為正例的執行個體數(樣本數);

2)False positives(FP): 被錯誤地劃分為正例的個數,即實際為負例但被分類器劃分為正例的執行個體數;

3)False negatives(FN):被錯誤地劃分為負例的個數,即實際為正例但被分類器劃分為負例的執行個體數

4)True negatives(TN): 被正确地劃分為負例的個數,即實際為負例且被分類器劃分為負例的執行個體數。

1)正确率(accuracy

  正确率是我們最常見的評價名額,accuracy = (TP+TN)/(P+N),這個很容易了解,就是被分對的樣本數除以所有的樣本數,通常來說,正确率越高,分類器越好;

2)錯誤率(error rate)

  錯誤率則與正确率相反,描述被分類器錯分的比例,error rate = (FP+FN)/(P+N),對某一個執行個體來說,分對與分錯是互斥事件,是以accuracy =1 - error rate;

3)靈敏度(sensitive)

  sensitive = TP/P,表示的是所有正例中被分對的比例,衡量了分類器對正例的識别能力;

4)特效度(specificity)

  specificity = TN/N,表示的是所有負例中被分對的比例,衡量了分類器對負例的識别能力;

5)精度(precision)

  精度是精确性的度量,表示被分為正例的示例中實際為正例的比例,precision=TP/(TP+FP);

6)召回率(recall)

  召回率是覆寫面的度量,度量有多個正例被分為正例,recall=TP/(TP+FN)=TP/P=sensitive,可以看到召回率與靈敏度是一樣的。

1.9 标注問題和回歸

标注問題也是分類問題的一種推廣,例如,标記字元

回歸問題用于預測輸入和輸出之間的關系,回歸問題常用的loss函數為平方損失,也通過最小二乘進行求解。

1.10 極大似然估計和貝葉斯估計

似然:在已知結果下,去推測産生這個結果的參數(環境結構)

極大似然:在已知結果下,該事件在不同條件下發生可能性,似然值越大,該事件對應條件下發生可能性越大。

對于貝葉斯估計來說,則會考慮認為給定的先驗資訊和樣本資訊。

參考:https://blog.csdn.net/qq_21997625/article/details/79853483

繼續閱讀