天天看点

李航 统计学习方法 第一章 绪论1.1 统计学习1.2 监督学习1.3 统计学习三要素1.4 模型评估和选择1.5 正则化与交叉验证1.6 泛化能力1.7 生成模型和判别模型1.8 分类问题1.9 标注问题和回归1.10 极大似然估计和贝叶斯估计

李航 统计学习方法 第一章 绪论

第一章 绪论

  • 1.1 统计学习
  • 1.2 监督学习
  • 1.3 统计学习三要素
  • 1.4 模型评估和选择
  • 1.5 正则化与交叉验证
  • 1.6 泛化能力
  • 1.7 生成模型和判别模型
  • 1.8 分类问题
  • 1.9 标注问题和回归
  • 1.10 极大似然估计和贝叶斯估计

1.1 统计学习

a 得到一个有限的训练数据集合

b 确定包含所有可能模型的假设空间

c 确定模型选择的规则,即选择学习策略

d 实现求解最优化模型的算法

e 通过学习方法选择最优化模型

f 利用学习的最优化模型对新数据进行预测分析

1.2 监督学习

任务:学习一个模型,使模型能够对任意给定的输入,对其相应的输出做一个很好的预测

任务输出:

  1. 输出为离散—>分类问题
  2. 输出若为连续,且输入也连续—>回归问题

假设空间:输入空间到输出空间之间的映射的集合

映射—>监督学习模型:

  1. 概率模型 P(Y|X)
  2. 非概率模型 Y=f(x)

1.3 统计学习三要素

方法=模型+策略+算法

模型:

策略:用于判断是否是最优模型

损失:给定X,输出Y与真实值Y的差距。用损失函数来度量损失的程度。

1.4 模型评估和选择

令学习后的模型为f(x),训练误差则是关于训练数据集的平均损失,

测试误差则是关于测试数据集的平均损失

过拟合问题

1.5 正则化与交叉验证

正则化,也就是我们之前提到了结构化风险最小化的实现。

在回归问题中,loss函数若为平方损失,则模型复杂度可以为L2范数。

交叉验证:

  1. 简单交叉验证
  2. S折交叉验证

1.6 泛化能力

模型对未知数据的预测能力

1.7 生成模型和判别模型

生成方法时由数据学习联合概率分布P(X,Y)

判别方法时由数据直接学习决策函数f(x)

1.8 分类问题

分类问题的决策函数交分类器。

1)True positives(TP): 被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数(样本数);

2)False positives(FP): 被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数;

3)False negatives(FN):被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的实例数

4)True negatives(TN): 被正确地划分为负例的个数,即实际为负例且被分类器划分为负例的实例数。

1)正确率(accuracy

  正确率是我们最常见的评价指标,accuracy = (TP+TN)/(P+N),这个很容易理解,就是被分对的样本数除以所有的样本数,通常来说,正确率越高,分类器越好;

2)错误率(error rate)

  错误率则与正确率相反,描述被分类器错分的比例,error rate = (FP+FN)/(P+N),对某一个实例来说,分对与分错是互斥事件,所以accuracy =1 - error rate;

3)灵敏度(sensitive)

  sensitive = TP/P,表示的是所有正例中被分对的比例,衡量了分类器对正例的识别能力;

4)特效度(specificity)

  specificity = TN/N,表示的是所有负例中被分对的比例,衡量了分类器对负例的识别能力;

5)精度(precision)

  精度是精确性的度量,表示被分为正例的示例中实际为正例的比例,precision=TP/(TP+FP);

6)召回率(recall)

  召回率是覆盖面的度量,度量有多个正例被分为正例,recall=TP/(TP+FN)=TP/P=sensitive,可以看到召回率与灵敏度是一样的。

1.9 标注问题和回归

标注问题也是分类问题的一种推广,例如,标记字符

回归问题用于预测输入和输出之间的关系,回归问题常用的loss函数为平方损失,也通过最小二乘进行求解。

1.10 极大似然估计和贝叶斯估计

似然:在已知结果下,去推测产生这个结果的参数(环境结构)

极大似然:在已知结果下,该事件在不同条件下发生可能性,似然值越大,该事件对应条件下发生可能性越大。

对于贝叶斯估计来说,则会考虑认为给定的先验信息和样本信息。

参考:https://blog.csdn.net/qq_21997625/article/details/79853483