统计学习方法01

统计学习及监督学习概论

1. 概念

机器学习的分类：
- 监督学习：从给定的训练数据集中学习出一个函数。训练集要求包括输入和输出，特征和目标。常见的监督学习有回归分析和统计分类（连续/离散）
- 无监督学习：训练集没有人为标注的结果。常见的有聚类。
- 半监督学习：介于监督学习和无监督学习之间
- 增强学习：通过观察学习做成动作。每个动作都会对环境有所影响。学习对象根据观察到的周围环境的反馈来做出判断。
假设空间：假设要学的模型属于某个函数的集合，模型可以将输入空间映射到输出空间，这个集合称为假设空间。需要从假设空间选取一个最优的模型，使其在给定的评价准则下对已知数据有最优的预测。
统计学习三要素：模型（模型的假设空间）、策略（评价模型）、算法（模型的学习算法）
输入/输出空间：在监督学习中，将输入与输出所有可能取值的集合分别称为输入空间、输出空间。
特征空间：每个具体的输入是一个实例，通常由特征向量表示。所有特征向量存在的空间为特征空间。
数学表达：
预测问题：
- 回归问题：输入输出都连续
- 分类问题：输出有限离散变量
- 标注问题：输入输出都是变量序列
监督学习的模型可以是概率模型或非概率模型，由条件概率分布 ( P ( Y ∣ X ) (P(Y∣X) (P(Y∣X)或决策函数 Y = f ( X ) Y=f(X) Y=f(X)表示
泛化能力：学习方法对未知数据的预测能力称为泛化能力
过拟合：学习时的模型包含参数过多，对已知数据预测的很好，对未知数据预测差

2. 统计学习三要素

模型

监督学习中，模型就是要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。

策略

策略是指按照什么样的准则学习或选择最优的模型。

算法

指学习模型的具体计算方法。当根据学习策略，选择最有模型后，要考虑如何求解最优化问题。

3. 正则化与交叉验证

正则化：在经验风险上加上一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值越大。目的是选择经验风险（损失函数）和模型复杂度同时较小的模型。
交叉验证：把原始数据切分为train data和test data.训练数据再切分几组，其中一份为验证集，其他几份做训练数据；再抽取另一份做验证集，剩下的做训练数据；在训练集上训练不同的模型，在抽取的验证集上验证模型，比较这些验证结果，选取效果好模型。

4. 泛化误差上界

泛化误差上界：泛化误差概率的上界。

5. 生成模型/判别模型

监督学习的方法：生成方法，判别方法
生成方法：由数据学习联合概率分布，求出条件概率分布作为预测模型： P ( Y ∣ X ) = P ( Y , X ) P ( X ) P(Y∣X)=\frac{P(Y,X)}{P(X)} P(Y∣X)=P(X)P(Y,X)
- 模型表示了给定输入X产生输出Y的生成关系
- 收敛速度快，存在隐变量
- 典型的生成模型：朴素贝叶斯、隐马尔科夫模型
判别方法：由数据直接学习决策函数f(X)或条件概率分布P(Y|X)做预测的模型。
- 典型的判别模型：k临近法，感知机、决策树、逻辑斯谛回归模型、最大熵模型、支持向量机、提升方法和条件随机场)

6. 分类问题

正类：关注的类；负类：其他类
tp：正类预测为正类
fn：正类预测为负类
fp：负类预测为正类
tn：负类预测为负类
精确率：预测结果为正类的准确率
召回率：实际为正类的实例中预测的准确率

统计学习方法01

1. 概念

2. 统计学习三要素

3. 正则化与交叉验证

4. 泛化误差上界

5. 生成模型/判别模型

6. 分类问题

继续阅读

统计学习方法02