天天看点

第二次作业

模式识别的基本概念

  • 模式识别:根据已有知识的表达,针对待识别模式,判别决策其所属的类别或者预测其对应的回归值。模式识别本质上是推理的过程。
    第二次作业
  • 数学表达:模式识别可以看做一种函数映射f(x),将待识别模式x从输入空间映射到输出空间。函数F(x)是关于已有知识的表达。
  • 模型:已有知识的表达式y=f(x)。
  • 模型的组成:特征提取+回归器
  • 特征: 用于区分不同类别的、可观测的量,具有辨别能力和鲁棒性。

机器学习的基本概念

机器学习使用训练样本学习模型的参数和结构。模型结构分为线性结构和非线性结构。机器学习分为,无监督、半监督、监督式学习三种。

第二次作业

模型泛化能力

  • 泛化能力指的是器学习方法训练出来一个模型,对于已知的数据(训练集)性能表现良好,对于未知的数据(测试集)也应该表现良好的机器能力。泛化能力低会导致过拟合,即在训练阶段表现良好在测试阶段表现很差。因此不要过度训练,或者引入正则项。

评估方法与性能指标

  • 评估方法:留出法,K折交叉验证,留一验证。
  • 性能指标:准确度:将阳性和阴性综合起来度量识别正确的程度。精度:预测为阳性样本的准确程度。召回率:全部阳性样本中被预测为阳性的比例。

基于距离的分类器

MED分类器

  • 定义:把测试样本到每个类之前的距离作为决策模型,将测试样本判定为与其距离最近的类。

类的原型

  • 概念:用来代表这个类的一个模式或者一组量,便于计算该类和测试样本之间的距离

\[d(x,Ci)=d(y,Zi)

\]

其中Zi表示类Ci的原型

原型的种类

均值
第二次作业
最近邻
第二次作业
距离度量

方式:欧氏距离,曼哈顿距离,加权欧氏距离

概念:最小欧氏距离分类器。

  • 距离衡量:欧氏距离
  • 类的原型:均值
  • 决策边界
    第二次作业

特征白化

目的:去除特征变化的不同及特征之间的相关性。

  • 特征正交白化
    第二次作业
    第二次作业
  • 特征解耦
    第二次作业

MICD分类器

概念:最小类内距离分类器,基于马氏距离的分类器。

  • 判别公式
    第二次作业
  • 第二次作业

贝叶斯决策与学习

贝叶斯决策与MAP分类器

  • 后验概率:
    第二次作业
  • 贝叶斯规则:
    第二次作业
  • MAP分类器:
    第二次作业

MAP分类器:高斯观测概率

  • 观测概率:单维高斯分布
    第二次作业
  • 决策边界:
    第二次作业

决策风险与贝叶斯分类器

  • 决策风险和损失的概念
    第二次作业
    第二次作业
  • 风险评估
    第二次作业

贝叶斯分类器

在MAP分类器的基础上,加入决策风险因素。

  • 朴素贝叶斯分类器
    第二次作业

最大似然估计

定义

第二次作业
  • 目标函数
    第二次作业
  • 第二次作业
  • 协方差
    第二次作业

最大似然的估计偏差

  • 高斯分布均值的最大似然估计是无偏估计,协方差的最大似然估计是有偏估计。

贝叶斯估计

概念

第二次作业

KNN估计

第二次作业

线性判据与回归

线性判据基本概念

生成模型

第二次作业

判别模型

第二次作业

线性判据学习概述

  • 线性判据
    第二次作业
  • 学习和识别过程
    第二次作业

如何找最优解

  • 第二次作业

并行感知机算法

  • 算法流程
    第二次作业

串行感知机算法

  • 第二次作业

Fisher线性判据

设计动机:线性判据的模型可以看做把原空间个点 x 投影到新的以为空间y

  • 原理
    第二次作业

支持向量机基本概念

第二次作业

拉格朗日乘数法

  • 等式约束
    第二次作业
    第二次作业

拉格朗日对偶问题

*对偶函数

第二次作业

支持向量机学习算法

算法过程

  • 1构建拉格朗日函数
    第二次作业
  • 2构建对偶函数
    第二次作业

决策过程

第二次作业