方法 | 适用问题 | 模型特点 | 模型类型 | 学习策略 | 学习的损失函数 | 学习算法 | 备注 |
---|---|---|---|---|---|---|---|
感知机 | 二类分类 | 分离超平面 | 判别模型 | 极小化误分类点到超平面的距离 | 误分类点到超平面距离(经验风险) | 随机梯度下降 | |
k近邻 | 多类分类,回归 | 特征空间,样本点 | 判别模型 | k近邻算法的三要素:距离度量、k值选择、和分类决策规则。 距离度量:欧氏距离和一般的 距离 常用的分类决策规则是多数表决,对应于经验风险最小化 | k近邻算法的实现需要考虑如何快速搜索k个最近邻点,kd树是一种便于对k维空间中的数据进行快速检索的数据结构。 | ||
kd树是二叉树,对应对k维空间的一个划分,其每个节点对应于k维空间划分中的一个超矩形区域。 | |||||||
朴素贝叶斯 | 多类分类 | 特征与类别的联合概率分布,条件独立性假设 | 生成模型(通过训练数据得到联合分布) | 极大似然估计,极大后验概率估计(期望风险最小化) | 对数似然损失 | 概率计算公式,EM算法 | |
后验概率最大等价于0-1损失函数时的期望风险最小化 | |||||||
决策树 | 多类分类,回归 | 分类树,回归树 | 判别模型 | 正则化的极大似然估计(以损失函数为目标函数的最小化) | 对数似然函数 | 特征选择,生成,剪枝 | 自上而下生成,自下而上剪枝 |
逻辑斯蒂回归 与最大熵 | 多类分类 | 特征条件下类别的条件概率分布,对数线性模型 | 判别模型 | 极大似然估计,正则化的极大似然估计 | 逻辑斯蒂损失 | 改进的迭代尺度法IIS,梯度下降,拟牛顿法 | |
最大熵 | |||||||
支持向量机 | 二类分类 | 分离超平面 | 判别模型 | 极小化正则化合页损失,软间隔最大化 | 合页损失 | 序列最小最优化算法(SMO) | 线性可分支持向量机 线性支持向量机 非线性支持向量机 |
提升方法 | 二类分类 | 弱分类器的线性组合 | 判别模型 | 极小化加法模型的指数损失 | 指数损失 | 前向分步加法算法 | |
EM算法 | 概率模型参数估计 | 含隐变量概率模型 | 极大似然估计,极大后验概率估计 | 对数似然损失 | 迭代算法 | ||
E步,求期望: M步,求极大: | |||||||
隐马尔可夫模型 | 标注 | 观测序列与状态序列的联合概率分布模型 | 生成模型 | 极大似然估计,极大后验概率估计 | 对数似然损失 | 概率计算公式,EM算法 | 概率计算算法 学习算法 预测算法 |
条件随机场 | 标注 | 状态序列条件下观测序列的条件概率分布,对数线性模型 | 判别模型 | 极大似然估计,极大后验概率估计 | 对数似然损失 | 改进的迭代尺度法,梯度下降,拟牛顿法 | 概率计算算法 学习算法 预测算法 |
参考文献:[1] 李航.统计学习方法[M], 清华大学出版社, 2012.3, ISBN 978-7-302-27595-4