SVM支持向量机（一）

1. 分类模型
2. SVM
3. hinge loss
参考文献

支持向量机(support vector machine)是一种二分类模型，它的基本模型就是特征空间上的间隔最大的线性分类器，它的优化目标就是间隔最大化，一般将其转换为一个凸二次规划问题的求解。李宏毅老师从深度学习的角度解读了SVM模型，用梯度下降的方法求解使损失函数最小的参数，下面进行具体的介绍。

1. 分类模型

给定一个训练样本集，训练样本属于不同类别，我们需要在样本空间中找到一个分类器（划分超平面）将不同类别的样本分开，这就是分类问题。对于二分类问题，假设样本为 x ，类别为 y，y 可能的取值是 +1 和 -1。将样本 x 输入分类器，分类器将预测所给样本的类别。分类模型从某种意义上来说是假设函数的集合（Function set），我们通过假设函数假定输入样本x和类别y之间的关系，不同参数下的假设函数构成集合就是分类模型（Model）。下图给出了不同参数下的二分类模型。

飞桨PaddlePaddle|李宏毅机器学习特训营之支持向量机（一）1. 分类模型2. SVM3. hinge loss参考文献

一般使用损失函数（Loss function）来评估假设函数的优劣。损失函数的值越小则假设函数越好，我们期望找到一组最优参数使损失函数的值最小。深度学习一般采用梯度下降法寻找最优的参数。

下图给出了一个二分类模型的构造方法。右上角的蓝色实线框中给出了样本 x 及其对应的类别 y（取值为+1 和 -1）。第一步：设计一组假设函数Function set，给定一个样本 x，并输出其对应 Output。第二步：设计一个损失函数。第三步：梯度下降，训练模型。

飞桨PaddlePaddle|李宏毅机器学习特训营之支持向量机（一）1. 分类模型2. SVM3. hinge loss参考文献

2. SVM

SVM是一种二分类模型，它的两个亮点是Hinge Loss 和 Kernel Method。

飞桨PaddlePaddle|李宏毅机器学习特训营之支持向量机（一）1. 分类模型2. SVM3. hinge loss参考文献

如果想使用梯度下降法优化损失函数，那么损失函数一定得是可微的。上面的二分类模型（Binary Classification）中的损失函数是不可微的，SVM中用Hinge Loss替代它。此外SVM针对线性不可分问题还提出了Kernel Method。

3. hinge loss

由于ideal loss 是不可微的，因此用一个函数近似它，如下图所示。ideal loss 给出了预测值 g(x) 和类别 y 之间的关系，如果 g(x) 的输出 output 和类别 y 两者不等，损失函数值加1，如果相等则损失值不变。将 y * f(x) 作为横轴，因此 y * f(x) 越大，loss 值越小。近似ideal loss 的函数也应该满足相同的原则，即 loss值随横轴坐标增加而减小。

飞桨PaddlePaddle|李宏毅机器学习特训营之支持向量机（一）1. 分类模型2. SVM3. hinge loss参考文献

首先考虑用 Square loss 近似，损失函数在图中用红色曲线表示。函数不满足上述原则，y * f(x) 大于1时，loss值随横轴坐标增加而增大。因此用Square loss函数近似 ideal loss 是不合理的。

飞桨PaddlePaddle|李宏毅机器学习特训营之支持向量机（一）1. 分类模型2. SVM3. hinge loss参考文献
考虑用 sigmoid + Square loss 近似，损失函数在图中用蓝色曲线表示。

飞桨PaddlePaddle|李宏毅机器学习特训营之支持向量机（一）1. 分类模型2. SVM3. hinge loss参考文献
考虑用 sigmoid + cross entropy 近似，即 logistic regression 在图中用绿色曲线表示。

飞桨PaddlePaddle|李宏毅机器学习特训营之支持向量机（一）1. 分类模型2. SVM3. hinge loss参考文献
相比 sigmoid + Square loss，使用 logistic regression 作为损失函数，模型训练更容易。如上图所示，相同的横坐标变化下 logistic regression 的 loss 下降更快，“努力可以有回报”；sigmoid + Square loss 的 loss 下降更慢，“没有回报，不想努力”。
用 hinge loss 近似，在图中用紫色曲线表示。

飞桨PaddlePaddle|李宏毅机器学习特训营之支持向量机（一）1. 分类模型2. SVM3. hinge loss参考文献
hinge loss 不会随横坐标的增加，一直下降下去。当横坐标达到某一值时，loss就不会再减小，“及格就好”。logistic regression 则不会这样，它随横坐标增加，loss 会一直下降，“还要更好”。

参考文献

支持向量机通俗导论
《机器学习》周志华
李宏毅机器学习特训营的课程链接

课程链接

飞桨PaddlePaddle|李宏毅机器学习特训营之支持向量机（一）1. 分类模型2. SVM3. hinge loss参考文献

SVM支持向量机（一）

1. 分类模型

2. SVM

3. hinge loss

参考文献

继续阅读

简单文档分类——朴素贝叶斯算法朴素贝叶斯算法简单文档分类实例步骤总结朴素贝叶斯分类调用(sklearn)

考证大全 | 证券从业资格考试

敲黑板！2021年证券从业考试考点预测

2021年银行从业考试考情介绍,果断收藏!

证券从业合格证书什么时候打印？有哪些注意事项？

【干货满满】初级银行从业考试《个人理财》重点梳理

2020年经济师考试，难吗？

初级银行从业资格证有什么用？

MBA提前面试纯干货分享

MBA值得学么

吴恩达logistic回归实现

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

深度学习模型分析人类复杂疾病的准确性

【趋高机器视觉】机器视觉技术原理解析及解决方案

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络