机器学习的一些概念

有监督、无监督

根据训练数据是否拥有标记信息，学习任务可大致划分为两大类：“监督学习”（supervised learning）和“无监督学习”（unsupervised learning）。监督学习是用已有的标注信息和期望训练出一个unction。K-近邻算法、决策树、朴素贝叶斯、分类和回归是前者的代表，而聚类、主成分分析（PCA）则是后者的代表。

泛化能力

学得模型适用于新样本的能力，称为“泛化”（generalization）能力，即能不能举一反三。就像老师让学生做的都是模拟卷，而不能跟最终的考试卷雷同，学生通过做模拟卷训练自己，而最终在考试卷中取得不错的成绩，便是相当于泛化能力的体现。

过拟合欠拟合

当学习器把训练样本学得“太好”了的时候，学习能力太过强大，很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降，这种现象在机器学习中称为“过拟合”（overfitting）。与“过拟合”相对的是“欠拟合”（underfitting），这是指对训练样本的一般性质尚未学好。

P-R曲线

以查准率为纵轴、查全率为横轴作图，就得到了查准率-查全率曲线，简称“P-R曲线”。

交叉验证法

最常间的是K-折交叉验证（K-fold Cross Validation），记为K-CV。它是将数据集划分为k个大小相同的子集，然后用k-1个作为训练集，1个作为验证集，得到一个结果。然后保证每个子集都被作为一次验证集，即共k个结果，然后取均值。即为最后的结果。

线性回归

线性回归在假设特证满足线性关系，根据给定的训练数据训练一个模型，并用此模型进行预测。

损失函数、代价函数、目标函数

线性回归的模型为：

线性回归算法梳理机器学习的一些概念线性回归

为了确定每一个权重w和b，使用均方误差作为性能度量，即试图让均方误差最小化。

线性回归算法梳理机器学习的一些概念线性回归

优化方法-梯度下降法

要确定权重参数，就要在代价函数取最小值时才能确定。梯度下降法是先随机对权重赋予一个初值，然后沿着梯度下降的方向进行迭代权重值，最终得到一组逼近值。但此方法受下降的步长影响大，若步长取得小，则可能取得局部最小值，取得大，又可能学不到特性。

评估指标

均方误差（MSE - Mean Squared Error）

线性回归算法梳理机器学习的一些概念线性回归
均方根误差（RMSE - Root Mean Squard Error）

线性回归算法梳理机器学习的一些概念线性回归
平均绝对误差（MAE）

线性回归算法梳理机器学习的一些概念线性回归

线性回归算法梳理机器学习的一些概念线性回归

机器学习的一些概念

有监督、无监督

泛化能力

过拟合欠拟合

P-R曲线

交叉验证法

线性回归

损失函数、代价函数、目标函数

优化方法-梯度下降法

评估指标

继续阅读

简单文档分类——朴素贝叶斯算法朴素贝叶斯算法简单文档分类实例步骤总结朴素贝叶斯分类调用(sklearn)

【分类算法】什么是分类算法定义分类与聚类分类过程方法

分类算法的评价指标

K-近邻算法以及图像分类应用

weka之NB算法

使用weka的select attribute

weka中分类器算法

在weka中集成自己的算法

【多变量线性回归】学习记录序思路实现终

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

【趋高机器视觉】机器视觉技术原理解析及解决方案

吴恩达 coursera ML 第七课总结+作业答案前言目录正文模型表示作业答案

XGBoost Plotting API以及GBDT组合特征实践 XGBoost Plotting API以及GBDT组合特征实践

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告