机器学习的一些概念
有监督、无监督
根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:“监督学习”(supervised learning)和“无监督学习”(unsupervised learning)。监督学习是用已有的标注信息和期望训练出一个unction。K-近邻算法、决策树、朴素贝叶斯、分类和回归是前者的代表,而聚类、主成分分析(PCA)则是后者的代表。
泛化能力
学得模型适用于新样本的能力,称为“泛化”(generalization)能力,即能不能举一反三。就像老师让学生做的都是模拟卷,而不能跟最终的考试卷雷同,学生通过做模拟卷训练自己,而最终在考试卷中取得不错的成绩,便是相当于泛化能力的体现。
过拟合欠拟合
当学习器把训练样本学得“太好”了的时候,学习能力太过强大,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降,这种现象在机器学习中称为“过拟合”(overfitting)。与“过拟合”相对的是“欠拟合”(underfitting),这是指对训练样本的一般性质尚未学好。
P-R曲线
以查准率为纵轴、查全率为横轴作图,就得到了查准率-查全率曲线,简称“P-R曲线”。
交叉验证法
最常间的是K-折交叉验证(K-fold Cross Validation),记为K-CV。它是将数据集划分为k个大小相同的子集,然后用k-1个作为训练集,1个作为验证集,得到一个结果。然后保证每个子集都被作为一次验证集,即共k个结果,然后取均值。即为最后的结果。
线性回归
线性回归在假设特证满足线性关系,根据给定的训练数据训练一个模型,并用此模型进行预测。
损失函数、代价函数、目标函数
线性回归的模型为:

为了确定每一个权重w和b,使用均方误差作为性能度量,即试图让均方误差最小化。
优化方法-梯度下降法
要确定权重参数,就要在代价函数取最小值时才能确定。梯度下降法是先随机对权重赋予一个初值,然后沿着梯度下降的方向进行迭代权重值,最终得到一组逼近值。但此方法受下降的步长影响大,若步长取得小,则可能取得局部最小值,取得大,又可能学不到特性。
评估指标
- 均方误差(MSE - Mean Squared Error)
线性回归算法梳理机器学习的一些概念线性回归 - 均方根误差(RMSE - Root Mean Squard Error)
线性回归算法梳理机器学习的一些概念线性回归 - 平均绝对误差(MAE)
线性回归算法梳理机器学习的一些概念线性回归