回归模型-评估指标

一、多元线性回归
二、正则化防止过拟合
三、非线性回归：多项式回归

3.1 回归模型评估指标

四、决策树（分类回归树）分类标准
五、相关和回归

5.1 相关和回归的关系
5.2 线性相关性度量：皮尔逊相关系数

六、一元线性回归

6.1 一元线性回归模型

七、课程总结

一、多元线性回归

多元线性回归示例：

y=b+a1∗x1+a2∗x2+⋅⋅⋅+an∗xn

∗

房价预测案例：
多重共线性（Multicollinearty）:
    是指线性回归模型中的 解释变量（X）之间
    由于存在高度相关关系而使模型估计失真或难以估计准确
多重共线性的影响:
    上述模型参数（$a_1,a_2...$）估值不准，有时候会导致出现相关性反转。

如何发现多重共线性
    对X变量探索两两之间的相关性（相关矩阵）

逐步回归概念是一种多元回归模型进行变量筛选的方法，筛选最少的变量来获取最大化预测能力
三种方法：
    向前选择法
    向后剔除法
    逐步回归法

二、正则化防止过拟合

min∑i=1n(Yi−Yi^)=min∑i=1nε^2i

∑

(

−

)

∑

在最小化残差平方和的基础上，增加L2范数的惩罚项：

∑i=1n(yi−β0−∑j=1pβjxij)2+λ∑j=1pβ2j=RSS+λ∑j=1pβ2j

∑

(

−

∑

)

∑

L1正则化–lasso回归

min∑i=1n(Yi−Yi^)=min∑i=1nε^2i

∑

(

−

)

∑

在最小化残差平方和的基础上，增加L1范数的惩罚项：

∑i=1n(yi−β0−∑j=1pβjxij)2+λ∑j=1p|βj|=RSS+λ∑j=1p|βj|

∑

(

−

∑

)

∑

三、非线性回归：多项式回归

非线性回归的转换——取对数

多项式回归代码实现：
sklearn.preprocession.PolynomialFeatures(
                degree = 2,              #阶数
                interaction_only = False,
                include_bias = True
               ) 

sklearn.linear_model.LinearRegression(
                fit_intercept = True,
                noemalize = False,
                copy_X = True

3.1 回归模型评估指标

Explianed_variance(y,y^)=1−Var{y−y^}Var{y}

(

)

−

{

−

}

{

}

绝对平均误差（Mean absolute error）：

MAE(y,y^)=1nsamplies∑i=0nsamplies−1|yi−y^|

(

)

∑

−

均方误差（Mean squared error）：

MSE(y,y^)=1nsamplies∑i=0nsamplies−1(yi−y^)2

(

)

∑

−

(

−

)

决定系数（

score）

R2(y,y^)=1−∑nsamplies−1i=0(yi−yi^)2∑nsamplies−1i=0(yi−y¯)2

(

)

−

∑

−

(

−

)

∑

−

(

−

)

代码：
sklearn.metrics
from sklearn.metrics import explained_variance_score
explained_variance_score(y_true,y_pred)

from sklearn.metrics import mean_absolute_error
mean_absolute_error(y_true,y_pred)

from sklearn.metrics import mean_squared_error
mean_squared_error(y_true,y_pred)

from sklearn.metrics import

四、决策树（分类回归树）分类标准

Gain(A) = Variance(父) - Variance(子) #Gain(A)信息增益

五、相关和回归

5.1 相关和回归的关系

都是研究变量相互关系的分析方法
    相关分析是回归分析基础和前提，回归分析是变量之间相关程度的具体形式
    相关分析：正相关,负相关
    相关形式: 线性, 非线性

5.2 线性相关性度量：皮尔逊相关系数

r=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2−−−−−−−−−−−√∑ni=1(yi−y¯)2−−−−−−−−−−−√

∑

(

−

)

(

−

)

∑

(

−

)

∑

(

−

)

六、一元线性回归

6.1 一元线性回归模型

该方法是寻找最佳拟合直线的参数（斜率和截距）

min∑i=1n(Yi−Yi^)2=min∑i=1nεi^2

∑

(

−

)

∑

参数估计回归表达式： Yi^=β0^+β1^xi

斜率: β1^=SSxySSxx=∑(xi−x¯)yi−y¯)∑(xi−x¯)2

斜

率

∑

(

−

)

−

)

∑

(

−

)

七、课程总结

分类与回归 区别与联系
相似之处：
    都是有监督学习
    最重要的两种预测模型
    决策树既可以分类 也可以做回归
    二元分类模型的经典算法逻辑回归算法，本质上也是一种回归算法

区别：
    回归目标变量是连续型变量
    分类目标变量是类别型变量

常见的饿回归算法和模型
    1 基于最小二乘法的一元/多元线性回归
    2 多项式回归（非线性）
    3 Ridge 回归（L2正则化回归），岭回归
    4 Lasso 回归（L1正则化回归），套索回归
    5 决策树（CART，分类回归树）
    6 逻辑回归

回归模型-评估指标

一、多元线性回归

二、正则化防止过拟合

三、非线性回归：多项式回归

3.1 回归模型评估指标

四、决策树（分类回归树）分类标准

五、相关和回归

5.1 相关和回归的关系

5.2 线性相关性度量：皮尔逊相关系数

六、一元线性回归

6.1 一元线性回归模型

七、课程总结

继续阅读

R语言近似贝叶斯计算MCMC（ABC-MCMC）轨迹图和边缘图可视化

logistics判别与线性模型中的问题

几句话梳理Linear Regression、Logistics Regression、Softmax Regression之间的共性与区别

数学建模基本算法---线性规划线性规划

拓端数据tecdat|R语言分段线性回归分析预测车辆的制动距离

【视频】线性回归中的贝叶斯推断与R语言预测工人工资数据|数据分享

矩阵分解笔记（Notes on Matrix Factorization）

机器学习之线性回归（Linear Regression）

【AndrewNg机器学习】线性回归(Linear Regression)1 单变量线性回归2 多变量线性回归

线性回归算法梳理机器学习的一些概念线性回归

线性回归算法梳理1. 机器学习的一些概念2. 线性回归的原理3. 线性回归损失函数、代价函数、目标函数4. 优化方法5. 线性回归的评价指标6. 线性回归sklearn参数详解

线性回归算法梳理（打卡task-1）

组合数与母函数

关于多项式的一点研究及其在ACM竞赛中的应用关于多项式的一点研究及其在ACM竞赛中的应用

拓端tecdat|R语言弹性网络Elastic Net正则化惩罚回归模型交叉验证可视化

【多变量线性回归】学习记录序思路实现终