天天看点

回归模型-评估指标

  • ​​一、多元线性回归​​
  • ​​二、正则化防止过拟合​​
  • ​​三、非线性回归:多项式回归​​
  • ​​3.1 回归模型评估指标​​
  • ​​四、决策树(分类回归树)分类标准​​
  • ​​五、相关和回归​​
  • ​​5.1 相关和回归的关系​​
  • ​​5.2 线性相关性度量:皮尔逊相关系数​​
  • ​​六、一元线性回归​​
  • ​​6.1 一元线性回归模型​​
  • ​​七、课程总结​​
回归模型-评估指标

一、多元线性回归

多元线性回归示例:      

y=b+a1∗x1+a2∗x2+⋅⋅⋅+an∗xn

y

=

b

+

a

1

x

1

+

a

2

x

2

+

·

·

·

+

a

n

x

n

回归模型-评估指标
房价预测案例:
多重共线性(Multicollinearty):
    是指线性回归模型中的 解释变量(X)之间
    由于存在高度相关关系而使模型估计失真或难以估计准确
多重共线性的影响:
    上述模型参数($a_1,a_2...$)估值不准,有时候会导致出现相关性反转。

如何发现多重共线性
    对X变量探索两两之间的相关性(相关矩阵)

逐步回归概念是一种多元回归模型进行变量筛选的方法,筛选最少的变量来获取最大化预测能力
三种方法:
    向前选择法
    向后剔除法
    逐步回归法      

二、正则化防止过拟合

min∑i=1n(Yi−Yi^)=min∑i=1nε^2i

m

i

n

i

=

1

n

(

Y

i

Y

i

^

)

=

m

i

n

i

=

1

n

ε

^

i

2

在最小化残差平方和的基础上,增加L2范数的惩罚项:

∑i=1n(yi−β0−∑j=1pβjxij)2+λ∑j=1pβ2j=RSS+λ∑j=1pβ2j

i

=

1

n

(

y

i

β

j

=

1

p

β

j

x

i

j

)

2

+

λ

j

=

1

p

β

j

2

=

R

S

S

+

λ

j

=

1

p

β

j

2

L1正则化–lasso回归

min∑i=1n(Yi−Yi^)=min∑i=1nε^2i

m

i

n

i

=

1

n

(

Y

i

Y

i

^

)

=

m

i

n

i

=

1

n

ε

^

i

2

在最小化残差平方和的基础上,增加L1范数的惩罚项:

∑i=1n(yi−β0−∑j=1pβjxij)2+λ∑j=1p|βj|=RSS+λ∑j=1p|βj|

i

=

1

n

(

y

i

β

j

=

1

p

β

j

x

i

j

)

2

+

λ

j

=

1

p

|

β

j

|

=

R

S

S

+

λ

j

=

1

p

|

β

j

|

三、非线性回归:多项式回归

非线性回归的转换——取对数

多项式回归代码实现:
sklearn.preprocession.PolynomialFeatures(
                degree = 2,              #阶数
                interaction_only = False,
                include_bias = True
               ) 

sklearn.linear_model.LinearRegression(
                fit_intercept = True,
                noemalize = False,
                copy_X = True      
3.1 回归模型评估指标

Explianed_variance(y,y^)=1−Var{y−y^}Var{y}

E

x

p

l

i

a

n

e

d

_

v

a

r

i

a

n

c

e

(

y

,

y

^

)

=

1

V

a

r

{

y

y

^

}

V

a

r

{

y

}

绝对平均误差(Mean absolute error):

MAE(y,y^)=1nsamplies∑i=0nsamplies−1|yi−y^|

M

A

E

(

y

,

y

^

)

=

1

n

s

a

m

p

l

i

e

s

i

=

n

s

a

m

p

l

i

e

s

1

|

y

i

y

^

|

均方误差(Mean squared error):

MSE(y,y^)=1nsamplies∑i=0nsamplies−1(yi−y^)2

M

S

E

(

y

,

y

^

)

=

1

n

s

a

m

p

l

i

e

s

i

=

n

s

a

m

p

l

i

e

s

1

(

y

i

y

^

)

2

决定系数(

R2

R

2

score)

R2(y,y^)=1−∑nsamplies−1i=0(yi−yi^)2∑nsamplies−1i=0(yi−y¯)2

R

2

(

y

,

y

^

)

=

1

i

=

n

s

a

m

p

l

i

e

s

1

(

y

i

y

i

^

)

2

i

=

n

s

a

m

p

l

i

e

s

1

(

y

i

y

¯

)

2

代码:
sklearn.metrics
from sklearn.metrics import explained_variance_score
explained_variance_score(y_true,y_pred)

from sklearn.metrics import mean_absolute_error
mean_absolute_error(y_true,y_pred)

from sklearn.metrics import mean_squared_error
mean_squared_error(y_true,y_pred)

from sklearn.metrics import      

四、决策树(分类回归树)分类标准

回归模型-评估指标

>

Gain(A) = Variance(父) - Variance(子) #Gain(A)信息增益

五、相关和回归

5.1 相关和回归的关系
都是研究变量相互关系的分析方法
    相关分析是回归分析基础和前提,回归分析是变量之间相关程度的具体形式
    相关分析:正相关,负相关
    相关形式: 线性, 非线性      
回归模型-评估指标
回归模型-评估指标

>

5.2 线性相关性度量:皮尔逊相关系数

r=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2−−−−−−−−−−−√∑ni=1(yi−y¯)2−−−−−−−−−−−√

r

=

i

=

1

n

(

x

i

x

¯

)

(

y

i

y

¯

)

i

=

1

n

(

x

i

x

¯

)

2

i

=

1

n

(

y

i

y

¯

)

2

回归模型-评估指标

相关VS回归:

回归模型-评估指标

六、一元线性回归

6.1 一元线性回归模型
回归模型-评估指标

该方法是寻找最佳拟合直线的参数(斜率和截距)

min∑i=1n(Yi−Yi^)2=min∑i=1nεi^2

m

i

n

i

=

1

n

(

Y

i

Y

i

^

)

2

=

m

i

n

i

=

1

n

ε

i

^

2

参数估计 回归表达式: Yi^=β0^+β1^xi

Y

i

^

=

β

^

+

β

1

^

x

i

斜率:      β1^=SSxySSxx=∑(xi−x¯)yi−y¯)∑(xi−x¯)2

:

β

1

^

=

S

S

x

y

S

S

x

x

=

(

x

i

x

¯

)

y

i

y

¯

)

(

x

i

x

¯

)

2

七、课程总结

分类与回归 区别与联系
相似之处:
    都是有监督学习
    最重要的两种预测模型
    决策树既可以分类 也可以做回归
    二元分类模型的经典算法逻辑回归算法,本质上也是一种回归算法

区别:
    回归目标变量是连续型变量
    分类目标变量是类别型变量

常见的饿回归算法和模型
    1 基于最小二乘法的一元/多元线性回归
    2 多项式回归(非线性)
    3 Ridge 回归(L2正则化回归),岭回归
    4 Lasso 回归(L1正则化回归),套索回归
    5 决策树(CART,分类回归树)
    6 逻辑回归      

继续阅读