天天看點

拓端tecdat|R平方/相關性取決于預測變量的方差

 在我今天參與的一個讨論中,提出了一個問題,即在具有單個連續預測器的線性回歸模型中R平方如何/是否取決于預測變量的方差。這個問題的答案當然是肯定的。

 可視化 

我們還可以在R中輕松地可視化前面的概念。我們首先從具有非常大的樣本大小的線性模型中模拟資料:

n < -  10000
 x < -  100 * runif(n)
y < -  x + rnorm(n)      

我們有:

拓端tecdat|R平方/相關性取決于預測變量的方差

Y對X,對X沒有限制

 拟合相應的線性模型證明了這一點:

summary(lm(y~x))

Call:
lm(formula = y ~ x)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.1295 -0.6794 -0.0023  0.6879  3.5579 

Coefficients:
             Estimate Std. Error  t value Pr(>|t|)    
(Intercept) 0.0068489  0.0204500    0.335    0.738    
x           0.9999752  0.0003534 2829.539   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.015 on 9998 degrees of freedom
Multiple R-squared:  0.9988,    Adjusted R-squared:  0.9988 
F-statistic: 8.006e+06 on 1 and 9998 DF,  p-value: < 2.2e-16      

給出R平方0.9988。

接下來,我們再次繪制資料, 

拓端tecdat|R平方/相關性取決于預測變量的方差
summary(lm(y[x<1]~x[x<1]))

Call:
lm(formula = y[x < 1] ~ x[x < 1])

Residuals:
     Min       1Q   Median       3Q      Max 
-2.93421 -0.73513 -0.09459  0.69282  2.59506 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)  -0.0893     0.2432  -0.367  0.71459   
x[x < 1]      1.3960     0.4386   3.183  0.00215 **
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.121 on 72 degrees of freedom
Multiple R-squared:  0.1233,  Adjusted R-squared:  0.1112 
F-statistic: 10.13 on 1 and 72 DF,  p-value: 0.002155