統計回歸模型
(一)逐漸回歸
前提:當自變量x1,x2,x3…xn過多時,希望進行簡化,找到對因變量貢獻相對較大的自變量
需要計算出相關系數矩陣
![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsICM38FdsYkRGZkRG9lcvx2bjxiNx8VZ6l2cs0TPR9UeFR1T0MGROBDOsJGcohVYsR2MMBjVtJWd0ckW65UbM5WOHJWa5kHT20ESjBjUIF2X0hXZ0xCMx81dvRWYoNHLrdEZwZ1Rh5WNXp1bwNjW1ZUba9VZwlHdssmch1mclRXY39CXldWYtlWPzNXZj9mcw1ycz9WL49zZuBnL5QjM5UzMwgTMwETNwAjMwIzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
然後根據自變量的貢獻系數
找出貢獻最大的自變量,與貢獻最小的自變量,再進一步與F檢驗的Fin,Fout兩個臨界值比較,
判斷是否能被選入,是否被剔除
再選出一個自變量之後,該自變量變為主元,對相關系數矩陣進行變化
在進行下一輪判斷,直到所有的自變量都被确定
(二)關于方差
一般假設殘差要滿足正态分布,需要進行殘差檢驗,
最直覺的就是起碼殘差要有正有負,不能全為正值或負值,且分布不能與自變量之間存在關系
(三)相關系數R和F檢驗的F值越大越好
(四)Logit回歸
适用于二分類問題
引入π(x)=p(y=1|x),與logit變換log(π(x)/(1-π(x)),一些注意的問題
1.如果自變量xi有三種情況及以上,即比如尺碼有小中大,此時需要引入亞變量,
例如xi變為[xi0,xi1].即[0,0]表示小,[0,1]表示中,[1,0]表示大
2.log(π(x)/(1-π(x))=A(x),A(x)的次數依情況和資料而定
是否引入高次項要根據似然比檢驗統計量
3.回歸系數在logit模型中有可解釋的意義
Odd(x)=π(x)/(1-π(x),odd(x)為發生比,當A(x)=ax+b時.odd(x)=exp(ax+b)
Odd(x+1)/odd(x)=exp(a),即自變量變化1各機關,發生比的變化情況
(五)自相關.同一變量順序觀測值之間存在相關性,這時候用基本的回歸模型就已經不行了.
比如體重,就是一個自相關的自變量,t時刻的體重與t-1時刻的體重是相關的
先有DW檢驗判斷是否存在自相關,根據值進行判斷落在不相幹,正自相關,負自相關
然後對原有的線性回歸進行修訂
(六)考慮互動項,如果模型存在很大的可以改進的空間,可以引入類似于x1x2,x2x3,考慮他們的互動作用,重新進行拟合