天天看點

matlab逐漸回歸分析法,天大matlab大作業逐漸回歸分析方法.doc

matlab逐漸回歸分析法,天大matlab大作業逐漸回歸分析方法.doc

天大matlab大作業逐漸回歸分析方法.doc

逐漸回歸分析方法在實際中,影響Y的因素很多,這些因素可能存在多重共線性(相關性),這就對系數的估計帶來不合理的解釋,進而影響對Y的分析和預測。“最優”的回歸方程就是包含所有對Y有影響的變量,而不包含對Y影響不顯著的變量回歸方程。選擇“最優”的回歸方程有以下幾種方法:(1)從所有可能的因子(變量)組合的回歸方程中選擇最優者;(2)從包含全部變量的回歸方程中逐次剔除不顯著因子;(3)從一個變量開始,把變量逐個引入方程;(4)“有進有出”的逐漸回歸分析。以第四種方法,即逐漸回歸分析法在篩選變量方面較為理想.逐漸回歸分析法的思想:從一個自變量開始,視自變量Y作用的顯著程度,從大到小地依次逐個引入回歸方程。當引入的自變量由于後面變量的引入而變得不顯著時,要将其剔除掉。引入一個自變量或從回歸方程中剔除一個自變量,為逐漸回歸的一步。對于每一步都要進行Y值檢驗,以確定每次引入新的顯著性變量前回歸方程中隻包含對Y作用顯著的變量。這個過程反複進行,直至既無不顯著的變量從回歸方程中剔除,又無顯著變量可引入回歸方程時為止。原理:1、最優選擇的标準設n為觀測樣本數,},,{21mxxX為所有自變量構成的集合,為X的子集。liiiA,21(1)均方誤差s2最小達到最小1)(2lnASsE(2)預測均方誤差最小達到最小ASlnAJE1)((3)統計量最小準則達到最小nlmSCEp21(4)AIC或BIC準則或達到最小nlASAIE2l)(nlASBICEln)((5)修正R2準則達到最大)1(22lni2、選擇最優回歸子集的方法(1)選擇最優子集的簡便方法:逐漸篩選法(STEPWISE)向前引入法或前進法(FORWARD)向後剔除法或後退法(BACKWARD)(2)計算量最大的全子集法:R2選擇法(RSQUARE)Cp選擇法(CP)修正R2選擇法(ADJRSQ)。(3)計算量适中的選擇法:最小R2增量法(MINR)最大R2增量法(MAXR)步驟1、前進法:事先給定挑選自變量進入方程的顯著性水準,按自變量對因變量y的貢獻由大到小依次挑選自變量進入方程,直到方程外沒有顯著的自變量可引入為止。該方法的特點是:自變量一旦被選入,就永遠保留在模型中。(1)将全部m個自變量,分别與因變量y建立一進制回歸方程;(2)分别計算這m個一進制回歸方程中回歸系數的檢驗統計量F,記為:112,,mF取最大值1121,,axmkF若11nk,進停止篩選;若211nFk,進選入,不妨設是,進入步驟(3);1kx1kx(3)分别将自變量組,,,與因變量y建立二進制回21x31mx,1歸方程,計算回歸方程中x2,x3,…,xm的回歸系數檢驗統計量F,記為:223,,mF取其最大值,2232,,axmkF若122nk,進則停止篩選,y與x1之間的回歸方程就是最優的回歸方程;若2FFk,進選進xk2,不妨設xk2是x2,進入步驟(4)。(4)對已經選入模型的變量,x1,x2,如同前面的方法做下去,直到所有未被選入模型的自變量的F值都小于相應的臨界值為止,這時的回歸方程就是最優回歸方程。前進法的一般步驟:假設已進行了l步篩選,并選入自變量x1,x2,…xl,現進行第l+1步篩選:分别将自變量組,,,121,,lxx221,,lx與y建立l+1元回歸方程;回歸方程中mlxx,,21的回歸系數檢驗統計量記為:ll,,1121,,lmllFF記11211,,maxlmlllk若)1(,(1lnFlkl停止篩選,上一步得到的回歸方程,即為最優的回歸方程;若)1(,11lnFlk将選進模型,進行下一步篩選。1lkx前進法的缺點:不能反映自變量選進模型後的變化情況。2、後退法:事先給定從方程中剔除自變量的顯著性水準,開始全部自變量都在模型中,然後按自變量對y的貢獻由小到大依次剔除,直至方程中沒有不顯著的變量可剔除為止。該方法的特點是:自變量一旦被剔除,就不再進入模型(1)建立全部自變量x1,x2,…,xm對因變量y的回歸方程,對方程中m個自變量的回歸系數b1,b2,…,bm進行F檢驗,相應的F值記為:112,,mFF取最小值1121,,inmk若111Fk,出沒有自變量可剔除,此時的回歸方程就是最優的回歸方程若111mnFk,出剔除xk1,不妨設xk1是xm,進入步驟(2)。2)建立x1,x2,…,xm-1與因變量y的回歸方程,對方程中自變量的回歸系數進行F檢驗,相應的F值記為:2121,,m取最小值21212,,inmkFF若)(2k,出則無自變量可剔除,此時的回歸方程即最優的回歸方程;若1)(12mnFk,出将xk2從模型中剔除,不妨設xk2就是xm-1,進入步驟(3);(3)重複前面的做法,直至回歸方程中各變量回歸系數的F值均大于臨界值,即方程中沒有變量可剔除為止,此時的回歸方程就是最優的回歸方程。後退法的一般步驟:假設已經進行了l步剔除,模型中的自變量為x1,x2,…,xm-l,現進行第l+1步剔除:建立x1,x2,…,xm-l對y的回歸方程,對方程中x1,x2,…,xm-l的回歸系數進行F檢驗,相應的F統計量記為:1121,,lmll取最小值},,in{11211lmlllkFF若1,1llk則停止篩選,y與x1,x2,…,xm-l之間的回歸方程即為最優的回歸方程;若1,11lmnFlk則剔除,不妨設為,進行下一步篩選。1lkx1lxl後退法的缺點:開始把全部自變量都引入模型,計算量大。3、逐漸篩選法:該方法在前進法的基礎上,引進後退法的思想。即對每一個自變量随着其對回歸方程貢獻的變化,随時地引入或剔除模型,使得最終回歸方程中的變量對y的影響都是顯著的,而回歸方程外的變量對y的影響都是不顯著的,該方法即通常所說的逐漸回歸法。設y是因變量,x1,x2,…,xm是所有自變量,yi,xi1,xi2,…,xim(i=1,2,…,n)是獨立抽取的n組樣本。設自變量被選進模型的顯著性水準為,被剔除模型的顯著性水1平為,21021(1)計算離差矩陣SmymymmssssS212222111(2)逐漸篩選自變量第一步篩選:①計算各自變量的貢獻:jjyjsV21取最大值11)(max1jjkVV②對的作用是否顯著進行統計檢驗:1kx111nSFEk11kTEV若,1nF則結束所有自變量皆與y無關,不能建立回歸方程;若1mS1kx,1nF則将xk1選入模型,并将S轉化為進行第二步篩選;)1()1()1(2)()1()1()1(2)()1(2)()1(2)(111)(1mymykkkkymmssssS其中