天天看點

回歸分析和卡方檢驗的差別_漲知識|邏輯回歸中的統計方法

回歸分析和卡方檢驗的差別_漲知識|邏輯回歸中的統計方法

邏輯回歸彙總的變量選擇

1、 使用所有的變量:這是拟合模型的最簡單的方法;

2、 正向選擇:這種模型如要如下步驟。第一步,用截距對模型進行拟合,接下來,檢驗沒有納入模型的變量并選擇卡方統計量最大、符合進入條件的變量,這個條件可以通選選項SLE确定。一旦這個變量被納入模型就不會被移出,重複這個過程知道所有變量納入。

3、 逆向選擇:與正向相反,第一步,使用所有的變量進行拟合,然後,在每一步,移出Wald卡方統計量P值最大的變量,一旦移出,将不會納入。

4、 stepwise選擇:剛開始模型隻有截距項,正向選擇最優,逆向選擇最差,通過SLE和SLS的值控制納入和移出模型變量的p值。

5、 得分最有統計模型:最優得分法與stepwise方法相似,但是使用分支界定算法找出木偶性的分數統計量最高變量的子集,進而找出最優解。

相關方法

  • MLE極大似然估計

極大似然原理的直覺想法是:一個随機試驗如有若幹個可能的結果A,B,C,…。若在僅僅作一次試驗中,結果A出現,則一般認為試驗條件對A出現有利,也即A出現的機率很大。一般地,事件A發生的機率與參數a相關,A發生的機率記為P(A,a),則a的估計應該使上述機率達到最大,這樣的a顧名思義稱為極大似然估計。

極大似然估計是能溝通通過模型以最大機率線上樣本觀察資料,邏輯回歸模型主要使用極大似然法來進行估計

  • SLE

sas中在變量選舉進入的參數,SLE(sets criterion for entry into model) 是變量進入模型的标準即統計意義水準值P<0.3,是定邏輯回歸中變量納入的主要條件。

  • SLS

sas中在變量選舉進入的參數,SLS(sets criterion for staying in model)是變量在模型中保留的标準即統計意義水準值P<0.3,是定邏輯回歸中變量保留的主要條件。邏輯回歸變量進入後,因為新的變量進入導緻老的變量對整個模型的貢獻不足,從中移出的閥值。

  • 卡方校驗

原理:卡方檢驗就是統計樣本的實際觀測值與理論推斷值之間的偏離程度,實際觀測值與理論推斷值之間的偏離程度就決定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趨于符合,若兩個值完全相等時,卡方值就為0,表明理論值完全符合。

卡方檢驗的兩個應用是拟合性檢驗和獨立性檢驗。拟合性檢驗是用于分析實際次數與理論次數是否相同,适用于單個因素分類的計數資料。獨立性檢驗用于分析各有多項分類的兩個或兩個以上的因素之間是否有關聯或是否獨立的問題。

應用場景——卡方校驗的場景

1.應用執行個體——适合度檢驗

實際執行多項式試驗而得到的觀察次數,與虛無假設的期望次數相比較,稱為卡方适度檢驗,即在于檢驗二者接近的程度,利用樣本資料以檢驗總體分布是否為某一特定分布的統計方法。

2.應用執行個體2——獨立性檢驗

卡方獨立性檢驗是用來檢驗兩個屬性間是否獨立。一個變量作為行,另一個變量作為列。

3.應用執行個體3——統一性檢驗

檢驗兩個或兩個以上總體的某一特性分布,也就是各“類别”的比例是否統一或相近,一般稱為卡方統一性檢驗或者卡方同質性檢驗。

具體參考例子

見文檔:

http://wiki.mbalib.com/wiki/%E5%8D%A1%E6%96%B9%E6%A3%80%E9%AA%8C

模型選擇的幾種方法:AIC,BIC,HQ準則

引用:http://blog.csdn.net/xianlingmao/article/details/7891277

經常地,對一堆資料進行模組化的時候,特别是分類和回歸模型,我們有很多的變量可供使用,選擇不同的變量組合可以得到不同的模型,例如我們有5個變量,2的5次方,我們将有32個變量組合,可以訓練出32個模型。但是哪個模型更加的好呢?目前常用有如下方法:

AIC=-2 ln(L) + 2 k 中文名字:赤池資訊量 akaike information criterion

BIC=-2 ln(L) + ln(n)*k 中文名字:貝葉斯資訊量 bayesian information criterion

HQ=-2 ln(L) + ln(ln(n))*k hannan-quinn criterion

其中L是在該模型下的最大似然,n是資料數量,k是模型的變量個數。

注意這些規則隻是刻畫了用某個模型之後相對“真實模型”的資訊損失【因為不知道真正的模型是什麼樣子,是以訓練得到的所有模型都隻是真實模型的一個近似模型】,是以用這些規則不能說明某個模型的精确度,即三個模型A, B, C,在通過這些規則計算後,我們知道B模型是三個模型中最好的,但是不能保證B這個模型就能夠很好地刻畫資料,因為很有可能這三個模型都是非常糟糕的,B隻是爛蘋果中的相對好的蘋果而已。

這些規則理論上是比較漂亮的,但是實際在模型選擇中應用起來還是有些困難的,例如上面我們說了5個變量就有32個變量組合,如果是10個變量呢?2的10次方,我們不可能對所有這些模型進行一一驗證AIC, BIC,HQ規則來選擇模型,工作量太大。

————————————————

版權聲明:本文為CSDN部落客「小小她爹」的原創文章,遵循CC 4.0 BY-SA版權協定,轉載請附上原文出處連結及本聲明。

原文連結:https://blog.csdn.net/everlasting_188/java/article/details/51603530

回歸分析和卡方檢驗的差別_漲知識|邏輯回歸中的統計方法