天天看點

參數估計、假設檢驗與回歸

參數估計、假設檢驗統計總體架構

參數估計、假設檢驗與回歸

拟合(fitting)

概念 已知某函數的若幹離散函數值{f1,f2,…,fn},通過調整該函數中若幹待定系數f(λ1, λ2,…,λn),使得該函數與已知點集的差别(最小二乘意義)最小。如果待定函數是線性,就叫線性拟合或者線性回歸,否則叫作非線性拟合或非線性回歸。

參數估計

概念 在已知系統模型結構時,用系統的輸入和輸出資料計算系統模型參數的過程。

點估計

方法 最小二乘法和極大似然法(見Logistic regression 及MLR)

最小二乘法(least-squaresmodel)

概念 使誤差的平方和 ∑[p(Xi)-Yi]^2 最小
Equation 最小二乘矩陣形式:
參數估計、假設檢驗與回歸
計算  
參數估計、假設檢驗與回歸
,解出其中的 x。比較直覺的做法是求解
參數估計、假設檢驗與回歸
 ,但通常比較低效。其中一種常見的解法是對 進行QR分解(
參數估計、假設檢驗與回歸
),其中Q 是 正交矩陣(Orthonormal Matrix), R 是 上三角矩陣(Upper Triangular Matrix),則有
參數估計、假設檢驗與回歸
分類 普通最小二乘(OLS)、偏最小二乘、有條件(CLS)、正則化、權重

極大似然估計方法(Maximum Likelihood Estimate,MLE)

概念 在已知總體X機率分布時,對總體進行n次觀測,得到一個樣本,選取機率最大的
參數估計、假設檢驗與回歸
值作為未知參數
參數估計、假設檢驗與回歸
的估計是最合理的
Equation
參數估計、假設檢驗與回歸
選取
參數估計、假設檢驗與回歸
達到最大值的
參數估計、假設檢驗與回歸
作為估計值最合理。即
參數估計、假設檢驗與回歸
,  為極大似然估計值 (MLE). 其計算一般用對數求解。

例:設總體X服從參數為p的0-1分布,(X1, X2, …, Xn) 是來自X一個樣本,求p的極大似然估計。

解:X的機率分布為

參數估計、假設檢驗與回歸
似然函數
參數估計、假設檢驗與回歸

其中x1, x2, ..., xn 在集合{0,1} 中取值。

對數似然函數:

參數估計、假設檢驗與回歸
注意 極大似然估計隻是一種粗略的數學期望,要知道它的誤差大小還要做區間估計。

區間估計(interval estimation)

概念 根據樣本确定待估參數 的置信區間
方法 常見的分布統計量(參見參考文獻中的“統計學區間估計公式彙總表”)、Bootstrap方法
區分

區間估計:正向求解,目的是對未知參數的一個取值變化範圍(區間)的檢驗;

假設檢驗:逆向求解,目的是對已經給出的有關未知參數的一個結論作檢驗,看這個說法是不是應該被拒絕

置信區間(confidence interval)

概念

顯著性水準(符号:α)

如5%,小于給定标準的機率區間稱為拒絕區間,大于這個标準則為接受區間(置信區間 confidence interval)。

置信水準(符号:1-α)

反之。

參數估計、假設檢驗與回歸

假設檢驗(Hypothesis Testing) / 顯著性檢驗(Significance Test)

概念 根據一定假設條件由樣本推斷總體的一種方法,計算求出特定統計量(如t,F,卡方等),根據預先給定的顯著性水準進行檢驗,作出拒絕或接受假設H0的判斷。
分類 參數檢驗(parameter test)、非參數檢驗(Nonparametric tests)
方法

參數:F檢驗、t檢驗

非參數:拟合優度檢驗、Shapiro-Wilk W檢驗、D'Agostion's D檢驗、秩和檢驗

Terms Sample
原假設、備擇假設 原H(),備H1()
檢驗統計量 Ex,H: Ex = 8,H1: Ex > 8
臨界值c X > c,拒絕H;X < c,保留H
拒絕域W、接受域A 假設H被拒絕的樣本值集合為拒絕域
顯著性水準a “H為真但被錯誤拒絕”的機率,如0.05
參數檢驗、非參數檢驗 參數檢驗:總體分布已知,對參數假設檢驗
單邊、雙邊檢驗 拒絕域W={x>=c}單邊,W={x<=c1或x>=c2}雙邊
判斷 拒絕H0,則模型為真

F檢驗(方差分析、方差齊性檢驗、似然比檢驗 Analysis of Variance, ANOVA, Fisher)

概念

檢驗兩個樣本的方差是否有顯著性差異(通俗點,判斷兩方差是否足夠接近)。這是選擇何種T檢驗的前提。

當自變量隻有一個時,方差分析與t檢驗的結果等價。

R-squared是檢視方程拟合程度的;F檢驗是檢驗方程整體顯著性的;T檢驗是檢驗解釋變量的顯著性的。

公式

F統計量的構造即為 兩個服從卡方分布的統計量分别除以各自的自由度再相除。

F=(w/n)/(v/m) 其中 W,V為服從卡方分布的統計量,n,m為W,V的自由度

判斷

原假設:H0——無差異;H1——有顯著差異

F value的P值<顯著性水準(如0.05),則方程顯著

單因素 單因素方差分析(one way),有一個自變量
兩因素 兩因素方差分析(two way),有兩個自變量,如教學方法(A1,A2,A3)學生年級(B1,B2),第一個自變量有3個水準,第二個有2個水準,3x2共六種組合
多因素 又可分為多重比較檢驗和對比檢驗

t檢驗(studentt檢驗)

概念

主要用于樣本含量較小(例如n<30),總體标準差σ未知的正态分布資料。

兩組以上比較,或含有多個自變量,需要用方差分析,方差分析被認為是T檢驗的推廣。

判斷 H0兩個平均數之間沒有顯著差異(即自變量對因變量無顯著影響,如:性别為x,身高為y,男平均身高=女平均身高),一旦顯著,則接受H1,自變量參數有效。
分類

(1)單總體(單樣本 / single sample)

(2)雙總體檢驗(two sample)

(2.1)獨立樣本(dependent)

(2.2)配對樣本t檢驗(非獨立t檢驗 / paired samples / indenpendent)

z檢驗(u檢驗)

概念 z檢驗用于在總體标準差已知的情況下比較樣本均值與總體均值,樣本容量大于30平均值差異性檢驗。
判斷 H0兩個平均數之間沒有顯著差異
前提 總體參數标準差已知!(更多情況下,總體标準差未知時,但樣本來自正态分布時,仍考慮采用t檢驗)

非參數檢驗(Nonparametric tests)

優缺點

優點:在不假定總體分布的情況下,從資料本身,由于要求的資訊少,适應性相對更廣

缺點:對總體分布沒有要求,方法上缺乏針對性

當然,如果我們事先對總體分布資訊一無所知或難下定論,那麼建立在資料本身基礎上的非參數檢驗結果要比建立在一個可疑的總體分布上得到的參數檢驗結果要可靠得多。

拟合優度檢驗(test of goodness of fit)

概念 主要是運用判定系數(或稱拟合優度)和回歸标準差,檢驗模型對樣本觀測值的拟合程度。
方法 卡方檢驗
注意 當解釋變量為多元時,要使用調整的拟合優度,以解決變量元素增加對拟合優度的影響。

決定系數 / 判定系數 / 拟合優度Coefficient of determination

概念

拟合優度越大,自變量對因變量的解釋程度越高,相關的方程式參考價值越高.

R2(R squared),相關系數(coefficient of correlation)的平方即為決定系數。

Equation
參數估計、假設檢驗與回歸
參數估計、假設檢驗與回歸
參數估計、假設檢驗與回歸
 is the mean of the observed data,SST (sum of squares for total)為總平方和,SSR (sum of squares for regression為回歸平方和,SSE (sum of squares for error) 為殘差平方和,SST=SSR+SSE。

卡方檢驗(χ2檢驗、皮爾遜檢驗 Chi-square fitting test、Pearson)

Equation
參數估計、假設檢驗與回歸

A代表觀察頻數,E代表基于假設H0的期望頻數,A與E的差為殘差

确定顯著性水準如α=0.05,查x2值表得到否定域的臨界值

判斷 如:臨界值 > 統計量χ2,接受假設H0

赤弛弘次資訊量AIC

概念 Akaike information criterion,為日本統計學家赤池弘次創立,建立在熵的概念基礎上,判斷模型拟合資料的優良性。
Equation

AIC=2k-2ln(L)

其中:k是參數的數量,L是似然函數。 假設條件是模型的誤差服從獨立正态分布。 讓n為觀察數,RSS為剩餘平方和,那麼AIC變為: AIC=2k+nln(RSS/n)

判斷 優先考慮模型應是AIC值最小的那一個

Reference

經典非參數假設檢驗方法全

統計學區間估計公式彙總表

http://wenku.baidu.com/link?url=Ui6nRPtMhetUXVhb5ExcEAUJXXibNuf_GwczmpuCSa5USi4UQy1N2gLVf5hqhHMy9Gzy0y-0fchRQ0CU6naC_sz7WhXNiMAin6HJkf9Q0gq

極大似然估計

http://wenku.baidu.com/view/b4d058d17f1922791688e8d1.html

回歸總體架構

參數估計、假設檢驗與回歸

Simple Linear regression

參數估計、假設檢驗與回歸

多重共線性問題(Multicollinearity)

概念 回歸模型中的解釋變量之間由于存在高度相關關系而使模型估計失真
判斷

1、特征值;

2、條件索引;

3、方差比例

解決

1、嘗試增大樣本量;

2、去除專業上認為不重要但帶來強共線性的變量;

3、時間序列資料、線性模型:将原模型變換為差分模型;

4、進行主成分、因子分析,将多個共線性強的自變量綜合成少量的新變量;

5、進行嶺回歸分析(Ridge Regression)、通徑分析

逐漸回歸分析

概念

解決多重共線性問題,變量選擇方法。

回歸方程是顯著的,方程中的自變量也是盡可能顯著的,這才是最佳的回歸模型。

原理

引入變量Xi或剔除變量Xi所進行的F檢驗,一般 F進>=F出

包括3種方法:(1)forward,不斷引入;(2)backward,不斷剔除;(3)both,向前向後,反複引入剔除。

回歸系數regression coefficients

概念

表示自變量x 對因變量y 影響大小的參數,正回歸系數表示y 随x 增大而增大,負回歸系數表示y 随x增大而減小。用  表示,通常使用極大似然估計。

e.g. 回歸方程式Y=a+bX 中的斜率b就稱為回歸系數。

從本質上說決定系數和回歸系數沒有關系。

廣義線性模型Generalized linear model(GLM)

一般線性模型,其基本假定是y服從正态分布,而廣義線性模型則y服從其它分布(如一般logistic模型中y服從二項分布)。

自變量x、因變量y主要可以分為:

(1)       連續變量,如面積、數值範圍;

(2)       有序變量(等級變量),如-/+/++,0~10/10~20/20+;

(3)       分類變量,如廣州/深圳/珠海,等級為二即二分類變量(0-1變量);

GLM 很難處理連續型解釋變量的情況,解決方法,将連續型解釋變量的可能取值進行分組,缺點不是所有的連續型解釋變量都适合分組。這時可考慮GAM。

 Logisticregression (or logit regression)

概念 屬非線性回歸,是研究二分類或多分類觀察結果的多變量分析方法。
變量特點

應變量:1個,二項分布或多分類分布

自變量:2個及2個以上

回歸系數估計方法 極大似然法
回歸模型系數檢驗 似然比檢驗、Wald檢驗、比分檢驗
模型拟合效果評價 總符合率、Hosmer-lemeshow拟合優度統計量
分類

binominal(or binary): dependent variable can have only two possible types(e.g. "win" vs. "loss").

multinominal: more than two categories.

ordinal: the multiple categories are ordered. vise versa, 無序。

條件、非條件logistic回歸

Equation
參數估計、假設檢驗與回歸
參數估計、假設檢驗與回歸
參數估計、假設檢驗與回歸
,Note that 
參數估計、假設檢驗與回歸

 is interpreted as the probability of the dependent variable equaling a "success" or "case" rather than a failure or non-case.

logit變換

參數估計、假設檢驗與回歸
參數估計、假設檢驗與回歸
Odds
參數估計、假設檢驗與回歸

odds: probability that an outcome is a case divided by the probability that it is a noncase.

Odds ratio

參數估計、假設檢驗與回歸
解釋:The odds multiply by 
參數估計、假設檢驗與回歸
 for every 1-unit increase in x.

多元線性回歸Multiple Linear Regression(MLR)

概念 two or more independent variables (IVs) and a single dependent variable (DV).
變量特點

應變量:1個,正态分布

自變量:2個及2個以上

回歸系數估計方法 最小二乘法
回歸模型系數檢驗 方差分析(F檢驗)、t檢驗
模型拟合效果評價 決定系數R2、複相關系數R、校正決定系數
參數估計、假設檢驗與回歸
Equation
參數估計、假設檢驗與回歸
矩陣形式:
參數估計、假設檢驗與回歸
(for predicted values) or
參數估計、假設檢驗與回歸

(for observed values)

R is the multiple correlation coefficient, R can only range from 0 to 1, with 0 indicating no relationship and 1 a perfect relationship. R2 values would indicate 10%, 30%, and 50% of the variance in the DV

區分

Multiple linear regression

A single output Y is influenced by a set of input X=(X1, ... ,Xr),即兩個或兩個以上的自變量,相對應的是一進制線性回歸。是簡單直線模型的直接推廣。

Multivariate linear regression

A output Y=(Y1, ... ,Ys), each of them may be influenced by input X=(X1, ... ,Xr). The components of Y are also correlated with each other (and with the components of X).

Assumptions

1. Sample size:

50 + 8(k) for testing an overall regression model (where k is the number of IVs)

2. Normality

the variables are normally distributed

3. Linearity

the bivariate relationships need to be linear

4. Homoscedasticity

Are the bivariate distributions reasonably evenly spread about the line of best fit?

5. Multicollinearity

Is there multicollinearity between the IVs?

6. Multivariate outliers(MVOs)

7. Normality of residuals

Residuals are more likely to be normally distributed if each of the variables normally distributed

廣義相加模型Generalized additive model(GAM)

概念 回歸模型中部分或全部的自變量采用平滑函數,降低線性設定帶來的模型風險
Equation
參數估計、假設檢驗與回歸
fi(xi)為光滑函數,代替經典線性回歸中的xi,對樣本要求少,适用性廣。
估計方法 最小二乘法

取值

Y的分布 聯系函數名稱 f(Y)
正态分布(normal) Identity Y
二項分布(binomial) Logit Logit(Y)
Poisson分布 Log Log(Y)
γ 分布(gamma) inverse 1/(Y-1)
負二項分布(negative binomial) Log Log(Y)

E.g.

logit變換

參數估計、假設檢驗與回歸

Reference

logistic回歸與多元線性回歸差別及若幹問題讨論http://www.docin.com/p-578018693.html

http://www.empowerstats.com/manuals/empowerRCH/html/index.php?b=s5_gam&m=

數理統計

http://wenku.baidu.com/link?url=5GnKukkTKQjxFXnNsjKcVPqfWumtgWAMFEP4Xbgqr4phtX2FTQjFAaLq4tLyff-BOD1JXwDC-1HAimFdCk2-kQg9-72TXxkbayGq8i-tTzO

繼續閱讀