天天看點

從正态分布到T檢驗

1. 說明

 接上次的​​《幾種常見的數學分布》​​。這次說說T分布和T檢驗,用詞不夠嚴謹,大家就領會精神為主吧~

2. 什麼是抽樣

 如果整體樣本可以一個一個判斷叫普查,如果整體樣本太多,沒法一個一個判斷,隻能取一部分代表整體,叫抽樣。

 比如說,一個班有20個人,我們可以把所有人的身高加一起,除以人數,計算均值,如果有2000000人,就無法把所有人身高都統計一遍再除以總數,一般情況下,就是取其中一部分,計算其均值,認為他們能代表全部。

3. 正态分布

 先複習一下正态分布,比如說女人的身高一般在160左右,150, 170的比較少,140,180的更少,把身高當做橫軸,人數作為縱軸畫圖,就可看到一個中間高兩邊低的鐘形曲線,也就是正态分布。

 那什麼不是正态分布呢?比如人的空腹血糖一般在4-6之間,而血糖高的7,8,9的很多,而低到3,2,1的就很少,不樣一邊多一邊少的,就不是正态分布。

從正态分布到T檢驗

4. 正态分布和T分布

 如果隻有20個人畫一下算一下,就是正态分布;如果有2000000人,從中随機取出20個,畫一圖也就鐘形,就叫T分布。它倆的不同就在于,一個是抽樣的,一個是全體的。規律都是中間高兩邊低對稱的樣子。當取樣趨于無窮大時,T分布就是正态分布,但一般都沒法取太多。

5. 假設檢驗

 如果有2000000個女的,你認為她們的身高是正态分布,均值160(稱理論值或标準值μ0),然後從中随機選了20個人,平均身高161(μ),标準差為5(上下浮動),那她們是否适合你所定義的正态分布均值160的規律呢?

 由樣本資訊對相應總體的特征進行推斷稱為統計推斷。若對所估計的總體首先提出一個假設(平均身高160),然後通過樣本資料(20個人)去推斷是否拒絕這一假設,稱為假設檢驗,如果符合這個假設就是H0(無效假設null hypothesis),如果不符合就是H1(備擇假設alternative hypothesis)。

6. T檢驗

 以T分布為基礎的檢驗叫T檢驗。這裡主要是判斷一組樣本是否符合我們設定的“統計推斷”。 将上例中的值代入公式,如果這20人的平均身高為161,求t值。

從正态分布到T檢驗

 如果這20人的平均身高為164

從正态分布到T檢驗

 可以看出t值的大小與抽樣的均值161,标準差5,樣本數20,以及統計推斷160相關。

7. 如何查表

 H0成立時t服從自由度v=n-1=19的t分布,查表如下:

從正态分布到T檢驗

 上面的0.05和0.025又是什麼呢?是p值(p-value),p=0.05意味着樣本統計有95%的信心拒絕原假設,就是說p越小,原假設越可能被拒絕,一般p設成0.05,自由度19時,它對應的t值為2.093。

 當采樣的20人平均身高為161時,t=0.894<2.093,即H0成立(抽樣符合假設),當平均身高為164時,t=3.578>2.093,則H1成立(即這組抽樣不符合假設)。

 就是說t差得越多,t是因為誤差造成的可能性p越小,既然不是因為誤差,那就是因為本質不同,是以不符合假設。

8. 單側和雙側檢驗

 那上邊為什麼還有0.05和0.1的差别呢?它分别對應單側和雙側檢驗。 理論值μ0(160),抽樣均值μ(161)。

雙測檢驗值:

μ≠μ0 (μ >μ0或μ<μ0)

單測檢驗值:

μ>μ0 (根據專業角度,μ不可能小于μ0)

μ<μ0 (根據專業角度,μ不可能大于μ0)

 通常我們用的都是雙側t檢驗,上例中用的也是雙邊的p值0.05對應的t值。

9. T檢驗的應用條件

 要符合t檢驗的條件,才能計算t檢驗的統計值

(1) 必須是随機樣本且互相獨立

 比如抽得出自一個家庭,就隻能統計這一家的,不能代表全國的。

(2) 來自正态分布的總體

繼續閱讀