天天看点

从正态分布到T检验

1. 说明

 接上次的​​《几种常见的数学分布》​​。这次说说T分布和T检验,用词不够严谨,大家就领会精神为主吧~

2. 什么是抽样

 如果整体样本可以一个一个判断叫普查,如果整体样本太多,没法一个一个判断,只能取一部分代表整体,叫抽样。

 比如说,一个班有20个人,我们可以把所有人的身高加一起,除以人数,计算均值,如果有2000000人,就无法把所有人身高都统计一遍再除以总数,一般情况下,就是取其中一部分,计算其均值,认为他们能代表全部。

3. 正态分布

 先复习一下正态分布,比如说女人的身高一般在160左右,150, 170的比较少,140,180的更少,把身高当做横轴,人数作为纵轴画图,就可看到一个中间高两边低的钟形曲线,也就是正态分布。

 那什么不是正态分布呢?比如人的空腹血糖一般在4-6之间,而血糖高的7,8,9的很多,而低到3,2,1的就很少,不样一边多一边少的,就不是正态分布。

从正态分布到T检验

4. 正态分布和T分布

 如果只有20个人画一下算一下,就是正态分布;如果有2000000人,从中随机取出20个,画一图也就钟形,就叫T分布。它俩的不同就在于,一个是抽样的,一个是全体的。规律都是中间高两边低对称的样子。当取样趋于无穷大时,T分布就是正态分布,但一般都没法取太多。

5. 假设检验

 如果有2000000个女的,你认为她们的身高是正态分布,均值160(称理论值或标准值μ0),然后从中随机选了20个人,平均身高161(μ),标准差为5(上下浮动),那她们是否适合你所定义的正态分布均值160的规律呢?

 由样本信息对相应总体的特征进行推断称为统计推断。若对所估计的总体首先提出一个假设(平均身高160),然后通过样本数据(20个人)去推断是否拒绝这一假设,称为假设检验,如果符合这个假设就是H0(无效假设null hypothesis),如果不符合就是H1(备择假设alternative hypothesis)。

6. T检验

 以T分布为基础的检验叫T检验。这里主要是判断一组样本是否符合我们设定的“统计推断”。 将上例中的值代入公式,如果这20人的平均身高为161,求t值。

从正态分布到T检验

 如果这20人的平均身高为164

从正态分布到T检验

 可以看出t值的大小与抽样的均值161,标准差5,样本数20,以及统计推断160相关。

7. 如何查表

 H0成立时t服从自由度v=n-1=19的t分布,查表如下:

从正态分布到T检验

 上面的0.05和0.025又是什么呢?是p值(p-value),p=0.05意味着样本统计有95%的信心拒绝原假设,就是说p越小,原假设越可能被拒绝,一般p设成0.05,自由度19时,它对应的t值为2.093。

 当采样的20人平均身高为161时,t=0.894<2.093,即H0成立(抽样符合假设),当平均身高为164时,t=3.578>2.093,则H1成立(即这组抽样不符合假设)。

 就是说t差得越多,t是因为误差造成的可能性p越小,既然不是因为误差,那就是因为本质不同,所以不符合假设。

8. 单侧和双侧检验

 那上边为什么还有0.05和0.1的差别呢?它分别对应单侧和双侧检验。 理论值μ0(160),抽样均值μ(161)。

双测检验值:

μ≠μ0 (μ >μ0或μ<μ0)

单测检验值:

μ>μ0 (根据专业角度,μ不可能小于μ0)

μ<μ0 (根据专业角度,μ不可能大于μ0)

 通常我们用的都是双侧t检验,上例中用的也是双边的p值0.05对应的t值。

9. T检验的应用条件

 要符合t检验的条件,才能计算t检验的统计值

(1) 必须是随机样本且相互独立

 比如抽得出自一个家庭,就只能统计这一家的,不能代表全国的。

(2) 来自正态分布的总体

继续阅读