《商務與經濟統計學》讀書筆記 6
1 相關概念
- 置信區間(confidence interval):用一個區間範圍來估計總體參數,和點估計對比。
點估計:用一個數值來估計總體參數。
- 置信系數(confidence coefficient):置信區間包含總體參數的機率。
- 置信水準(confidence level):置信系數的百分比表示形式。
- 常見目标參數
參數 | 概念 | 資料類型 |
---|---|---|
μ | 均值;平均數 | 定量 |
p | 比例;百分比 | 定性 |
σ2 | 方差;變異;散步 | 定量 |
2 置信區間—單樣本的統計推斷
2.1 大樣本置信區間:正太( z )統計量
對于正太分布(z分布)的統計量, μ 在大樣本下( 1−α )的置信區間
α 已知:
x¯±zα/2σx=x¯±zα/2σn√
α 未知: x¯±zα/2σx=x¯±zα/2sn√
大樣本置信區間的條件:
1.目标總體中選擇一個随機樣本
2.樣本容量很大( n≥30 )。中心極限定理,保證了 x¯ 的抽樣分布近似正态分布。
2.2 小樣本置信區間:學生( t )統計量
(t分布)的統計量, μ 在小樣本下( 1−α )的置信區間
α 已知:
x¯±tα/2σx¯=x¯±tα/2σn√
α 未知: x¯±tα/2σx=x¯±tα/2sn√
其中 tα/2 是基于 n−1 個自由度 t 分布中右尾面積α/2對應的 t 值。
小樣本置信區間的條件:
1.目标總體中選擇一個随機樣本
2.總體相對頻數分布近似于标準正态分布。
2.3 大樣本置信區間:總體比例(p)統計量
對于重複抽樣分布( p^ 分布)的統計量, p 的大樣本下(1−α)的置信區間
p^±zα/2σp^=p^±zα/2pqn−−−√
說明:
1. p^ 的抽樣分布均值是 p ,p^是p的無偏估計值。
2. p^ 的抽樣分布标準差是 pq/n−−−−√ ,其中 q=1−p 。
3.對于大樣本, p^ 的抽樣分布是近似正太的,如果 np^≥15 和 nq^≥15 同時成立,樣本被視為大樣本。
大樣本置信區間的條件:
1.目标總體中選擇一個随機樣本
2.樣本容量很大(如果 np^≥15 和 nq^≥15 同時成立)。
p 值調整:
當p值接近1或者0時,大樣本的條件很難滿足,可以對總體比例進行調整。
總體比例 p 調整後的置信區間。
p˘±zα/2σp˘=p˘±zα/2p˘(1−p˘)n+4−−−−−−−−√
其中, p˘=x+2n+4 。
2.4 樣本量的确定
總體均值
根據 μ 的 1−α 置信區間确定樣本量
zα/2(σn√)=ME
則可以得到
n=(zα/2)2σ2ME2
總體比例
根據 p 的1−α置信區間确定樣本量
zα/2(pqn−−−√)=ME
則可以得到
n=(zα/2)2pqME2
2.5 總體方差 (σ2) 統計量: χ2 分布
σ2的1−α 的置信區間
(n−1)s2χ2α/2≤σ2≤(n−1)s2χ2(1−α/2)
χ2α/2和χ2(1−α/2) 代表自由度為 n−1 的卡方分布右尾和左尾面積為 α/2 所對應的值。
σ2 有效置信區間的條件:
1.從目标總體中選擇一個随機樣本。
2.總體的頻率分布近似正太。
3 假設檢驗—單樣本統計推斷
3.1檢驗統計量、拒絕域及 P 值
檢驗統計量和拒絕域
原假設(H0): μ=μ0
備擇假設( Ha ): μ≠μ0
檢驗統計量: z=x¯−μσx¯=x¯−μσ/n√
當 z 落在拒絕域時,我們認為這是一個小機率事件(p=α),發生的可能性非常低,是以原假設不正确,因而拒絕原假設。
當 z 落在接受區域,則沒有充分的理由來拒絕原假設。(但是也沒有充分理由接受原假設)
此時涉及兩類錯誤:
第I類錯誤:H0為真的情況下拒絕原假設而接受備擇假設,犯第I類錯誤的機率為 α 。
第II類錯誤: H0 為假的情況下接受原假設,犯第II類錯誤的機率為 β 。
結論 H0 為真 Ha 為真 接受 H0 正确決定 第II類錯誤(機率為 β ) 拒絕 H0 第I類錯誤(機率為 α ) 正确決定
p 值:顯著性水準
1.計算z值, zp=x¯−μσx¯
2.如果是單側檢驗,那麼p值就是靠近備擇假設區域的面積。
如備擇假設是 > ,那麼p=P(z>zp)如備擇假設是 < <script id="MathJax-Element-88" type="math/tex"><</script>,那麼 p=P(z<zp) ;
3.如果是雙側檢驗,那麼那麼p值就是靠近備擇假設區域的面積的兩倍。
p=P(z>|zp|)
p 值作為檢驗結果的優勢:
1.p小于顯著水準 α ,那麼拒絕原假設。
2.可以通過 p 來确定能容忍的最大α值。
3.2 假設檢驗:正太( z );學生(t);比例( p );總體方差
- 雙側檢驗:
統計量 大樣本總體均值 小樣本總體均值 總體比例(p) 總體方差 分布 正太( z ) 學生(t) ( p ) σ2 H0 μ=μ0 μ=μ0 p=p0 σ2=σ20 Ha μ≠μ0 μ≠μ0 p≠p0 σ2≠σ20 檢驗統計量 z=x¯−μ0σ/n√ t=x¯−μ0s/n√ z=p^−p0σp^=p^−p0p0q0/n√ χ2=(n−1)s2σ20 拒絕域 |z|>zα/2 |t|>tα/2 |z|>zα/2 χ2<χ2(1−α/2) 4 置信區間和假設檢驗—兩樣本的統計推斷
- 目标參數:
參數 概念 資料類型 μ1−μ2 均值差;平均上的差異 定量 p1−p2 比例差;百分比差;比率差 定性 σ21/σ22 方差比值;變異差異 定量 4.1 大樣本總體均值
x1¯−x2¯ 抽樣分布性質
1. x1¯−x2¯ 的抽樣分布均值是 μ1¯−μ2¯ 。
2.如果兩個樣本互相獨立,抽樣分布的标準差:
σ(x¯1−x¯2)=σ21n1+σ22n2−−−−−−−−√
3.根據中心極限定理, x1¯−x2¯ 的抽樣分布在大樣本下近似服從正太分布。
獨立大樣本情況下 μ1−μ2 的置信區間:正太 z
(x1¯−x2¯)±za/2(σ(x1¯−x2¯)=(x1¯−x2¯)±za/2σ21n1+σ22n2−−−−−−−√≈(x1¯−x2¯)±za/2s21n1+s22n2−−−−−−−√
獨立大樣本情況下 μ1−μ2 的假設檢驗:正太 z
單側檢驗 雙側檢驗 H0 μ1−μ2=D0 μ1−μ2=D0 Ha μ1−μ2<D0 (或 μ1−μ2>D0 ) μ1−μ2≠D0 檢驗統計量 z z=(x1¯−x2¯)−D0σ(x¯1−x¯2)=(x1¯−x2¯)−D0σ21n1+σ22n2√≈(x1¯−x2¯)−D0s21n1+s22n2√ 拒絕域 z<−zα 或 z>zα |z|>zα/2 有效大樣本統計推斷條件 1.兩個樣本獨立的方式從總體中随機抽取
2樣本量 n1和n2 都很大。
4.2 小樣本總體均值
混合樣本估計量 s2p
1. σ2 混合樣本估計量表示為 s2p
s2p=(n1−1)s21+(n2−1)s22(n1−1)+(n2−1)=(n1−1)s21+(n2−1)s22(n1+n2−2)
獨立小樣本情況下 μ1−μ2 的置信區間:學生 t
(x1¯−x2¯)±ta/2s2p(1n1+1n2)−−−−−−−−−−√=(x1¯−x2¯)±ta/2(n1−1)s21+(n2−1)s22(n1+n2−2)(1n1+1n2)−−−−−−−−−−−−−−−−−−−−√
獨立小樣本情況下 μ1−μ2 的假設檢驗:正太 t
單側檢驗 雙側檢驗 H0 μ1−μ2=D0 μ1−μ2=D0 Ha μ1−μ2<D0 (或 μ1−μ2>D0 ) μ1−μ2≠D0 檢驗統計量 t t=(x1¯−x2¯)−D0s2p(1n1+1n2)√ 拒絕域 t<−tα 或 t>tα |t|>tα/2 有效大樣本統計推斷條件 1.兩個樣本獨立的方式從兩個目标總體中随機抽取
2兩個被抽樣的總體近似服從正态分布
3兩個總體具有相同的方差( σ21=σ22 )
- 若 σ21≠σ22 的情況
1. 樣本量相同( n1=n2=n )
置信區間: (x1¯−x2¯)±ta/2(s21+s22)/n−−−−−−−−−√
H0:μ1−μ2=0 下的檢驗統計量: t=(x1¯−x2¯)(s21+s22)/n−−−−−−−−−√
t 是基于自由度v=n1+n2−2=2(n−1)。
2. 樣本量不相同( n1≠n2 )
置信區間: (x1¯−x2¯)±ta/2(s21/n1+s22/n2)−−−−−−−−−−−−−√
H0:μ1−μ2=0 下的檢驗統計量: t=(x1¯−x2¯)(s21/n1+s22/n2)−−−−−−−−−−−−−√
t 是基于自由度v=(s21/n1+s22/n2)2(s21/n1)2n1−1+(s22/n2)2n2−1。
4.3 配對差異試驗
對于某些情況,由于某些原因不再符合獨立樣本,比如考察畢業生男生和女生工資薪酬均值差,如果是獨立樣本,結果可能因為專業和平均成績差異而變化比較大,是以可以根據專業和平均成績進行比對。
- 配對差異試驗的置信區間:
配對差異試驗 μd=(μ1−μ2) 的置信區間。
大樣本
d¯±zα/2σdnd√≈d¯±zα/2σdnd√
小樣本
d¯±tα/2σdnd√
其中, tα/2 是基于自由度為 nd−1 的。
- 配對差異試驗的假設檢驗:
單側檢驗 雙側檢驗 H0 μd=D0 μd=D0 Ha μd<D0 (或 μd>D0 ) μd≠D0 大樣本 檢驗統計量 z z=d¯−D0σd/nd√≈d¯−D0sd/nd√ 拒絕域 z<−zα 或 z>zα |z|>zα/2 有效大樣本統計推斷條件 1随機樣本內插補點是從兩個目标總體中随機抽取
2樣本量 nd 很大( σ21=σ22 )
小樣本 檢驗統計量 t t=d¯−D0sd/nd√ 拒絕域 t<−tα 或 t>tα |t|>tα/2 有效小樣本統計推斷條件 1.随機樣本內插補點是從兩個目标總體中随機抽取
2總體差異近似服從正态分布
4.3 總體比例
p1^−p2^ 抽樣分布性質
1. p1^−p2^ 的抽樣分布均值是 p1−p2 。即:
E(p1^−p2^)=p1−p2
2.如果兩個樣本互相獨立,抽樣分布的标準差:
σ(p1^−p2^)=p1q1n1+p2q2n2−−−−−−−−−−−√
3.根據中心極限定理, p1^−p2^ 的抽樣分布在大樣本下近似服從正太分布。
獨立大樣本情況下 p1−p2 的置信區間:
(p1^−p2^)±za/2σ(p1^−p2^)=(p1¯−p2¯)±za/2p1q1n1+p2q2n2−−−−−−−−−√≈(p1^−p2^)±za/2p1^q1^n1+p2^q2^n2−−−−−−−−−√
獨立大樣本情況下 p1−p2 的假設檢驗:正太 z
單側檢驗 雙側檢驗 H0 p1−p2=0 p1−p2=0
Ha p1−p2<0 (或 p1−p2>0 ) p1−p2≠0
檢驗統計量 z
z=(p1^−p2^)σ(x^1−x^2)=(p1^−p2^)p1q1n1+p2q2n2√≈(p1^−p2^)p1^q1^n1+p2^q2^n2√
拒絕域 z<−zα 或 z>zα |z|>zα/2
有效大樣本統計推斷條件 1.兩個樣本獨立的方式從總體中随機抽取
2樣本量 n1和n2 都很大( n1p^1≥15,n2p^2≥15 )。
4.4 樣本量确定
總體均值
根據 μ1−μ2 的 1−α 置信水準和誤差限 ME 确定樣本量
zα/2σ21n1+σ22n2−−−−−−−−√=ME
此時 n=n1=n2 則可以得到
n=(zα/2)2(σ21+σ212)ME2
總體比例
根據 p 的1−α置信區間确定樣本量
zα/2p1q1n1+p2q2n2−−−−−−−−−−−√=ME
此時 n=n1=n2 則可以得到
n=(zα/2)2(p1q1+p2q2)ME2
4.5 總體方差:兩樣本
獨立大樣本情況下相等方差的 F 假設檢驗:F
單側檢驗 雙側檢驗 H0 σ21=σ22 σ21=σ22 Ha σ21<σ22或(σ21>σ22) σ21≠σ22 檢驗統計量 F F=s22s21(或F=s21s22) F=較大的樣本方差較小的樣本方差 拒絕域 F>Fα F>Fα/2 有效大樣本統計推斷條件 1.被抽樣的總體服從正态分布
樣本随機且獨立。