推斷性統計部分(四)—簡單方差分析
标簽(空格分隔): 機率論與數理統計
方差分析,分為單因素試驗方差分析、多因素無重複試驗方差分析及多因素試驗方差分析三部分。在試驗中,考察的名額稱為試驗名額,影響試驗名額的條件稱為因素(一般分為可控因素,如溫度、劑量;不可控因素,如測量誤差),因素所處的狀态(狀态這個詞比較抽象,我所了解的,或許用子因素來描述會更好了解)稱為該因素的水準,給出幾個例子來說明三個部分的試驗,也進一步了解上述定義:
例1、工廠中的房間生産時,通常有多台機器生産同一樣标準規格的産品,假如有三台機器在生産同一規格的鋁合金薄闆,我們要檢驗三台機器生産的一緻性,即他們生産的厚度是否一緻,還是有顯著的差異。此時,厚度是我們所需要檢驗一緻性的内容,是以厚度即為試驗名額,機器即為因素,三台不同的機器即為機器的三個不同的水準(我所了解的就是三個子因素,或者用次元來表示因素,次元的子次元表示水準會讓某些人容易了解一些),而其它條件如測試厚度的儀器是同一台,人員是同一個,原材料是同一批,等等其它因素的水準都一樣,隻有一個機器因素有不同水準。此時,稱之為單因素試驗。
例2、繼續上面的例子,假如我還有一個原材料因素,它也有三個不同的水準,此時有兩個不同的因素有不同的水準,檢驗目的是原材料及機器兩個因素對生産薄闆的厚度是否有顯著影響,此時稱之為雙因素試驗或多因素試驗(當因素大于1個時,我們就可以叫多因素試驗)。
例3、繼續上面的例子,我們劃分一下無重複試驗及重複試驗,假如在雙因素試驗中,我們每一個組合僅試驗了一次,此時稱為多因素無重複試驗,若我們每一個組合均進行了多次試驗,則稱為多因素等重複試驗,是否需要重複試驗由能否确定因素之間的獨立性來确定,可以确定各因素是獨立的,則不需要進行重複試驗,否則需要。
總的來說,方差分析就是檢驗不同因素的不同水準是否對試驗名額有顯著的影響
此處先給出方差分析的基本思想,就是把組内的方差(即同一因素同一水準下的方差)與組間的方差(同一因素不同水準的方差)進行顯著性檢驗,若比值越大,即組内方差比組間方差大,說明影響主要來自組的内部,而不是不同水準,否則,影響來自組間,即各水準是顯著不同的。
單因素試驗方差分析
應用方差分析,包括後面的多因素試驗方差分析,首先有三個前提:正态、等方差、獨立。即,各水準的試驗資料服從正态分布,各水準所構成的正态總體方差相等,各水準所收集到的試驗資料是互相獨立的。以上述例1來說,同一機器下生産的薄闆厚度,我們可以看作是正态的;因為隻有機器的水準不一樣,其它因素都一樣,是以總體均值的不一緻是因為機器不同水準所産生的(屬系統誤差),而因其它随機因素的幹擾造成的波動所形成的誤差是随機誤差,但因其它因素都一樣,随機誤差從理論上應該是一緻的,是以可以認為總體的方差相同;從實際原理可知,各資料之間并無關聯,獨立性得證。
下面是解決方案:
1)先引入定義:
因素 A 的各個水準:A1、A2、A3、…As,各個觀察結果為 Xij ,其中ij的意思為在 Aj 水準下的第i個觀察結果。
總平均: X¯=μ=1n∑sj=1njμj=1n∑sj=1∑nji=1Xij ,其中 n 為總觀察結果個數nj為 Aj 水準下的樣本個數。
水準 Aj 下的樣本均值: X¯⋅j=1nj∑nji=1Xij
誤差平方和: SE=∑sj=1∑nji=1(Xij−X¯⋅j)2 ,表示在水準 Aj 下,樣本觀察值與樣本均值的差異,由随機誤差所引起。
效應平方和: SA=∑sj=1∑nji=1(X¯⋅j−X¯)2=∑sj=1nj(X¯⋅j−X¯)2 ,表示在水準 Aj 下,樣本均值與總均值的差異,由效應差異及随機誤差引起。
總偏差平方和: ST=∑sj=1∑nji=1(Xij−X¯)2=SE+SA
2)解決方案:
當真實數值落在接受域内時,有 SA(s−1) 是 σ2 的無偏估計,落在拒絕域時,比 σ2 大,而 SE(n−s) 則無論什麼情況,都是 σ2 的無偏估計,于是,我們可以通過檢驗量 F=SA/(s−1)SE/(n−s)≥k 來拒絕效應平方和對整體方差的估計是無偏的,來進一步拒絕效應平方和與整體方差的一緻性,即顯著不一緻,以此來達到我們的目的。
可以使用方差分析表來進行分析:
方差來源 | 平方和 | 自由度 | 均方 | F比 |
---|---|---|---|---|
因素 | SA | s−1 | S¯A=SAs−1 | F=S¯AS¯E |
誤差 | SE | n−s | S¯E=SEn−s | |
總和 | ST | n−1 |
可以使用較為容易了解的公式來計算各項内容:
變量 | 計算式 | 描述 |
---|---|---|
列和: T⋅j | ∑nji=1Xij,j=1,2,3……,s | 各水準下觀察值的總和 |
總和: T⋅⋅ | ∑sj=1∑nji=1Xij | 所有觀察值的總和 |
ST | ∑sj=1∑nji=1X2ij−T2⋅⋅n | 所有觀察值平方的和減去總和平方除以總個數 |
SA | ∑sj=1∑nji=1X2⋅j−T2⋅⋅n=∑sj=1T2⋅jnj−T2⋅⋅n | 以列均值代替各水準的具體數值來計算其偏差,因為 ∑nji=1X2⋅j 中,各 X2⋅j 是一樣的,是以可以化為 nj⋅X2⋅j=(njX⋅j)2nj=T⋅j2nj |
SE | ST−SA | 二者之差 |
3)未知參數的估計
當拒絕原假設(即出現各水準間顯著差異時),需要對各均值之差作區間估計,以确定兩兩之間的差距範圍,于是使用樞軸量 t=(X¯⋅j−X¯⋅k)−(μj−μk)S¯E(1nj−1nk)√∼t(n−s) 來确定置信區間。
雙因素無重複試驗方差分析
雙因素無重複試驗可以看作是兩個單因素試驗的結合,方差分析表中加入第二個因素B,表中,A因素在行,B因素在列,如下:
方差來源 | 平方和 | 自由度 | 均方 | F比 |
---|---|---|---|---|
因素A | SA | r−1 | S¯A=SAr−1 | F=S¯AS¯E |
因素B | SB | s−1 | S¯B=SBs−1 | F=S¯BS¯E |
誤差 | SE | (r−1)(s−1) | S¯E=SE(r−1)(s−1) | |
總和 | ST | rs−1 |
同樣可以使用較為容易了解的公式來計算各項内容:
變量 | 計算式 | 描述 |
---|---|---|
列和: T⋅j | ∑ri=1Xij,j=1,2,3……,s | 在因素B相同水準下,A因素各水準的觀察值的總和 |
行和: Ti⋅ | ∑sj=1Xij,i=1,2,3……,r | 在因素A相同水準下,B因素各水準的觀察值的總和 |
總和: T⋅⋅ | ∑ri=1∑sj=1Xij | 所有觀察值的總和 |
ST | ∑sj=1∑ri=1X2ij−T2⋅⋅rs | 所有觀察值平方的和減去總和平方除以總個數 |
SA | 1s∑ri=1T2i⋅−T2⋅⋅rs | 以行均值代替因素A各水準的具體數值來計算其偏差 |
SB | 1r∑sj=1T2⋅j−T2⋅⋅rs | 以列均值代替因素B各水準的具體數值來計算其偏差 |
SE | ST−SA−SB | 三者之差 |
雙因素等重複試驗方差分析
在無重複試驗中,加入因素A與因素B的交換效應:
方差來源 | 平方和 | 自由度 | 均方 | F比 |
---|---|---|---|---|
因素A | SA | r−1 | S¯A=SAr−1 | F=S¯AS¯E |
因素B | SB | s−1 | S¯B=SBs−1 | F=S¯BS¯E |
互動作用 | SA×B | (r−1)(s−1) | S¯B=SA×B(r−1)(s−1) | F=S¯A×BS¯E |
誤差 | SE | rs(t−1) | S¯E=SErs(t−1) | |
總和 | ST | rst−1 |
同樣可以使用較為容易了解的公式來計算各項内容:
變量 | 計算式 | 描述 |
---|---|---|
互動和: Tij⋅ | ∑tk=1Xijk,i=1,2,3……,r,j=1,2,3……,s | 在相同因素相同水準下,各重複試驗的觀察值之和 |
列和: T⋅j⋅ | ∑ri=1∑tk=1Xijk,j=1,2,3……,s | 在因素B相同水準下,A因素各水準的觀察值的總和 |
行和: Ti⋅⋅ | ∑sj=1Xij∑tk=1Xijk,i=1,2,3……,r | 在因素A相同水準下,B因素各水準的觀察值的總和 |
總和: T⋅⋅⋅ | ∑ri=1∑sj=1∑tk=1Xijk | 所有觀察值的總和 |
ST | ∑sj=1∑ri=1∑tk=1X2ijk−T2⋅⋅⋅rst | 所有觀察值平方的和減去總和平方除以總個數 |
SA | 1st∑ri=1T2i⋅⋅−T2⋅⋅⋅rst | 以行均值代替因素A各水準的具體數值來計算其偏差 |
SB | 1rt∑sj=1T2⋅j⋅−T2⋅⋅⋅rst | 以列均值代替因素B各水準的具體數值來計算其偏差 |
SA×B | (1t∑ri=1∑sj=1T2ij⋅−T2⋅⋅⋅rst)−SA−SB | 無有效了解,如有高人指點,不勝感激 |
SE | ST−SA−SB−SA×B | 四者之差 |
通過檢驗等重複試驗中的互動作用,其顯著差異對方案搭配有着重大作用。