天天看點

機率統計之——方差分析

方差分析

1. 概要

方差分析(Analysis of variance, ANOVA) 主要研究分類變量作為自變量時,對因變量的影響是否是顯著的。

方差分析的方法是由20世紀的統計學家Ronald Aylmer Fisher在1918年到1925年之間提出并陸續完善起來的,該方法剛開始是用于解決田間實驗的資料分析問題,是以,方差分析的學習是和實驗設計、實驗資料的分析密不可分的。

實驗設計和方差分析都有自己相應的語言。是以,在這裡我們通過一個焦慮症治療的執行個體,先了解一些術語,并且思考一下,方差分析主要用于解決什麼樣的問題。

以焦慮症治療為例,現有兩種治療方案:認知行為療法(CBT)和眼動脫敏再加工法(EMDR)。我們招募10位焦慮症患者作為志願者,随機配置設定一半的人接受為期五周的CBT,另外一半接受為期五周的EMDR,設計方案如表1-1所示。在治療結束時,要求每位患者都填寫狀态特質焦慮問卷(STAI),也就是一份焦慮度測量的自我評測報告。

表1-1 單因素組間方差分析

機率統計之——方差分析

在這個實驗設計中,治療方案是兩水準(CBT、EMDR)的組間因子。之是以稱其為組間因子,是因為每位患者都僅被配置設定到一個組别中,沒有患者同時接受CBT和EMDR。表中字母s代表受試者(患者)。STAI是因變量,治療方案是自變量。由于在每種治療方案下觀測數相等,是以這種設計也稱為均衡設計(balanced design);若觀測數不同,則稱作非均衡設計(unbalanced design)。

因為僅有一個類别型變量,表1的統計設計又稱為單因素方差分析(one-way ANOVA),或進一步稱為單因素組間方差分析。方差分析主要通過F檢驗來進行效果評測,若治療方案的F檢驗顯著,則說明五周後兩種療法的STAI得分均值不同。

假設你隻對CBT的效果感興趣,則需将10個患者都放在CBT組中,然後在治療五周和六個月後分别評價療效,設計方案如表1-2所示。

表1-2 單因素組内方差分析

機率統計之——方差分析

此時,時間(time)是兩水準(五周、六個月)的組内因子。因為每位患者在所有水準下都進行了測量,是以這種統計設計稱單因素組内方差分析;又由于每個受試者都不止一次被測量,也稱作重複測量方差分析。當時間的F檢驗顯著時,說明患者的STAI得分均值在五周和六個月間發生了改變。

現假設你對治療方案差異和它随時間的改變都感興趣,則将兩個設計結合起來即可:随機配置設定五位患者到CBT,另外五位到EMDR,在五周和六個月後分别評價他們的STAI結果(見表1-3)。

表1-3 含組間群組内因子的雙因素方差分析

機率統計之——方差分析

療法(therapy)和時間(time)都作為因子時,我們既可分析療法的影響(時間跨度上的平均)和時間的影響(療法類型跨度上的平均),又可分析療法和時間的互動影響。前兩個稱作主效應,互動部分稱作互動效應。

當設計包含兩個甚至更多的因子時,便是因素方差分析設計,比如兩因子時稱作雙因素方差分析,三因子時稱作三因素方差分析,以此類推。若因子設計包括組内群組間因子,又稱作混合模型方差分析,目前的例子就是典型的雙因素混合模型方差分析。

本例中,你将做三次F檢驗:療法因素一次,時間因素一次,兩者互動因素一次。若療法結果顯著,說明CBT和EMDR對焦慮症的治療效果不同;若時間結果顯著,說明焦慮度從五周到六個月發生了變化;若兩者互動效應顯著,說明兩種療法随着時間變化對焦慮症治療影響不同(也就是說,焦慮度從五周到六個月的改變程度在兩種療法間是不同的)。

現在,我們對上面的實驗設計稍微做些擴充。衆所周知,抑郁症對病症治療有影響,而且抑郁症和焦慮症常常同時出現。即使受試者被随機配置設定到不同的治療方案中,在研究開始時,兩組療法中的患者抑郁水準就可能不同,任何治療後的差異都有可能是最初的抑郁水準不同導緻的,而不是由于實驗的操作問題。抑郁症也可以解釋因變量的組間差異,是以它常稱為混淆因素(confounding factor)。由于你對抑郁症不感興趣,它也被稱作幹擾變數(nuisance variable)。

假設招募患者時使用抑郁症的自我評測報告,比如白氏抑郁症量表(BDI),記錄了他們的抑郁水準,那麼你可以在評測療法類型的影響前,對任何抑郁水準的組間差異進行統計性調整。本案例中,BDI為協變量,該設計為協方差分析(ANCOVA)。

以上設計隻記錄了單個因變量情況(STAI),為增強研究的有效性,可以對焦慮症進行其他的測量(比如家庭評分、醫師評分,以及焦慮症對日常行為的影響評價)。當因變量不止一個時,設計被稱作多元方差分析(MANOVA), 若協變量也存在, 那麼就叫多元協方差分析(MANCOVA)。

下面我們主要介紹單因素方差分析與雙因素方差分析的原理與實作。

2 .單因素方差分析

2.1 推導過程

接下來我們使用種小麥的例子,去幫助了解方差分析裡涉及的一些變量。

假設我們現在有若幹品種的小麥,要在某一地區播種,我們想知道這些品種的産量有沒有顯著差別,為此我們先設計了一個田間實驗,取一大塊地将其分成形狀大小都相同的 n n n小塊.設供選擇的品種有 k k k個,我們打算其中的 n 1 n_1 n1​小塊種植品種1, n 2 n_2 n2​小塊種植品種2,等等, n 1 + n 2 + . . . n k = n n_1+ n_2 + ... n_k = n n1​+n2​+...nk​=n.

接下來,我們使用方差分析的方法去看不同小麥品種的産量是否有顯著差異。

設問題中涉及一個因素 A A A,有 k k k個水準,如上例的 k k k個種子品種,以 Y i j Y_{ij} Yij​記第 i i i個水準的第 j j j個觀察值,如上例 Y i j Y_{ij} Yij​是種植品種 i i i的第 j j j小塊地上的畝産量。模型為 Y i j = a i + e i j , j = 1 , . . . , n i , i = 1 , . . . , k ( 2.1 ) Y_{ij} = a_i + e_{ij}, j = 1,...,n_i, i = 1,...,k\qquad(2.1) Yij​=ai​+eij​,j=1,...,ni​,i=1,...,k(2.1) a i a_i ai​表示水準 i i i的理論平均值,稱為水準 i i i的效應。在小麥例子中, a i a_i ai​就是品種 i i i的平均畝産量, e i j e_{ij} eij​就是随機誤差。并且我們假定: E ( e i j ) = 0 , 0 < V a r ( e i j ) = σ 2 < ∞ , 一 切 e i j 獨 立 同 分 布 ( 2.2 ) E(e_{ij})=0, 0<Var(e_{ij})={\sigma}^2<\infty,一切e_{ij}獨立同分布\qquad(2.2) E(eij​)=0,0<Var(eij​)=σ2<∞,一切eij​獨立同分布(2.2) 因素 A A A的各水準的高低優劣,取決于其理論平均 a i a_{i} ai​的大小。故對模型(2.1),我們頭一個關心的事情,就是諸 a i a_{i} ai​是否全相同。 如果是,則表示因素 A A A對所考察的名額 Y Y Y其實無影響.這時我們就說因素A的效應不顯著,否則就說它顯著。當然,在實際應用中,所謂“顯著”,是指諸 a i a_{i} ai​之間的差異要大到一定的程度.這個 “一定的程度”,是從其實用上的意義着眼,而“統計顯著性”,則是與随機誤差相比而言.這點在下文的讨論中會有所展現.我們把所要檢驗的假設寫為: H 0 : a 1 = a 2 = ⋯ = a k ( 2.3 ) H_0:a_1=a_2=\cdots=a_k \qquad (2.3) H0​:a1​=a2​=⋯=ak​(2.3) 為檢驗該假設,我們需要分析,為什麼各個 Y i j Y_{ij} Yij​會有差異?從模型(2.1)來看,無非兩個原因:一是各 a i a_{i} ai​可能有差異.例如,若 a 1 > a 2 a_1>a_2 a1​>a2​, 這就使 Y 1 j Y_{1j} Y1j​傾向于大于 Y 2 j Y_{2j} Y2j​;二是随機誤差的存在。這一分析啟發了如下的想法:找一個衡量全部 y i j y_{ij} yij​的變異的量: S S = ∑ i = 1 k ∑ j = 1 n i ( Y i j − Y ˉ ) 2 , Y ˉ = ∑ i = 1 k ∑ j = 1 n i Y i j / n ( 2.4 ) SS= \sum_{i=1}^{k}\sum_{j=1}^{n_i}\left ( Y_{ij}-\bar{Y} \right )^2, \qquad \bar{Y}=\sum_{i=1}^{k}\sum_{j=1}^{n_i}Y_{ij}/n \qquad (2.4) SS=i=1∑k​j=1∑ni​​(Yij​−Yˉ)2,Yˉ=i=1∑k​j=1∑ni​​Yij​/n(2.4) S S SS SS愈大,表示 Y i j Y_{ij} Yij​之間的差異越大。

接下來,把 S S SS SS分為兩部分,一部分表示随機誤差的影響,記為 S S e SS_e SSe​;另一部分表示因素 A A A的各水準理論平均值 a i a_i ai​不同帶來的影響,記為 S S A SS_A SSA​。

關于 S S e SS_e SSe​,先固定一個 i i i,此時對應的所有觀測值 Y i 1 , Y i 2 , ⋯   , Y i n Y_{i1},Y_{i2},\cdots,Y_{in} Yi1​,Yi2​,⋯,Yin​,他們之間的差異與每個水準的理論平均值不等無關,而是取決于随機誤差,反映這些觀察值差異程度的量是 ∑ j = 1 n i ( Y i j − Y i ˉ ) 2 \sum_{j=1}^{n_i}\left ( Y_{ij}-\bar{Y_i} \right )^2 ∑j=1ni​​(Yij​−Yi​ˉ​)2,其中 Y i ˉ = ( Y i 1 + Y i 2 + ⋯ + Y i n ) / n i , i = 1 , 2 , ⋯   , n ( 2.5 ) \bar{Y_i}=(Y_{i1}+Y_{i2}+\cdots+Y_{in})/n_i,\quad i=1, 2,\cdots,n \qquad (2.5) Yi​ˉ​=(Yi1​+Yi2​+⋯+Yin​)/ni​,i=1,2,⋯,n(2.5) Y i ˉ \bar{Y_i} Yi​ˉ​可以視為對 a i a_i ai​的估計。把上述平方和做累加得: S S e = ∑ i = 1 k ∑ j = 1 n i ( Y i j − Y i ˉ ) 2 ( 2.6 ) SS_e=\sum_{i=1}^{k}\sum_{j=1}^{n_i}\left ( Y_{ij}-\bar{Y_i} \right )^2 \qquad (2.6) SSe​=i=1∑k​j=1∑ni​​(Yij​−Yi​ˉ​)2(2.6) 可求得 S S A SS_A SSA​:

機率統計之——方差分析

因為 Y i ˉ \bar{Y_i} Yi​ˉ​可以視為對 a i a_i ai​的估計, a i a_i ai​的差異越大, Y i ˉ \bar{Y_i} Yi​ˉ​之間的差異也越大,是以 S S A SS_A SSA​可以用來衡量不同水準之間的差異程度。

在統計學上,通常稱 S S SS SS為總平方和, S S A SS_A SSA​為因素 A A A的平方和, S S e SS_e SSe​為誤差平方和,分解式 S S = S S A + S S e SS=SS_A+SS_e SS=SSA​+SSe​為該模型的方差分析。

基于上面的分析,我們可以得到假設(2.8)的一個檢驗方法:當比值 S S A / S S e SS_A/SS_e SSA​/SSe​大于某一給定界限時,否定 H 0 H_0 H0​,不然就接受 H 0 H_0 H0​。為了構造 F F F分布的檢驗統計量,我們假定随機誤差 e i j e_{ij} eij​滿足正态分布 N ( 0 , σ 2 ) N(0, \sigma^2) N(0,σ2),同時我們也假定觀察值 Y i j Y_{ij} Yij​符合正态分布,此時,記 M S A = S S A / ( k − 1 ) , M S e = S S e / ( n − k ) ( 2.8 ) MS_A = SS_A/(k-1), \quad MS_e = SS_e/(n-k) \qquad (2.8) MSA​=SSA​/(k−1),MSe​=SSe​/(n−k)(2.8) 當 H 0 H_0 H0​成立時,有: M S A / M S e ∼ F k − 1 , n − k ( 2.9 ) MS_A / MS_e \sim F_{k-1, n-k} \qquad (2.9) MSA​/MSe​∼Fk−1,n−k​(2.9) 據(2.9),在給定顯著性水準 α \alpha α時,即得(2.10)的假設 H 0 H_0 H0​的檢驗如下: 當 M S A / M S e ⩽ F k − 1 , n − k ( α ) 時 , 接 受 H 0 , 不 然 就 拒 絕 H 0 ( 2.10 ) 當MS_A / MS_e \leqslant F_{k-1, n-k}(\alpha)時,接受H_0,不然就拒絕H_0 \qquad (2.10) 當MSA​/MSe​⩽Fk−1,n−k​(α)時,接受H0​,不然就拒絕H0​(2.10) M S A MS_A MSA​和 M S e MS_e MSe​分别被稱為因素 A A A和随機誤差的平均平方和。被除數 k − 1 k-1 k−1和 n − k n-k n−k,分别稱為這兩個平方和的自由度。 M S e MS_e MSe​的自由度為什麼是 n − k n-k n−k呢?因為平方和 ∑ j = 1 n i ( Y i j − Y i ˉ ) 2 \sum_{j=1}^{n_i}\left ( Y_{ij}-\bar{Y_i} \right )^2 ∑j=1ni​​(Yij​−Yi​ˉ​)2的自由度為 n i − 1 n_i-1 ni​−1,故對 i i i求和, S S e SS_e SSe​的自由度就是 n − k n-k n−k。那麼, M S A MS_A MSA​的自由度為什麼是 k − 1 k-1 k−1呢?因為一共有 k k k個平均值 a 1 , ⋯   , a k a_1,\cdots,a_k a1​,⋯,ak​等 k − 1 k-1 k−1個,故自由度為 k − 1 k-1 k−1,兩者自由度之和為 n − 1 n-1 n−1,恰好是總平方和的自由度。

到這裡,我們可以做出方差分析表如表2-1

2-1 單因素方差分析的方差分析表

機率統計之——方差分析

在上表中,對于顯著性一欄,一般來說,我們把算出的 F F F比,即 M S A / M S e MS_A / MS_e MSA​/MSe​,與 F k − 1 , n − k ( 0.05 ) = c 1 F_{k-1, n-k}(0.05)=c_1 Fk−1,n−k​(0.05)=c1​和 F k − 1 , n − k ( 0.01 ) = c 2 F_{k-1, n-k}(0.01)=c_2 Fk−1,n−k​(0.01)=c2​比較。若 M S A / M S e > c 2 MS_A / MS_e>c_2 MSA​/MSe​>c2​,用**表示,表明A因素的效應是高度顯著的,即在 α = 0.01 \alpha=0.01 α=0.01的顯著性水準下,拒絕原假設(5.3)。同理, c 2 < M S A / M S e < c 1 c_2<MS_A / MS_e<c_1 c2​<MSA​/MSe​<c1​用$\ast 表 示 , 表示, 表示,MS_A / MS_e>c_1$時不顯著。

3 雙因素方差分析

3.1 推導過程

在很多種情況下,隻考慮一個名額對觀察值的影響,顯然是不夠的,這時就會用到多因素方差分析。雙因素方差分析和多因素方差分析在原理上是相似的,這裡為了書寫簡便,我們隻以雙因素方差分析為例進行推導。

還是以田間實驗的例子幫助了解推導過程,我們設有兩個因素 A , B A, B A,B,分别有 k , l k, l k,l個水準(例如 A A A為品種,有 k k k個; B B B為播種量,考慮 l l l種不同的數值,如20斤/畝,25斤/畝,……). A A A的水準 i i i與 B B B的水準 j j j的組合記為 ( i , j ) (i,j) (i,j),其試驗結果記為 Y i j , i = 1 , ⋅ ⋅ ⋅ , k , j = 1 , … , l Y_{ij}, i = 1, · · ·, k,j = 1,…, l Yij​,i=1,⋅⋅⋅,k,j=1,…,l.統計模型定為 Y i j = μ + a i + b j + e i j , i = 1 , ⋅ ⋅ ⋅ , k , j = 1 , ⋅ ⋅ ⋅ , l ( 3.1 ) Y_{ij} = \mu + a_i + b_j + e_{ij},i= 1, · · ·, k,j = 1,· · ·, l\qquad (3.1) Yij​=μ+ai​+bj​+eij​,i=1,⋅⋅⋅,k,j=1,⋅⋅⋅,l(3.1) 為解釋這模型,首先把右邊分成兩部分: e i j e_{ij} eij​為随機誤差,它包含了未加控制的因素( A , B A,B A,B以外的因素)及大量随機因素的影響.假定 E ( e i j ) = 0 , 0 < V a r ( e i j ) = σ 2 < ∞ , 一 切 e i j 獨 立 同 分 布 ( 3.2 ) E(e_{ij})=0, 0<Var(e_{ij})={\sigma}^2<\infty,一切e_{ij}獨立同分布\qquad(3.2) E(eij​)=0,0<Var(eij​)=σ2<∞,一切eij​獨立同分布(3.2) 另一部分 μ + a i + b j \mu + a_i + b_j μ+ai​+bj​,它顯示水準組合 ( i , j ) (i,j) (i,j)的平均效應.它可以又分解為三部分: μ \mu μ是總平均(一切水準組合效應的平均),是一個基準. a i a_i ai​表示由 A A A的水準 i i i帶來的增加部分,稱為因素 A A A的水準 i i i的效應. b j b_j bj​有類似的解釋.調整 μ \mu μ的值,我們可以補充要求: a 1 + ⋅ ⋅ ⋅ + a k = 0 , b 1 + ⋅ ⋅ ⋅ + b l = 0 ( 3.3 ) a_1+···+a_k=0,b_1+···+b_l=0 \qquad (3.3) a1​+⋅⋅⋅+ak​=0,b1​+⋅⋅⋅+bl​=0(3.3) 如果 ( 3.3 ) (3.3) (3.3)式不成立,則分别把 μ \mu μ換為

μ + a ˉ + b ˉ \mu + \bar{a}+\bar{b} μ+aˉ+bˉ, a i a_i ai​換為 a i − a ˉ a_i-\bar{a} ai​−aˉ, b j b_j bj​換為 b j − b ˉ b_j-\bar{b} bj​−bˉ,則 ( 3.1 ) (3.1) (3.1)式不變,而 ( 3.3 ) (3.3) (3.3)式成立。

限制條件 ( 3.3 ) (3.3) (3.3)給了 a i , b j a_i,b_j ai​,bj​的意義一種更清晰的解釋: a i > 0 a_i>0 ai​>0 表示A的水準 i i i的效應在 A A A的全部水準的平均效應之上, a i < 0 a_i<0 ai​<0 則相反。另外,這個限制條件也給了 μ , a i , b j \mu,a_i,b_j μ,ai​,bj​的 一個适當的估計法:把 Y i j Y_{ij} Yij​對一切 i , j i,j i,j相加.注意到 ( 3.3 ) (3.3) (3.3),有 ∑ i = 1 k ∑ j = 1 l Y i j = k l μ + ∑ i = 1 k ∑ j = 1 l e i j ( 3.4 ) \sum_{i=1}^{k}\sum_{j=1}^{l}Y_{ij}= kl\mu+\sum_{i=1}^{k}\sum_{j=1}^{l}e_{ij} \qquad (3.4) i=1∑k​j=1∑l​Yij​=klμ+i=1∑k​j=1∑l​eij​(3.4) 由 ( 3.2 ) (3.2) (3.2)得, Y ˉ = ∑ i = 1 k ∑ j = 1 l Y i j / k l ( 3.5 ) \bar{Y}=\sum_{i=1}^{k}\sum_{j=1}^{l}Y_{ij}/kl \qquad (3.5) Yˉ=i=1∑k​j=1∑l​Yij​/kl(3.5) 是 μ \mu μ的一個無偏估計。其次,有 ∑ j = 1 l Y i j = l μ + l a + ∑ j = 1 l e i j ( 3.6 ) \sum_{j=1}^{l}Y_{ij}=l\mu+la+\sum_{j=1}^{l}e_{ij} \qquad (3.6) j=1∑l​Yij​=lμ+la+j=1∑l​eij​(3.6) 于是,記

Y i ˉ = ∑ j = 1 l Y i j / l , Y j ˉ = ∑ i = 1 k Y i j / k ( 3.7 ) \bar{Y_i}=\sum_{j=1}^{l}Y_{ij}/l, \quad \bar{Y_j}=\sum_{i=1}^{k}Y_{ij}/k \qquad (3.7) Yi​ˉ​=j=1∑l​Yij​/l,Yj​ˉ​=i=1∑k​Yij​/k(3.7) 由 ( 3.7 ) (3.7) (3.7)知, Y j ˉ \bar{Y_j} Yj​ˉ​為 μ + a i \mu+a_i μ+ai​的一個無偏估計。于是得到 a i a_i ai​的一個無偏估計為 a i ^ = Y i ˉ − Y ˉ , i = 1 , ⋯   , k ( 3.8 ) \hat{a_i}=\bar{Y_i}-\bar{Y}, i=1,\cdots,k \qquad(3.8) ai​^​=Yi​ˉ​−Yˉ,i=1,⋯,k(3.8) 同理, b j ^ = Y j ˉ − Y ˉ , j = 1 , ⋯   , l ( 3.9 ) \hat{b_j}=\bar{Y_j}-\bar{Y}, j=1,\cdots,l \qquad(3.9) bj​^​=Yj​ˉ​−Yˉ,j=1,⋯,l(3.9) a i ^ , b j ^ \hat{a_i},\hat{b_j} ai​^​,bj​^​适合限制條件 ( 3.3 ) (3.3) (3.3)。

下面進行方差分析,要設法把總平方和 S S = ∑ i = 1 k ∑ j = 1 l ( Y i j − Y ˉ ) 2 SS=\sum_{i=1}^{k}\sum_{j=1}^{l}(Y_{ij}-\bar{Y})^2 SS=i=1∑k​j=1∑l​(Yij​−Yˉ)2 分解為三部分: S S A , S S B , S S e SS_A,SS_B,SS_e SSA​,SSB​,SSe​,分别表示因素 A , B A,B A,B和随機誤差的影響。這種分解的主要目的是假設檢驗: H 0 A : a 1 = ⋯ = a k = 0 ( 3.10 ) H_{0A}:a_1=\cdots=a_k=0 \qquad(3.10) H0A​:a1​=⋯=ak​=0(3.10) 和 H 0 B : b 1 = ⋯ = b k = 0 ( 3.11 ) H_{0B}:b_1=\cdots=b_k=0 \qquad(3.11) H0B​:b1​=⋯=bk​=0(3.11)

H 0 A H_0A H0​A成立表示因素 A A A對名額其實無影響。在實際問題中,絕對無影響的場合少見,但如影響甚小以緻被随機誤差所掩蓋時,這種影響事實上等于沒有。是以,拿 S S A SS_A SSA​和 S S e SS_e SSe​的比作為檢驗統計量正符合這一想法.

接下來講一下方差分解的小技巧: Y i j − Y ˉ = ( Y i ˉ − Y ˉ ) + ( Y j ˉ − Y ˉ ) + ( Y i j − Y i ˉ − Y j ˉ + Y ˉ ) Y_{ij}-\bar{Y}=(\bar{Y_i}-\bar{Y}) + (\bar{Y_j}-\bar{Y})+(Y_{ij}-\bar{Y_i}-\bar{Y_j}+\bar{Y}) Yij​−Yˉ=(Yi​ˉ​−Yˉ)+(Yj​ˉ​−Yˉ)+(Yij​−Yi​ˉ​−Yj​ˉ​+Yˉ) 兩邊平方,對 i , j i,j i,j求和,結合限制條件(3.3),注意到

∑ i = 1 k ( Y i ˉ − Y ˉ ) = 0 , ∑ j = 1 l ( Y j ˉ − Y ˉ ) = 0 , \sum_{i=1}^{k}(\bar{Y_{i}}-\bar{Y})=0, \sum_{j=1}^{l}(\bar{Y_{j}}-\bar{Y})=0, i=1∑k​(Yi​ˉ​−Yˉ)=0,j=1∑l​(Yj​ˉ​−Yˉ)=0,

∑ i = 1 k ( Y i j − Y i ˉ − Y j ˉ + Y ˉ ) = ∑ j = 1 l ( Y i j − Y i ˉ − Y j ˉ + Y ˉ ) = 0 \sum_{i=1}^{k}(Y_{ij}-\bar{Y_i}-\bar{Y_j}+\bar{Y})=\sum_{j=1}^{l}(Y_{ij}-\bar{Y_i}-\bar{Y_j}+\bar{Y})=0 i=1∑k​(Yij​−Yi​ˉ​−Yj​ˉ​+Yˉ)=j=1∑l​(Yij​−Yi​ˉ​−Yj​ˉ​+Yˉ)=0

即知所有交叉積之和皆為0,而得到

機率統計之——方差分析

第一個平方和可以作為因素 A A A的影響的衡量,從前述 Y i ˉ − Y ˉ \bar{Y_{i}}-\bar{Y} Yi​ˉ​−Yˉ作為 a i a_i ai​的估計可以了解第二個平方和同理。至于第三個平方和可作為随機誤差的影響這一點, 直接看不甚明顯。可以從兩個角度去了解:在 S S SS SS中去掉 S S A SS_A SSA​

和 S S B SS_B SSB​後,剩餘下的再沒有其他系統性因素的影響,故隻能作為 S S e SS_e SSe​。另外,由模型 ( 3.1 ) (3.1) (3.1)及限制條件 ( 3.3 ) (3.3) (3.3),易知

機率統計之——方差分析

這裡面已經毫無 μ , a i , b j \mu,a_i,b_j μ,ai​,bj​的影響,而隻含随機誤差。

得到分解式 ( 3.12 ) (3.12) (3.12)後,我們就可以像單囚素情況那樣,寫出下面的方差分析表: S S A , S S B SS_A , SS_B SSA​,SSB​ 自由度分别為其水準數減去1,這一點與單因素情況相同.總和自由度為全部觀察值數目 k l kl kl減去1.剩下的就是誤差平方和自由度: ( k l − 1 ) − ( k − 1 ) − ( l − 1 ) = ( k − 1 ) ( l − 1 ) (kl - 1) - (k - 1) - (l - 1) = (k - 1) (l - 1) (kl−1)−(k−1)−(l−1)=(k−1)(l−1) 表3.1

雙因素方差分析表

機率統計之——方差分析

有一點要注意:在采納模型 ( 3.1 ) (3.1) (3.1)時,我們事實上引進了 一 種假定,即兩因素 A , B A,B A,B對名額的效應是可以疊加的.換一種方式說:因素 A A A的各水準的優劣比較,與因素 B B B處在哪個水準無關,反之亦然.更一般的情況是: A , B A,B A,B兩因子有“互動作用 " 。這時在模型(5.13)中,還要加上表示互動作用的項 c i j c_{ij} cij​.這時不僅統計分析複雜化了,尤其是分析結果的解釋也複雜化了.本文檔暫不讨論這種情況。在一個特定的問題中,互動作用是否需要考慮,在很大程度上取決于問題的實際背景和經驗.有時,通過試驗資料的分析也可以看出一些問題。例如,若誤差方差 σ 2 \sigma^2 σ2的估計 M S e MS_e MSe​反常地大,則有可能是由于互動作用所緻.因為可以證明:若互動作用确實存在而未加考慮,則它的影響進入随機誤差而增大了 M S e MS_e MSe​。

繼續閱讀