推斷性統計部分（四）—簡單方差分析

标簽（空格分隔）：機率論與數理統計

方差分析，分為單因素試驗方差分析、多因素無重複試驗方差分析及多因素試驗方差分析三部分。在試驗中，考察的名額稱為試驗名額，影響試驗名額的條件稱為因素（一般分為可控因素，如溫度、劑量；不可控因素，如測量誤差），因素所處的狀态（狀态這個詞比較抽象，我所了解的，或許用子因素來描述會更好了解）稱為該因素的水準，給出幾個例子來說明三個部分的試驗，也進一步了解上述定義：

例1、工廠中的房間生産時，通常有多台機器生産同一樣标準規格的産品，假如有三台機器在生産同一規格的鋁合金薄闆，我們要檢驗三台機器生産的一緻性，即他們生産的厚度是否一緻，還是有顯著的差異。此時，厚度是我們所需要檢驗一緻性的内容，是以厚度即為試驗名額，機器即為因素，三台不同的機器即為機器的三個不同的水準（我所了解的就是三個子因素，或者用次元來表示因素，次元的子次元表示水準會讓某些人容易了解一些），而其它條件如測試厚度的儀器是同一台，人員是同一個，原材料是同一批，等等其它因素的水準都一樣，隻有一個機器因素有不同水準。此時，稱之為單因素試驗。

例2、繼續上面的例子，假如我還有一個原材料因素，它也有三個不同的水準，此時有兩個不同的因素有不同的水準，檢驗目的是原材料及機器兩個因素對生産薄闆的厚度是否有顯著影響，此時稱之為雙因素試驗或多因素試驗（當因素大于1個時，我們就可以叫多因素試驗）。

例3、繼續上面的例子，我們劃分一下無重複試驗及重複試驗，假如在雙因素試驗中，我們每一個組合僅試驗了一次，此時稱為多因素無重複試驗，若我們每一個組合均進行了多次試驗，則稱為多因素等重複試驗，是否需要重複試驗由能否确定因素之間的獨立性來确定，可以确定各因素是獨立的，則不需要進行重複試驗，否則需要。

總的來說，方差分析就是檢驗不同因素的不同水準是否對試驗名額有顯著的影響

此處先給出方差分析的基本思想，就是把組内的方差（即同一因素同一水準下的方差）與組間的方差（同一因素不同水準的方差）進行顯著性檢驗，若比值越大，即組内方差比組間方差大，說明影響主要來自組的内部，而不是不同水準，否則，影響來自組間，即各水準是顯著不同的。

單因素試驗方差分析

應用方差分析，包括後面的多因素試驗方差分析，首先有三個前提：正态、等方差、獨立。即，各水準的試驗資料服從正态分布，各水準所構成的正态總體方差相等，各水準所收集到的試驗資料是互相獨立的。以上述例1來說，同一機器下生産的薄闆厚度，我們可以看作是正态的；因為隻有機器的水準不一樣，其它因素都一樣，是以總體均值的不一緻是因為機器不同水準所産生的（屬系統誤差），而因其它随機因素的幹擾造成的波動所形成的誤差是随機誤差，但因其它因素都一樣，随機誤差從理論上應該是一緻的，是以可以認為總體的方差相同；從實際原理可知，各資料之間并無關聯，獨立性得證。

下面是解決方案：

1）先引入定義：

因素 A 的各個水準：A1、A2、A3、…As,各個觀察結果為 Xij ，其中ij的意思為在 Aj 水準下的第i個觀察結果。

總平均： X¯=μ=1n∑sj=1njμj=1n∑sj=1∑nji=1Xij ，其中 n 為總觀察結果個數nj為 Aj 水準下的樣本個數。

水準 Aj 下的樣本均值： X¯⋅j=1nj∑nji=1Xij

誤差平方和： SE=∑sj=1∑nji=1(Xij−X¯⋅j)2 ，表示在水準 Aj 下，樣本觀察值與樣本均值的差異，由随機誤差所引起。

效應平方和： SA=∑sj=1∑nji=1(X¯⋅j−X¯)2=∑sj=1nj(X¯⋅j−X¯)2 ，表示在水準 Aj 下，樣本均值與總均值的差異，由效應差異及随機誤差引起。

總偏差平方和： ST=∑sj=1∑nji=1(Xij−X¯)2=SE+SA

2）解決方案：

當真實數值落在接受域内時，有 SA(s−1) 是 σ2 的無偏估計，落在拒絕域時，比 σ2 大，而 SE(n−s) 則無論什麼情況，都是 σ2 的無偏估計，于是，我們可以通過檢驗量 F=SA/(s−1)SE/(n−s)≥k 來拒絕效應平方和對整體方差的估計是無偏的，來進一步拒絕效應平方和與整體方差的一緻性，即顯著不一緻，以此來達到我們的目的。

可以使用方差分析表來進行分析：

方差來源	平方和	自由度	均方	F比
因素	SA	s−1	S¯A=SAs−1	F=S¯AS¯E
誤差	SE	n−s	S¯E=SEn−s
總和	ST	n−1

可以使用較為容易了解的公式來計算各項内容：

變量	計算式	描述
列和： T⋅j	∑nji=1Xij,j=1,2,3……,s	各水準下觀察值的總和
總和： T⋅⋅	∑sj=1∑nji=1Xij	所有觀察值的總和
ST	∑sj=1∑nji=1X2ij−T2⋅⋅n	所有觀察值平方的和減去總和平方除以總個數
SA	∑sj=1∑nji=1X2⋅j−T2⋅⋅n=∑sj=1T2⋅jnj−T2⋅⋅n	以列均值代替各水準的具體數值來計算其偏差，因為 ∑nji=1X2⋅j 中，各 X2⋅j 是一樣的，是以可以化為 nj⋅X2⋅j=(njX⋅j)2nj=T⋅j2nj
SE	ST−SA	二者之差

3）未知參數的估計

當拒絕原假設（即出現各水準間顯著差異時），需要對各均值之差作區間估計，以确定兩兩之間的差距範圍，于是使用樞軸量 t=(X¯⋅j−X¯⋅k)−(μj−μk)S¯E(1nj−1nk)√∼t(n−s) 來确定置信區間。

雙因素無重複試驗方差分析

雙因素無重複試驗可以看作是兩個單因素試驗的結合，方差分析表中加入第二個因素B，表中，A因素在行，B因素在列，如下：

方差來源	平方和	自由度	均方	F比
因素A	SA	r−1	S¯A=SAr−1	F=S¯AS¯E
因素B	SB	s−1	S¯B=SBs−1	F=S¯BS¯E
誤差	SE	(r−1)(s−1)	S¯E=SE(r−1)(s−1)
總和	ST	rs−1

同樣可以使用較為容易了解的公式來計算各項内容：

變量	計算式	描述
列和： T⋅j	∑ri=1Xij,j=1,2,3……,s	在因素B相同水準下，A因素各水準的觀察值的總和
行和： Ti⋅	∑sj=1Xij,i=1,2,3……,r	在因素A相同水準下，B因素各水準的觀察值的總和
總和： T⋅⋅	∑ri=1∑sj=1Xij	所有觀察值的總和
ST	∑sj=1∑ri=1X2ij−T2⋅⋅rs	所有觀察值平方的和減去總和平方除以總個數
SA	1s∑ri=1T2i⋅−T2⋅⋅rs	以行均值代替因素A各水準的具體數值來計算其偏差
SB	1r∑sj=1T2⋅j−T2⋅⋅rs	以列均值代替因素B各水準的具體數值來計算其偏差
SE	ST−SA−SB	三者之差

雙因素等重複試驗方差分析

在無重複試驗中，加入因素A與因素B的交換效應：

方差來源	平方和	自由度	均方	F比
因素A	SA	r−1	S¯A=SAr−1	F=S¯AS¯E
因素B	SB	s−1	S¯B=SBs−1	F=S¯BS¯E
互動作用	SA×B	(r−1)(s−1)	S¯B=SA×B(r−1)(s−1)	F=S¯A×BS¯E
誤差	SE	rs(t−1)	S¯E=SErs(t−1)
總和	ST	rst−1

同樣可以使用較為容易了解的公式來計算各項内容：

變量	計算式	描述
互動和： Tij⋅	∑tk=1Xijk,i=1,2,3……,r,j=1,2,3……,s	在相同因素相同水準下，各重複試驗的觀察值之和
列和： T⋅j⋅	∑ri=1∑tk=1Xijk,j=1,2,3……,s	在因素B相同水準下，A因素各水準的觀察值的總和
行和： Ti⋅⋅	∑sj=1Xij∑tk=1Xijk,i=1,2,3……,r	在因素A相同水準下，B因素各水準的觀察值的總和
總和： T⋅⋅⋅	∑ri=1∑sj=1∑tk=1Xijk	所有觀察值的總和
ST	∑sj=1∑ri=1∑tk=1X2ijk−T2⋅⋅⋅rst	所有觀察值平方的和減去總和平方除以總個數
SA	1st∑ri=1T2i⋅⋅−T2⋅⋅⋅rst	以行均值代替因素A各水準的具體數值來計算其偏差
SB	1rt∑sj=1T2⋅j⋅−T2⋅⋅⋅rst	以列均值代替因素B各水準的具體數值來計算其偏差
SA×B	(1t∑ri=1∑sj=1T2ij⋅−T2⋅⋅⋅rst)−SA−SB	無有效了解，如有高人指點，不勝感激
SE	ST−SA−SB−SA×B	四者之差

通過檢驗等重複試驗中的互動作用，其顯著差異對方案搭配有着重大作用。

推斷性統計部分（四）---簡單方差分析推斷性統計部分（四）—簡單方差分析

推斷性統計部分（四）—簡單方差分析

單因素試驗方差分析

雙因素無重複試驗方差分析

雙因素等重複試驗方差分析

繼續閱讀

機率論與數理統計 | (5) 二進制随機變量Part Two

機率論與數理統計(3.3)二維随機變量條件分布

23.0.機率論與數理統計-随機變量的數學期望問題的引入

機率論的基本概念随機試驗樣本空間，随機事件随機事件事件間的關系與事件的運算頻率和機率等可能概型（古典概型）條件機率幾何機率獨立性

全機率公式和貝葉斯公式的應用 (概統1)

随機變量的數字特征前言數學期望與方差協方差與相關系數

基于最小二乘法的——線性回歸拟合（一）1、最小二乘法原理

第八章方差分析以及線性回歸(2)一進制線性回歸

2 條件機率與統計獨立性1 條件機率2 事件獨立3 全機率公式

兩個獨立同分布且元素獨立同分布的序列相加問題解答參考文獻

方差1.定義：2.公式：3.性質：4.總結：5.切比雪夫不等式

機率論與數理統計基礎（二）:常用離散分布二項、泊松、超幾何分、幾何、負二項分布

25.0.機率論與數理統計-數學期望的性質

邊緣分布1.離散型：2.連續型：二維正态随機變量的邊緣機率密度

機率論與數理統計--排列組合（一）