方差分析
方差分析是由英国统计学家Fisher在20世纪20年代提出的。
方差分析的目的是推断两个或者两个以上的总体均值是否有差异的显著性检验。
单因素方差分析
例子
保险公司为了了解某一险种在4个不同地区索赔额情况是否存在差异。收集了四个地区一年的索赔额记录。这四个地区的索赔额有无显著性差异。

概念
试验指标:研究对象的特征值。例如:索赔额。
因素:对试验指标产生影响的原因。例如:地区。
水平:因素中各个不同状态称为水平。例如:A1、A2、A3、A4四个水平。
单因素方差分析:仅考虑一个因素A对试验指标的影响。
检验假设
我们假设有r个水平,每个水平下有 nj 个观察值, j=1,2...r ,观察值总数为n
Xij=μi+εij
εij ~ N(0,σ2)
j=1,2,...ni , i=1,2,...r
∑ri=1ni=n
X¯¯¯i.=1ni∑nij=1Xij
X¯¯¯=1n∑ri=1∑nij=1Xij
原检验
H0:μ1=μ2=....=μr
H1:μ1,μ2...μr 不全相等
检验假设的方法
检验假设采用的方法是平方和分解法。
总离差平方和 ST : 表示数据中的差异。这种差异可以认为由两部分因素引起:因素A和随机误差。
效应平方和 SA : 表示由因素A引起的差异。
误差平方和 SE : 表示由随机误差所引起的差异。
ST=∑ri=1∑nij=1(Xij−X¯¯¯)2
SA=∑ri=1(X¯¯¯i.−X¯¯¯)2 (又叫做组间差异)
SE=1n∑ri=1∑nij=1(Xij−X¯¯¯i.)2 (又叫做组内差异)
选择统计量
定理如下:
ST=SA+SE
SEσ2 ~卡方(n-r) 理由是:对于某一个水平i, ∑nij=1(Xij−Xi.)2 是总体 N(μi,σ2) 的样本方差 Si 的 nj−1 倍,所以 ∑nij=1(Xij−Xi.)2σ2 ~卡方( ni−1 )(参考链接);又因为各个水平之间相互独立, Xij 相互独立,根据卡方分布的可加性,所以 SEσ2 ~卡方( ∑ri=1ni−1 );等价于最开始的表达式。
E(SE)=(n−r)σ2 ,可以参考参数估计(PDF版)的练习题。
SE与SA独立 (参考链接)
当 H0 为真时, SAσ2 ~卡方(r-1) 理由是: SA=∑ri=1(X¯¯¯i.−X¯¯¯)2 是r个变量 ni−−√(X¯¯¯i.−X¯¯¯) (i=1,2…r)的平方和,因为 H0 的假设使得它们之间有一个线性约束条件…..写不下去了,参考一下课本或者直接记住结论。
最终使用的统计量 F=SA/(r−1)SE/(n−r) ~F(r-1,n-r)
问题的拒绝域 F=SA/(r−1)SE/(n−r)≥Fα(r−1,n−r) ,因为如果各个水平均值相同那么 SA 不应该太大。
查表计算
未知参数估计
未知参数有 σ2,μ1,μ2...
σ^2=SEn−r=MSE
μi=X¯¯¯i.
两两对比
比较 N(μi,σ2) 与 N(μj,σ2) 是否有差异。可以使用区间估计或者假设检验。
区间估计
E(X¯¯¯i.−X¯¯¯j.)=μi−μj
D(X¯¯¯i.−X¯¯¯j.)=σ2(1ni+1nj)=MSE(1ni+1nj)
所以 X¯¯¯i.−X¯¯¯j. ~N( μi−μj,MSE(1ni+1nj)) ,参考以前可以知道置信区间是 (X¯¯¯i.−X¯¯¯j.±tα/2(n−r)MSE(1/ni+1/nj)−−−−−−−−−−−−−−−√)
假设检验
H0:μi=μj , H1:μi≠μj
检验统计量 tij=X¯¯¯i.−X¯¯¯j.MSE(1/ni+1/nj)−−−−−−−−−−−−−−−√)
当 H0 成立, tij ~ t(n−r) (这里自由度为什么是n-r?)
拒绝域 W=|tij|>tα/2(n−r)
方差分析的条件
进行方差分析的三个条件
1独立性。数据来自r个总体的随机抽样。在实际使用中要注意试验数据、或者采集数据的独立性。
2 正态性。r个独立总体均为正态分布。实际中几乎没有一个总体真正服从正态分布,只要数据分布比较对称的话就没有问题。F检验对正态性的假设并不敏感。
3 方差齐性。r个总体方差相同。方差齐性的检查标准是:最大样本标准差不超过最小样本标准差的两倍时,方差分析F检验结果近似准确。