方差分析

　方差分析是由英国统计学家Fisher在20世纪20年代提出的。

　方差分析的目的是推断两个或者两个以上的总体均值是否有差异的显著性检验。

单因素方差分析

例子

　保险公司为了了解某一险种在4个不同地区索赔额情况是否存在差异。收集了四个地区一年的索赔额记录。这四个地区的索赔额有无显著性差异。

第八章方差分析以及线性回归(1)方差分析单因素方差分析

概念

　试验指标：研究对象的特征值。例如：索赔额。

　因素：对试验指标产生影响的原因。例如：地区。

　水平：因素中各个不同状态称为水平。例如：A1、A2、A3、A4四个水平。

　单因素方差分析：仅考虑一个因素A对试验指标的影响。

检验假设

　我们假设有r个水平，每个水平下有 nj 个观察值， j=1,2...r ，观察值总数为n

　 Xij=μi+εij

　 εij ~ N(0,σ2)

　 j=1,2,...ni ， i=1,2,...r

　 ∑ri=1ni=n

　 X¯¯¯i.=1ni∑nij=1Xij

　 X¯¯¯=1n∑ri=1∑nij=1Xij

原检验

　 H0:μ1=μ2=....=μr

　 H1:μ1,μ2...μr 不全相等

检验假设的方法

　检验假设采用的方法是平方和分解法。

　总离差平方和 ST ：表示数据中的差异。这种差异可以认为由两部分因素引起：因素A和随机误差。

　效应平方和 SA : 表示由因素A引起的差异。

　误差平方和 SE : 表示由随机误差所引起的差异。

　 ST=∑ri=1∑nij=1(Xij−X¯¯¯)2

　 SA=∑ri=1(X¯¯¯i.−X¯¯¯)2 (又叫做组间差异)

　 SE=1n∑ri=1∑nij=1(Xij−X¯¯¯i.)2 (又叫做组内差异)

选择统计量

　定理如下：

　 ST=SA+SE

　 SEσ2 ~卡方(n-r) 理由是：对于某一个水平i， ∑nij=1(Xij−Xi.)2 是总体 N(μi,σ2) 的样本方差 Si 的 nj−1 倍，所以 ∑nij=1(Xij−Xi.)2σ2 ~卡方( ni−1 )（参考链接）；又因为各个水平之间相互独立， Xij 相互独立，根据卡方分布的可加性，所以 SEσ2 ~卡方( ∑ri=1ni−1 )；等价于最开始的表达式。

　 E(SE)=(n−r)σ2 ，可以参考参数估计(PDF版)的练习题。

　 SE与SA独立（参考链接）

　当 H0 为真时， SAσ2 ~卡方(r-1) 理由是：　 SA=∑ri=1(X¯¯¯i.−X¯¯¯)2 是r个变量 ni−−√(X¯¯¯i.−X¯¯¯) (i=1,2…r)的平方和，因为 H0 的假设使得它们之间有一个线性约束条件…..写不下去了，参考一下课本或者直接记住结论。

　最终使用的统计量 F=SA/(r−1)SE/(n−r) ~F(r-1,n-r)

　问题的拒绝域 F=SA/(r−1)SE/(n−r)≥Fα(r−1,n−r) ，因为如果各个水平均值相同那么 SA 不应该太大。

查表计算

未知参数估计

　未知参数有 σ2,μ1,μ2...

　 σ^2=SEn−r=MSE

　 μi=X¯¯¯i.

两两对比

　比较 N(μi,σ2) 与 N(μj,σ2) 是否有差异。可以使用区间估计或者假设检验。

区间估计

　 E(X¯¯¯i.−X¯¯¯j.)=μi−μj

　 D(X¯¯¯i.−X¯¯¯j.)=σ2(1ni+1nj)=MSE(1ni+1nj)

　所以 X¯¯¯i.−X¯¯¯j. ~N( μi−μj,MSE(1ni+1nj)) ，参考以前可以知道置信区间是 (X¯¯¯i.−X¯¯¯j.±tα/2(n−r)MSE(1/ni+1/nj)−−−−−−−−−−−−−−−√)

假设检验

　 H0:μi=μj ， H1:μi≠μj

　检验统计量 tij=X¯¯¯i.−X¯¯¯j.MSE(1/ni+1/nj)−−−−−−−−−−−−−−−√)

　当 H0 成立， tij ~ t(n−r) (这里自由度为什么是n-r？)

　拒绝域 W=|tij|>tα/2(n−r)

方差分析的条件

　进行方差分析的三个条件

　1独立性。数据来自r个总体的随机抽样。在实际使用中要注意试验数据、或者采集数据的独立性。

　2 正态性。r个独立总体均为正态分布。实际中几乎没有一个总体真正服从正态分布，只要数据分布比较对称的话就没有问题。F检验对正态性的假设并不敏感。

　3 方差齐性。r个总体方差相同。方差齐性的检查标准是：最大样本标准差不超过最小样本标准差的两倍时，方差分析F检验结果近似准确。

第八章方差分析以及线性回归(1)方差分析单因素方差分析

方差分析

单因素方差分析

例子

概念

检验假设

原检验

检验假设的方法

选择统计量

查表计算

未知参数估计

两两对比

区间估计

假设检验

方差分析的条件

继续阅读

概率论与数理统计 | (5) 二元随机变量Part Two

概率论与数理统计(3.3)二维随机变量条件分布

23.0.概率论与数理统计-随机变量的数学期望问题的引入

概率论的基本概念随机试验样本空间，随机事件随机事件事件间的关系与事件的运算频率和概率等可能概型（古典概型）条件概率几何概率独立性

全概率公式和贝叶斯公式的应用 (概统1)

随机变量的数字特征前言数学期望与方差协方差与相关系数

基于最小二乘法的——线性回归拟合（一）1、最小二乘法原理

第八章方差分析以及线性回归(2)一元线性回归

2 条件概率与统计独立性1 条件概率2 事件独立3 全概率公式

两个独立同分布且元素独立同分布的序列相加问题解答参考文献

推断性统计部分（四）---简单方差分析推断性统计部分（四）—简单方差分析

方差1.定义：2.公式：3.性质：4.总结：5.切比雪夫不等式

概率论与数理统计基础（二）:常用离散分布二项、泊松、超几何分、几何、负二项分布

25.0.概率论与数理统计-数学期望的性质

边缘分布1.离散型：2.连续型：二维正态随机变量的边缘概率密度

概率论与数理统计--排列组合（一）