卡方分布(chi-square distribution, χ²-distribution)是機率論與統計學中常用的一種機率分布。k個獨立的标準正态分布變量的平方和服從自由度為k的卡方分布。卡方分布是一種特殊的伽瑪分布,是統計推斷中應用最為廣泛的機率分布之一,例如假設檢驗和置信區間的計算。
若k個随機變量
![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsIyZuBnL2ETZmVmN1gTMkFjM5MGOlVGMzMmZ1IDO5UDM1QWO2kzLclzLcZzLclzLchGdh12Lcdmcv5SYpRWZtl2apdnLkF2bsBXdvw1LcpDc0RHaiojIsJye.png)
、……、
是互相獨立,符合标準正态分布的随機變量(數學期望為0、方差為1),則随機變量Z的平方和
-
數學之路-SAS分析(1)
被稱為服從自由度為 k 的卡方分布,記作
-
數學之路-SAS分析(1) -
數學之路-SAS分析(1)
機率密度函數
其中,
是 伽瑪函數。
期望和方差
分布的 均值為自由度 n,記為 E(
) = n。
分布的 方差為2倍的自由度(2n),記為 D(
) = 2n。
性質
1)
分布在第一 象限内,卡方值都是正值,呈正偏态(右偏态),随着參數 n 的增大,
分布趨近于正态分布;卡方分布密度曲線下的面積都是1. 2)
分布的均值與 方差可以看出,随着自由度n的增大,χ2分布向 正無窮方向延伸(因為均值n越來越大),分布 曲線也越來越低闊(因為方差2n越來越大)。 3)不同的自由度決定不同的卡方分布,自由度越小,分布越偏斜。 4) 若
互相獨立,則:
服從
分布,自由度為
;
服從
分布,自由度為
。
累積分布函數
卡方分布的累積分布函數為:
- ,
數學之路-SAS分析(1)
其中γ(k,z)為不完全Gamma函數
在大多數涉及卡方分布的書中都會提供它的累積分布函數的對照表。此外許多表格計算軟體如OpenOffice.org Calc和Microsoft Excel中都包括卡方分布函數。
自由度為k的卡方變量的平均值是k,方差是2k。 卡方分布是伽瑪分布的一個特例,它的熵為:
-
數學之路-SAS分析(1)
其中
是雙伽瑪函數。
伽瑪函數(Gamma Function)作為 階乘的延拓,是定義在複數範圍内的 亞純函數,通常寫成
。 在實數域上伽瑪函數定義為:
在複數域上伽瑪函數定義為:
其中
,此定義可以用 解析開拓原理拓展到整個 複數域上,非正整數除外。 标準正态分布又稱為u分布,是以0為 均數、以1為 标準差的正态分布,記為N(0,1)。 标準正态分布曲線下面積分布規律是:在-1.96~+1.96範圍内曲線下的面積等于0.9500,在-2.58~+2.58範圍内曲線下面積為0.9900。統計學家還制定了一張統計用表(自由度為∞時),借助該表就可以估計出某些特殊u1和u2值範圍内的曲線下面積。
正态分布的機率密度函數曲線呈鐘形,是以人們又經常稱之為 鐘形曲線。我們通常所說的 标準正态分布是位置參數 均數為0, 尺度參數: 标準差為1的正态分布(見右圖中綠色曲線)。
正态分布中一些值得注意的量: 密度函數關于平均值對稱 平均值與它的 衆數(statistical mode)以及 中位數(median)同一數值。 函數曲線下68.268949%的面積在平均數左右的一個 标準差範圍内。 95.449974%的面積在平均數左右兩個标準差的範圍内。 99.730020%的面積在平均數左右三個标準差的範圍内。 99.993666%的面積在平均數左右四個标準差的範圍内。 函數曲線的反曲點(inflection point)為離平均數一個标準差距離的位置。
非中心卡方分布 [1] [2] 是有正态分布衍生得到的一個機率分布. 設
為一組獨立的随機變量, 并且
(
服從 正态分布 ), 定義随機變量
, 稱随機變量
服從自由度為
, 非中心參數為
的的非中心卡方分布, 記為
; 其中
. 當
時, 随機變量
服從自由度為
的 卡方分布 .
SAS設定自由度和非中心參數計算p分位點的方式如下:
272 data _null_;
273 q=cinv(0.95,10,25.2);*0.95分位數,自由度為10,非中心參數為25.2;
274 put q=;
275 run;
q=54.759186647
NOTE: “DATA 語句”所用時間(總處理時間):
實際時間 0.00 秒
CPU 時間 0.00 秒
CINV( p, df <, nc>)
Required Arguments
p
is a numeric probability.
Range | 0 ≤ p < 1 |
df
is a numeric degrees of freedom parameter.
Range | df > 0 |
Optional Argument
nc
is a numeric noncentrality parameter.
Range | nc ≥ 0 |
Details
The CINV function returns the p th quantile from the chi-square distribution with degrees of freedom df and a noncentrality parameter nc. The probability that an observation from a chi-square distribution is less than or equal to the returned quantile is p. This function accepts a noninteger degrees of freedom parameter df. If the optional parameter nc is not specified or has the value 0, the quantile from the central chi-square distribution is returned. The noncentrality parameter nc is defined such that if X is a normal random variable with mean μ and variance 1, X 2 has a noncentral chi-square distribution with df=1 and nc = μ 2.
總體正态分布的等距分組的組距确定,即組距相等。
n=1+3.322*LOG(N)
d=R/n
N:總體容量
n:組數
R:總體全距:最大值與最小值之差。
d:組距
data _null_;
N=1000;
n=1+3.322*LOG(N);
mymax=18651;
mymin=1240;
r=mymax-mymin;
d=r/n;
put d;
run;