天天看點

數學之路-SAS分析(1)

卡方分布(chi-square distribution, χ²-distribution)是機率論與統計學中常用的一種機率分布。k個獨立的标準正态分布變量的平方和服從自由度為k的卡方分布。卡方分布是一種特殊的伽瑪分布,是統計推斷中應用最為廣泛的機率分布之一,例如假設檢驗和置信區間的計算。

若k個随機變量

數學之路-SAS分析(1)

、……、

數學之路-SAS分析(1)

是互相獨立,符合标準正态分布的随機變量(數學期望為0、方差為1),則随機變量Z的平方和

數學之路-SAS分析(1)

被稱為服從自由度為 k 的卡方分布,記作

數學之路-SAS分析(1)
數學之路-SAS分析(1)

機率密度函數

數學之路-SAS分析(1)

其中,

數學之路-SAS分析(1)

是 伽瑪函數。

期望和方差

數學之路-SAS分析(1)

分布的 均值為自由度 n,記為 E(

數學之路-SAS分析(1)

) = n。

數學之路-SAS分析(1)

分布的 方差為2倍的自由度(2n),記為 D(

數學之路-SAS分析(1)

) = 2n。

性質

1)

數學之路-SAS分析(1)

分布在第一 象限内,卡方值都是正值,呈正偏态(右偏态),随着參數 n 的增大,

數學之路-SAS分析(1)

分布趨近于正态分布;卡方分布密度曲線下的面積都是1. 2)

數學之路-SAS分析(1)

分布的均值與 方差可以看出,随着自由度n的增大,χ2分布向 正無窮方向延伸(因為均值n越來越大),分布 曲線也越來越低闊(因為方差2n越來越大)。 3)不同的自由度決定不同的卡方分布,自由度越小,分布越偏斜。 4) 若

數學之路-SAS分析(1)

互相獨立,則:

數學之路-SAS分析(1)

服從

數學之路-SAS分析(1)

分布,自由度為

數學之路-SAS分析(1)

數學之路-SAS分析(1)

服從

數學之路-SAS分析(1)

分布,自由度為

數學之路-SAS分析(1)

累積分布函數

卡方分布的累積分布函數為:

數學之路-SAS分析(1)

其中γ(k,z)為不完全Gamma函數

在大多數涉及卡方分布的書中都會提供它的累積分布函數的對照表。此外許多表格計算軟體如OpenOffice.org Calc和Microsoft Excel中都包括卡方分布函數。

自由度為k的卡方變量的平均值是k,方差是2k。 卡方分布是伽瑪分布的一個特例,它的熵為:

數學之路-SAS分析(1)

其中

數學之路-SAS分析(1)

是雙伽瑪函數。

伽瑪函數(Gamma Function)作為 階乘的延拓,是定義在複數範圍内的 亞純函數,通常寫成

數學之路-SAS分析(1)

。 在實數域上伽瑪函數定義為:

數學之路-SAS分析(1)

在複數域上伽瑪函數定義為:

數學之路-SAS分析(1)

其中

數學之路-SAS分析(1)

,此定義可以用 解析開拓原理拓展到整個 複數域上,非正整數除外。 标準正态分布又稱為u分布,是以0為 均數、以1為 标準差的正态分布,記為N(0,1)。 标準正态分布曲線下面積分布規律是:在-1.96~+1.96範圍内曲線下的面積等于0.9500,在-2.58~+2.58範圍内曲線下面積為0.9900。統計學家還制定了一張統計用表(自由度為∞時),借助該表就可以估計出某些特殊u1和u2值範圍内的曲線下面積。

正态分布的機率密度函數曲線呈鐘形,是以人們又經常稱之為 鐘形曲線。我們通常所說的 标準正态分布是位置參數 均數為0, 尺度參數: 标準差為1的正态分布(見右圖中綠色曲線)。

數學之路-SAS分析(1)

正态分布中一些值得注意的量: 密度函數關于平均值對稱 平均值與它的 衆數(statistical mode)以及 中位數(median)同一數值。 函數曲線下68.268949%的面積在平均數左右的一個 标準差範圍内。 95.449974%的面積在平均數左右兩個标準差的範圍内。 99.730020%的面積在平均數左右三個标準差的範圍内。 99.993666%的面積在平均數左右四個标準差的範圍内。 函數曲線的反曲點(inflection point)為離平均數一個标準差距離的位置。

數學之路-SAS分析(1)

非中心卡方分布 [1] [2] 是有正态分布衍生得到的一個機率分布. 設

數學之路-SAS分析(1)

為一組獨立的随機變量, 并且

數學之路-SAS分析(1)

(

數學之路-SAS分析(1)

服從 正态分布 ), 定義随機變量

數學之路-SAS分析(1)

, 稱随機變量

數學之路-SAS分析(1)

服從自由度為

數學之路-SAS分析(1)

, 非中心參數為

數學之路-SAS分析(1)

的的非中心卡方分布, 記為

數學之路-SAS分析(1)

; 其中

數學之路-SAS分析(1)

. 當

數學之路-SAS分析(1)

時, 随機變量

數學之路-SAS分析(1)

服從自由度為

數學之路-SAS分析(1)

的 卡方分布 .

SAS設定自由度和非中心參數計算p分位點的方式如下:

272  data _null_;

273  q=cinv(0.95,10,25.2);*0.95分位數,自由度為10,非中心參數為25.2;

274  put q=;

275  run;

q=54.759186647

NOTE: “DATA 語句”所用時間(總處理時間):

      實際時間          0.00 秒

      CPU 時間          0.00 秒

CINV( p, df <, nc>)

Required Arguments

p

is a numeric probability.

Range 0 ≤ p < 1

df

is a numeric degrees of freedom parameter.

Range df > 0

Optional Argument

nc

is a numeric noncentrality parameter.

Range nc ≥ 0

Details

The CINV function returns the p th quantile from the chi-square distribution with degrees of freedom df and a noncentrality parameter nc. The probability that an observation from a chi-square distribution is less than or equal to the returned quantile is p. This function accepts a noninteger degrees of freedom parameter df. If the optional parameter nc is not specified or has the value 0, the quantile from the central chi-square distribution is returned. The noncentrality parameter nc is defined such that if X is a normal random variable with mean μ and variance 1, X 2 has a noncentral chi-square distribution with df=1 and nc = μ 2. 

總體正态分布的等距分組的組距确定,即組距相等。

n=1+3.322*LOG(N)

d=R/n

N:總體容量

n:組數

R:總體全距:最大值與最小值之差。

d:組距

data _null_;

N=1000;

n=1+3.322*LOG(N);

mymax=18651;

mymin=1240;

r=mymax-mymin;

d=r/n;

put d;

run;

繼續閱讀