天天看點

《多元統計分析》學習筆記之多元正态分布

鄙人筆記,記一些知識點。

文章目錄

  • ​​多元正态分布​​
  • ​​1.1多元分布的基本概念​​
  • ​​1.2統計距離​​
  • ​​1.3多元正态分布​​
  • ​​1.5常用分布及抽樣分布​​

多元正态分布

1.1多元分布的基本概念

  • 随機變量

假定所讨論的是多個變量的總體,所研究的資料是同時觀測p 個名額(即變量),進行了n 次觀測得到的,我們把這p 個名額表示為X1,X2,…,Xp,常用向量X =(X1,X2,…,Xp)′表示對同一個體觀測的p 個變量。若觀測了n 個個體,稱每一個個體的p 個變量為一個樣品,而全體n 個樣品形成一個樣本。

  • 分布函數

描述随機變量的最基本工具是分布函數。類似地,描述随機向量的最基本工具還是分布函數。

  • 多元變量的獨立性

類似地,若聯合分布等于各自分布的乘積,稱 p個随機向量 X1,X2,…,Xp互相獨立。由X1,X2,…,Xp互相獨立可以推知任何 Xi與 Xj( i ≠ j)獨立,但是,若已知任何 Xi與 Xj( i ≠ j)獨立,并不能推出 X1,X2,…,Xp互相獨立。

  • 随機向量的數字特征

1.随機向量x的均值

當 A, B為常數矩陣時,由定義可立即推出如下性質:

(1)E(AX)=AE(X)

(2)E(AXB)=AE(X)B

2.随機向量X的協方差陣

稱 ∣ cov( X, X) ∣為 X的廣義方差,它是協方差陣的行列式之值。

3.随機向量X和Y的協方差陣

當A,B為常數矩陣時,由定義可推出協方差陣有如下性質:

(1)D(AX)=AD(X)A′=A∑A′

(2)cov(AX,BY)=Acov(X,Y)B′

(3)設 X為 n維随機向量,期望和協方差存在,記 μ=∑(X) 喵喵喵? , ∑= D( X), A為 n × n常數陣,則:

E(X'AX) = tr(A∑) + μ'Aμ

對于任何随機向量 X=(X1,X2,…,Xp)′來說,其協方差陣 ∑都是對稱陣,同時總是非負定(也稱半正定)的。大多數情形下是正定的。

  • 随機向量X的相關陣

在資料處理時,為了克服由于名額的量綱不同對統計分析結果帶來的影響,往往在使用某種統計分析方法之前,将每個名額“标準化”。标準化資料的協方差陣正好是原名額的相關陣

1.2統計距離

  • 歐氏距離

大部分多元方法是建立在簡單的距離概念基礎上的,即平時人們熟悉的歐氏距離,或稱直線距離。一般,若點P 的坐标P =(x1,x2,…,xp),則它到原點O =(0,0,…,0)的歐氏距離,依勾股定理有:

《多元統計分析》學習筆記之多元正态分布

任意兩個點P=(x1,x2,…,xp)與Q=(y1,y2,…,yp)之間的歐氏距離為:

《多元統計分析》學習筆記之多元正态分布

但就大部分統計問題而言,歐氏距離是不能令人滿意的。這是因為每個坐标對歐氏距離的貢獻是同等的。當坐标軸表示測量值時,它們往往帶有大小不等的随機波動,在這種情況下,合理的辦法是對坐标權重,使變化較大的坐标比變化小的坐标有較小的權系數,這就産生了各種距離。歐氏距離還有一個缺點,那就是當各個分量為不同性質的量時,“距離”的大小竟然與名額的機關有關。

  • 統計距離

有必要建立一種距離,這種距離應能夠展現各個變量在變差大小上的不同,以及有時存在的相關性,還要求距離與各變量所用的機關無關。看來,我們選擇的距離要依賴于樣本方差和協方差。是以,采用“統計距離”這個術語,以差別通常習慣用的歐氏距離。

設P =(x1,x2,…,xp),Q =(y1,y2,…,yp),且Q 的坐标是固定的,點P 的坐标互相獨立地變化。用S11,S22,…,Spp 表示P 個變量x1,x2,…,xp 的n 次觀測的樣本方差。為給出坐标的合理權數,用坐标标準離差去除以每個坐标,得到标準化坐标,則從P 到Q 的統計距離為:

《多元統計分析》學習筆記之多元正态分布
  • 馬氏距離

    最常用的一種統計距離是印度統計學家馬哈拉諾比斯( Mahalanobis)于 1936年引入的距離,稱為“馬氏距離”。

    設X,Y是從均值向量為μ,協方差陣為∑的總體G中抽取的兩個樣品,定義X,Y兩點之間的馬氏距離為:

    《多元統計分析》學習筆記之多元正态分布
    定義X與總體G的馬氏距離為:
《多元統計分析》學習筆記之多元正态分布
  • 基本公理

設 E表示一個點集, d表示距離,它是 E × E到[ 0, ∞)的函數,可以證明,馬氏距離符合如下距離的四條基本公理:

(1) d( x, y) ≥ 0, ∀ x, y ∈ E

(2) d( x, y)= 0, 當且僅當 x= y

(3) d( x, y)= d( y, x), ∀ x, y ∈ E

(4) d( x, y) ≤ d( x, z)+ d( z, y), ∀ x, y, z ∈ E

1.3多元正态分布

  • 多元正态分布是一進制正态分布的推廣

多元正态分布是一進制正态分布的推廣。迄今為止,多元分析的主要理論都是建立在多元正态總體基礎上的,多元正态分布是多元分析的基礎。另一方面,許多實際問題的分布常是多元正态分布或近似正态分布,或雖本身不是正态分布,但它的樣本均值近似于多元正态分布。

  • 多元正态分布機率密度函數

若 p元随機向量 X=(x1,x2,…,xp)′的機率密度函數為:

《多元統計分析》學習筆記之多元正态分布

則稱 X=( x1,x2,…,xp)′遵從 p元正态分布,也稱 X為 p元正态變量,記為:

X~ N

p( μ, ∑)

∣ ∑ ∣為協方差陣 ∑的行列式。

  • 多元正态分布的性質

(1)如果正态随機向量 X=( X1, X2,…, Xp)′的協方差陣 ∑是對角陣,則 X的各分量是互相獨立的随機變量

(2)多元正态分布随機向量 X的任何一個分量子集[多變量( x1,x2,…,xp)′中的一部分變量構成的集合]的分布(稱為 X的邊緣分布)仍然遵從正态分布。反之,若一個随機向量的任何邊緣分布均為正态,并不能導出它是多元正态分布

(3)多元正态向量 X=( X1, X2,…, Xp)′的任意線性變換仍然遵從多元正态分布。

即設X ~Np(μ,∑),而m 維随機向量Zm × 1 =AX +b,其中A =(aij)是m × p 階的常數矩陣,b 是m 維的常向量,則m 維随機向量Z 也是正态的,且Z ~Nm(A μ +b,A ∑ A′)。即Z 遵從m 元正态分布,其均值向量為A μ +b,協方差陣為A ∑ A′。

(4)若 X~ Np( μ, ∑),則:

《多元統計分析》學習筆記之多元正态分布

d2若為定值,随着 X的變化,其軌迹為一橢球面,是 X的密度函數的等值面。若 X給定,則 d2為 X到 μ的馬氏距離。

  • 正态分布的條件分布

設X~Np(μ,∑),p≥2,将X,μ和∑剖分如下:

《多元統計分析》學習筆記之多元正态分布

設 X~ Np( μ, ∑), ∑> 0,則:

(X

(1) ∣ X

(2) )~ N

q( μ

1· 2 , ∑

11· 2)

其中:

《多元統計分析》學習筆記之多元正态分布

1.5常用分布及抽樣分布

  • 統計量

多元統計研究的是多名額問題,為了解總體的特征,通過對總體抽樣得到代表總體的樣本,但因為資訊是分散在每個樣本上的,就需要對樣本進行加工,把樣本的資訊濃縮到不包含未知量的樣本函數中,這個函數稱為統計量,統計量的分布稱為抽樣分布。

在數理統計中常用的抽樣分布有 χ2分布、 t分布和 F分布。在多元統計中,與之對應的分布分别為 Wishart分布、 T2分布和 Wilks分布。

  • Wishart分布

設 X(α) =( X α1, X α2,…, X αp)′( α= 1, 2,…, n)互相獨立,且 X(α)~ Np( μ α, ∑),記 X=( X(1), X(2),…, X(n)),則随機矩陣:

《多元統計分析》學習筆記之多元正态分布

所遵從的分布稱為自由度為 n的 p維非中心 Wishart分布,記為 W~ Wp( n, ∑, Z)。其中, n ≥ p, ∑> 0

《多元統計分析》學習筆記之多元正态分布

μ αi稱為非中心參數,當 μ α= 0時稱為中心 Wishart分布,記為 Wp( n, ∑)

  • T2分布

設 W~ Wp( n, ∑), X~ Np( 0, c ∑), c> 0, n ≥ p, ∑> 0, W與 X互相獨立,則稱随機變量

《多元統計分析》學習筆記之多元正态分布

所遵從的分布稱為第一自由度為 p、第二自由度為 n的中心 T2分布,記為 T2~ T2( p, n)

  • 中心 T2分布可化為中心 F分布

中心 T2分布可化為中心 F分布,其關系可表示為:

《多元統計分析》學習筆記之多元正态分布

顯然,當 p= 1時,有 T2( 1, n)= F( 1, n)。

  • Wilks分布

繼續閱讀