鄙人筆記,記一些知識點。
文章目錄
- 多元正态分布
- 1.1多元分布的基本概念
- 1.2統計距離
- 1.3多元正态分布
- 1.5常用分布及抽樣分布
多元正态分布
1.1多元分布的基本概念
- 随機變量
假定所讨論的是多個變量的總體,所研究的資料是同時觀測p 個名額(即變量),進行了n 次觀測得到的,我們把這p 個名額表示為X1,X2,…,Xp,常用向量X =(X1,X2,…,Xp)′表示對同一個體觀測的p 個變量。若觀測了n 個個體,稱每一個個體的p 個變量為一個樣品,而全體n 個樣品形成一個樣本。
- 分布函數
描述随機變量的最基本工具是分布函數。類似地,描述随機向量的最基本工具還是分布函數。
- 多元變量的獨立性
類似地,若聯合分布等于各自分布的乘積,稱 p個随機向量 X1,X2,…,Xp互相獨立。由X1,X2,…,Xp互相獨立可以推知任何 Xi與 Xj( i ≠ j)獨立,但是,若已知任何 Xi與 Xj( i ≠ j)獨立,并不能推出 X1,X2,…,Xp互相獨立。
- 随機向量的數字特征
1.随機向量x的均值
當 A, B為常數矩陣時,由定義可立即推出如下性質:
(1)E(AX)=AE(X)
(2)E(AXB)=AE(X)B
2.随機向量X的協方差陣
稱 ∣ cov( X, X) ∣為 X的廣義方差,它是協方差陣的行列式之值。
3.随機向量X和Y的協方差陣
當A,B為常數矩陣時,由定義可推出協方差陣有如下性質:
(1)D(AX)=AD(X)A′=A∑A′
(2)cov(AX,BY)=Acov(X,Y)B′
(3)設 X為 n維随機向量,期望和協方差存在,記 μ=∑(X) 喵喵喵? , ∑= D( X), A為 n × n常數陣,則:
E(X'AX) = tr(A∑) + μ'Aμ
對于任何随機向量 X=(X1,X2,…,Xp)′來說,其協方差陣 ∑都是對稱陣,同時總是非負定(也稱半正定)的。大多數情形下是正定的。
- 随機向量X的相關陣
在資料處理時,為了克服由于名額的量綱不同對統計分析結果帶來的影響,往往在使用某種統計分析方法之前,将每個名額“标準化”。标準化資料的協方差陣正好是原名額的相關陣
1.2統計距離
- 歐氏距離
大部分多元方法是建立在簡單的距離概念基礎上的,即平時人們熟悉的歐氏距離,或稱直線距離。一般,若點P 的坐标P =(x1,x2,…,xp),則它到原點O =(0,0,…,0)的歐氏距離,依勾股定理有:
任意兩個點P=(x1,x2,…,xp)與Q=(y1,y2,…,yp)之間的歐氏距離為:
但就大部分統計問題而言,歐氏距離是不能令人滿意的。這是因為每個坐标對歐氏距離的貢獻是同等的。當坐标軸表示測量值時,它們往往帶有大小不等的随機波動,在這種情況下,合理的辦法是對坐标權重,使變化較大的坐标比變化小的坐标有較小的權系數,這就産生了各種距離。歐氏距離還有一個缺點,那就是當各個分量為不同性質的量時,“距離”的大小竟然與名額的機關有關。
- 統計距離
有必要建立一種距離,這種距離應能夠展現各個變量在變差大小上的不同,以及有時存在的相關性,還要求距離與各變量所用的機關無關。看來,我們選擇的距離要依賴于樣本方差和協方差。是以,采用“統計距離”這個術語,以差別通常習慣用的歐氏距離。
設P =(x1,x2,…,xp),Q =(y1,y2,…,yp),且Q 的坐标是固定的,點P 的坐标互相獨立地變化。用S11,S22,…,Spp 表示P 個變量x1,x2,…,xp 的n 次觀測的樣本方差。為給出坐标的合理權數,用坐标标準離差去除以每個坐标,得到标準化坐标,則從P 到Q 的統計距離為:
-
馬氏距離
最常用的一種統計距離是印度統計學家馬哈拉諾比斯( Mahalanobis)于 1936年引入的距離,稱為“馬氏距離”。
設X,Y是從均值向量為μ,協方差陣為∑的總體G中抽取的兩個樣品,定義X,Y兩點之間的馬氏距離為:
定義X與總體G的馬氏距離為:
- 基本公理
設 E表示一個點集, d表示距離,它是 E × E到[ 0, ∞)的函數,可以證明,馬氏距離符合如下距離的四條基本公理:
(1) d( x, y) ≥ 0, ∀ x, y ∈ E
(2) d( x, y)= 0, 當且僅當 x= y
(3) d( x, y)= d( y, x), ∀ x, y ∈ E
(4) d( x, y) ≤ d( x, z)+ d( z, y), ∀ x, y, z ∈ E
1.3多元正态分布
- 多元正态分布是一進制正态分布的推廣
多元正态分布是一進制正态分布的推廣。迄今為止,多元分析的主要理論都是建立在多元正态總體基礎上的,多元正态分布是多元分析的基礎。另一方面,許多實際問題的分布常是多元正态分布或近似正态分布,或雖本身不是正态分布,但它的樣本均值近似于多元正态分布。
- 多元正态分布機率密度函數
若 p元随機向量 X=(x1,x2,…,xp)′的機率密度函數為:
則稱 X=( x1,x2,…,xp)′遵從 p元正态分布,也稱 X為 p元正态變量,記為:
X~ N
p( μ, ∑)
∣ ∑ ∣為協方差陣 ∑的行列式。
- 多元正态分布的性質
(1)如果正态随機向量 X=( X1, X2,…, Xp)′的協方差陣 ∑是對角陣,則 X的各分量是互相獨立的随機變量
(2)多元正态分布随機向量 X的任何一個分量子集[多變量( x1,x2,…,xp)′中的一部分變量構成的集合]的分布(稱為 X的邊緣分布)仍然遵從正态分布。反之,若一個随機向量的任何邊緣分布均為正态,并不能導出它是多元正态分布
(3)多元正态向量 X=( X1, X2,…, Xp)′的任意線性變換仍然遵從多元正态分布。
即設X ~Np(μ,∑),而m 維随機向量Zm × 1 =AX +b,其中A =(aij)是m × p 階的常數矩陣,b 是m 維的常向量,則m 維随機向量Z 也是正态的,且Z ~Nm(A μ +b,A ∑ A′)。即Z 遵從m 元正态分布,其均值向量為A μ +b,協方差陣為A ∑ A′。
(4)若 X~ Np( μ, ∑),則:
d2若為定值,随着 X的變化,其軌迹為一橢球面,是 X的密度函數的等值面。若 X給定,則 d2為 X到 μ的馬氏距離。
- 正态分布的條件分布
設X~Np(μ,∑),p≥2,将X,μ和∑剖分如下:
設 X~ Np( μ, ∑), ∑> 0,則:
(X
(1) ∣ X
(2) )~ N
q( μ
1· 2 , ∑
11· 2)
其中:
1.5常用分布及抽樣分布
- 統計量
多元統計研究的是多名額問題,為了解總體的特征,通過對總體抽樣得到代表總體的樣本,但因為資訊是分散在每個樣本上的,就需要對樣本進行加工,把樣本的資訊濃縮到不包含未知量的樣本函數中,這個函數稱為統計量,統計量的分布稱為抽樣分布。
在數理統計中常用的抽樣分布有 χ2分布、 t分布和 F分布。在多元統計中,與之對應的分布分别為 Wishart分布、 T2分布和 Wilks分布。
- Wishart分布
設 X(α) =( X α1, X α2,…, X αp)′( α= 1, 2,…, n)互相獨立,且 X(α)~ Np( μ α, ∑),記 X=( X(1), X(2),…, X(n)),則随機矩陣:
所遵從的分布稱為自由度為 n的 p維非中心 Wishart分布,記為 W~ Wp( n, ∑, Z)。其中, n ≥ p, ∑> 0
μ αi稱為非中心參數,當 μ α= 0時稱為中心 Wishart分布,記為 Wp( n, ∑)
- T2分布
設 W~ Wp( n, ∑), X~ Np( 0, c ∑), c> 0, n ≥ p, ∑> 0, W與 X互相獨立,則稱随機變量
所遵從的分布稱為第一自由度為 p、第二自由度為 n的中心 T2分布,記為 T2~ T2( p, n)
- 中心 T2分布可化為中心 F分布
中心 T2分布可化為中心 F分布,其關系可表示為:
顯然,當 p= 1時,有 T2( 1, n)= F( 1, n)。
- Wilks分布