《多元統計分析》學習筆記之多元正态分布

鄙人筆記，記一些知識點。

文章目錄

多元正态分布

1.1多元分布的基本概念
1.2統計距離
1.3多元正态分布
1.5常用分布及抽樣分布

多元正态分布

1.1多元分布的基本概念

随機變量

假定所讨論的是多個變量的總體，所研究的資料是同時觀測p 個名額（即變量），進行了n 次觀測得到的，我們把這p 個名額表示為X1，X2，…，Xp，常用向量X ＝（X1，X2，…，Xp）′表示對同一個體觀測的p 個變量。若觀測了n 個個體，稱每一個個體的p 個變量為一個樣品，而全體n 個樣品形成一個樣本。

分布函數

描述随機變量的最基本工具是分布函數。類似地，描述随機向量的最基本工具還是分布函數。

多元變量的獨立性

類似地，若聯合分布等于各自分布的乘積，稱 p個随機向量 X1，X2，…，Xp互相獨立。由X1，X2，…，Xp互相獨立可以推知任何 Xi與 Xj（ i ≠ j）獨立，但是，若已知任何 Xi與 Xj（ i ≠ j）獨立，并不能推出 X1，X2，…，Xp互相獨立。

随機向量的數字特征

1.随機向量x的均值

當 A， B為常數矩陣時，由定義可立即推出如下性質：

（1）E(AX)=AE(X)

（2）E(AXB)=AE(X)B

2.随機向量X的協方差陣

稱 ∣ cov（ X， X） ∣為 X的廣義方差，它是協方差陣的行列式之值。

3.随機向量X和Y的協方差陣

當A，B為常數矩陣時，由定義可推出協方差陣有如下性質：

（1）D（AX）＝AD（X）A′＝A∑A′

（2）cov（AX，BY）＝Acov（X，Y）B′

（3）設 X為 n維随機向量，期望和協方差存在，記 μ＝∑(X) 喵喵喵？， ∑＝ D( X)， A為 n × n常數陣，則：

E(X'AX) = tr(A∑) + μ'Aμ

對于任何随機向量 X＝（X1，X2，…，Xp）′來說，其協方差陣 ∑都是對稱陣，同時總是非負定（也稱半正定）的。大多數情形下是正定的。

随機向量X的相關陣

在資料處理時，為了克服由于名額的量綱不同對統計分析結果帶來的影響，往往在使用某種統計分析方法之前，将每個名額“标準化”。标準化資料的協方差陣正好是原名額的相關陣

1.2統計距離

歐氏距離

大部分多元方法是建立在簡單的距離概念基礎上的，即平時人們熟悉的歐氏距離，或稱直線距離。一般，若點P 的坐标P ＝（x1，x2，…，xp），則它到原點O ＝（0，0，…，0）的歐氏距離，依勾股定理有：

任意兩個點P＝（x1，x2，…，xp）與Q＝（y1，y2，…，yp）之間的歐氏距離為：

但就大部分統計問題而言，歐氏距離是不能令人滿意的。這是因為每個坐标對歐氏距離的貢獻是同等的。當坐标軸表示測量值時，它們往往帶有大小不等的随機波動，在這種情況下，合理的辦法是對坐标權重，使變化較大的坐标比變化小的坐标有較小的權系數，這就産生了各種距離。歐氏距離還有一個缺點，那就是當各個分量為不同性質的量時，“距離”的大小竟然與名額的機關有關。

統計距離

有必要建立一種距離，這種距離應能夠展現各個變量在變差大小上的不同，以及有時存在的相關性，還要求距離與各變量所用的機關無關。看來，我們選擇的距離要依賴于樣本方差和協方差。是以，采用“統計距離”這個術語，以差別通常習慣用的歐氏距離。

設P ＝（x1，x2，…，xp），Q ＝（y1，y2，…，yp），且Q 的坐标是固定的，點P 的坐标互相獨立地變化。用S11，S22，…，Spp 表示P 個變量x1，x2，…，xp 的n 次觀測的樣本方差。為給出坐标的合理權數，用坐标标準離差去除以每個坐标，得到标準化坐标，則從P 到Q 的統計距離為：

馬氏距離

最常用的一種統計距離是印度統計學家馬哈拉諾比斯（ Mahalanobis）于 1936年引入的距離，稱為“馬氏距離”。

設X，Y是從均值向量為μ，協方差陣為∑的總體G中抽取的兩個樣品，定義X，Y兩點之間的馬氏距離為：

《多元統計分析》學習筆記之多元正态分布
定義X與總體G的馬氏距離為：

基本公理

設 E表示一個點集， d表示距離，它是 E × E到［ 0， ∞）的函數，可以證明，馬氏距離符合如下距離的四條基本公理：

（1） d（ x， y） ≥ 0， ∀ x， y ∈ E

（2） d（ x， y）＝ 0，當且僅當 x＝ y

（3） d（ x， y）＝ d（ y， x）， ∀ x， y ∈ E

（4） d（ x， y） ≤ d（ x， z）＋ d（ z， y）， ∀ x， y， z ∈ E

1.3多元正态分布

多元正态分布是一進制正态分布的推廣

多元正态分布是一進制正态分布的推廣。迄今為止，多元分析的主要理論都是建立在多元正态總體基礎上的，多元正态分布是多元分析的基礎。另一方面，許多實際問題的分布常是多元正态分布或近似正态分布，或雖本身不是正态分布，但它的樣本均值近似于多元正态分布。

多元正态分布機率密度函數

若 p元随機向量 X＝（x1，x2，…，xp）′的機率密度函數為：

則稱 X＝（ x1，x2，…，xp）′遵從 p元正态分布，也稱 X為 p元正态變量，記為：

X～ N

p（ μ， ∑）

∣ ∑ ∣為協方差陣 ∑的行列式。

多元正态分布的性質

（1）如果正态随機向量 X＝（ X1， X2，…， Xp）′的協方差陣 ∑是對角陣，則 X的各分量是互相獨立的随機變量

（2）多元正态分布随機向量 X的任何一個分量子集［多變量（ x1，x2，…，xp）′中的一部分變量構成的集合］的分布（稱為 X的邊緣分布）仍然遵從正态分布。反之，若一個随機向量的任何邊緣分布均為正态，并不能導出它是多元正态分布

（3）多元正态向量 X＝（ X1， X2，…， Xp）′的任意線性變換仍然遵從多元正态分布。

即設X ～Np（μ，∑），而m 維随機向量Zm × 1 ＝AX ＋b，其中A ＝（aij）是m × p 階的常數矩陣，b 是m 維的常向量，則m 維随機向量Z 也是正态的，且Z ～Nm（A μ ＋b，A ∑ A′）。即Z 遵從m 元正态分布，其均值向量為A μ ＋b，協方差陣為A ∑ A′。

（4）若 X～ Np（ μ， ∑），則：

d2若為定值，随着 X的變化，其軌迹為一橢球面，是 X的密度函數的等值面。若 X給定，則 d2為 X到 μ的馬氏距離。

正态分布的條件分布

設X～Np（μ，∑），p≥2，将X，μ和∑剖分如下：

設 X～ Np（ μ， ∑）， ∑＞ 0，則:

（X

(1) ∣ X

(2) ）～ N

q（ μ

1· 2 ， ∑

11· 2）

其中:

1.5常用分布及抽樣分布

統計量

多元統計研究的是多名額問題，為了解總體的特征，通過對總體抽樣得到代表總體的樣本，但因為資訊是分散在每個樣本上的，就需要對樣本進行加工，把樣本的資訊濃縮到不包含未知量的樣本函數中，這個函數稱為統計量，統計量的分布稱為抽樣分布。

在數理統計中常用的抽樣分布有 χ2分布、 t分布和 F分布。在多元統計中，與之對應的分布分别為 Wishart分布、 T2分布和 Wilks分布。

Wishart分布

設 X（α）＝（ X α1， X α2，…， X αp）′（ α＝ 1， 2，…， n）互相獨立，且 X（α）～ Np（ μ α， ∑），記 X＝（ X（1）， X（2），…， X（n）），則随機矩陣:

所遵從的分布稱為自由度為 n的 p維非中心 Wishart分布，記為 W～ Wp（ n， ∑， Z）。其中， n ≥ p， ∑＞ 0

μ αi稱為非中心參數，當 μ α＝ 0時稱為中心 Wishart分布，記為 Wp（ n， ∑）

T2分布

設 W～ Wp（ n， ∑）， X～ Np（ 0， c ∑）， c＞ 0， n ≥ p， ∑＞ 0， W與 X互相獨立，則稱随機變量

所遵從的分布稱為第一自由度為 p、第二自由度為 n的中心 T2分布，記為 T2～ T2（ p， n）

中心 T2分布可化為中心 F分布

中心 T2分布可化為中心 F分布，其關系可表示為：

顯然，當 p＝ 1時，有 T2（ 1， n）＝ F（ 1， n）。

Wilks分布

《多元統計分析》學習筆記之多元正态分布

文章目錄

多元正态分布

1.1多元分布的基本概念

1.2統計距離

1.3多元正态分布

1.5常用分布及抽樣分布

繼續閱讀

機器學習 day7 kmeans 聚類算法

GPS資料類型格式 NMEA協定

推薦系統-資源整理一、綜合性文章四、算法詳解：

别輕易轉資料分析了！太卷了

python中哪些函數可以進行清單排序？

This application failed to start because it could not find or load the Qt platform plugin "

R語言| 中介效應分析，Mediation包和BruceR包，循環Process函數

一套完整實用的IT規劃方法論

miRNA與轉錄組聯合分析

進階資料分析師憑什麼月薪三萬？一文解答你所有困惑

SparkSQL項目練習1 準備資料2 需求：各區域熱門商品Top3

SQL常見計算方法總結

一篇文章帶你使用模組化的思路解決泰迪杯-智慧政務問題（答複意見評價含代碼）

資料分析實戰20絕技

從大資料看技術，為什麼天貓雙11是史上最大數字經濟節日

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開