數學期望(均值)、方差、協方差、相關系數和矩

文章目錄

1 前言
2 數學期望(均值)、方差，矩、協方差和相關系數
2.1 數學期望(均值)
2.2 方差
2.3 協方差
2.4 相關系數
2.5 矩

1 前言

随機變量的分布函數完整地描述了随機變量取值的統計規律，然而在一些實際問題中要确定某些随機變量的分布函數卻是非常困難的，有時甚至是不可能的。不過在一些實際的問題中，并不需要完整、全面地考察随機變量的統計規律，而隻需要直到它的某些特征。随機變量常用的數字特征有：數學期望((均值)方差，矩、協方差和相關系數

數學期望描述了随機變量的平均取值，其完全取決于随機變量的分布情況。方差描述了随機變量的取值與其數學期望的偏離程度。對于多元随機變量的情況，協方差與相關系數刻畫了每個随機變量的相關性。

更一般的随機變量的數字特征稱為“矩”，數學期望是一階原點矩；方差是二階中心矩；協方差是二階混合中心距。通過矩，可以定義協方差矩陣，簡化多元随機變量的機率密度函數的處理。

2 數學期望(均值)、方差，矩、協方差和相關系數

下面考慮的是各個數字特征都存在的情況。

離散型随機變量的數學期望：

設

X為離散型随機變量，其分布律為

(

)

，

P(X=x_k)=p_k，k=0,1,2,...

P(X=xk)=pk，k=0,1,2,...。則離散型随機變量

X的數學期望(均值)為：

(

)

∑

∞

E(X)=\sum_{k=0}^{\infty} x_{k} p_{k}

E(X)=k=0∑∞xkpk

連續型随機變量的數學期望：

X為連續型随機變量，其機率密度函數為

f(x)

f(x)。則連續型随機變量

∫

−

∞

E(X)=\int_{-\infty}^{\infty} x f(x) \mathrm{d} x

E(X)=∫−∞∞xf(x)dx

随機變量函數的數學期望：

設

Y=g(X)

Y=g(X)為随機變量

X的函數。

（1）若

X是離散型随機變量，其分布律為

P(X=xk)=pk，k=0,1,2,...，則離散型随機變量的函數

Y的期望為：

[

]

(

)

E(Y)=E[g(X)]=\sum_{k=0}^{\infty} g\left(x_{k}\right) p_{k}

E(Y)=E[g(X)]=k=0∑∞g(xk)pk

（2）若

X是連續型随機變量，其機率密度為

f(x)，則連續型随機變量的函數

E(Y)=E[g(X)]=\int_{-\infty}^{\infty} g(x) f(x) \mathrm{d} x

E(Y)=E[g(X)]=∫−∞∞g(x)f(x)dx

對于多元度的情況，比如令

Z=g(X，Y)

Z=g(X，Y)為二維随機變量

(X，Y)

(X，Y)的函數。

（1）若

(X，Y) 是二維離散型随機變量，分布律為

P(X=x_i,Y=y_i)=p_{ij},i,j=0,1,2,...

P(X=xi,Y=yi)=pij,i,j=0,1,2,...，則有：

E(Z)=E[g(X, Y)]=\sum_{j=0}^{\infty} \sum_{i=0}^{\infty} g\left(x_{i}, y_{i}\right) p_{i j}

E(Z)=E[g(X,Y)]=j=0∑∞i=0∑∞g(xi,yi)pij

（2）若

(X，Y) 是二維連續型随機變量，其機率密度函數為

f(x,y)

f(x,y)，則有：

E(Z)=E[g(X, Y)]=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x, y) f(x, y) d x d y

E(Z)=E[g(X,Y)]=∫−∞∞∫−∞∞g(x,y)f(x,y)dxdy

數學期望的性質：

（1）設

C是常數，則

E(C)=C

（2）設

C是常數，

X是一個随機變量，則有

E(CX)=CE(X)

（3）設

X，Y

X，Y是兩個随機變量，則有

E(X+Y)=E(X)+E(Y)

E(X+Y)=E(X)+E(Y)可以推廣到任意多個随機變量的情形，比如對于

n個随機變量

X_1,X_2,...,X_n

X1,X2,...,Xn，有：

E(X_1+X_2+...+X_n)=E(X_1)+E(X_2)+...+E(X_n)

E(X1+X2+...+Xn)=E(X1)+E(X2)+...+E(Xn)

再結合（1）（2），有：

E(k_1X_1+k_2X_2+...+k_nX_n+c)=k_1E(X_1)+k_2E(X_2)+...+k_nE(X_n)+C

E(k1X1+k2X2+...+knXn+c)=k1E(X1)+k2E(X2)+...+knE(Xn)+C

其中

k_1,k_2，...，k_n

k1,k2，...，kn以及

C為任意常數

（4）設

X，Y是互相獨立的随機變量，則有

E(XY)=E(X)E(Y)

E(XY)=E(X)E(Y)，可以推廣到任意多個随機變量的情形，比如對于

n個互相獨立的随機變量

E(X_1,X_2,...,X_n)=E(X_1)E(X_2)...E(X_n)

E(X1,X2,...,Xn)=E(X1)E(X2)...E(Xn)

X是一個随機變量，其方差為：

−

]

D(X)=E([X-E(X)]^{2})

D(X)=E([X−E(X)]2)

\sqrt{D(X)}

D(X)

稱為

X的标準差或均方差。

随機變量

X的方差反應了

X的取值與其數學期望的偏離程度。若方差較小，則

X的取值較集中；否則，

X的取值就比較分散。是以，方差

D(X)

D(X)是刻畫

X取值分散程度的一個量。

方差本質上是随機變量

X的函數

−

g(X)=(X-E(X))^{2}

g(X)=(X−E(X))2的期望。

（1）若

P(X=x_k)=p_k，k=0,1,...

P(X=xk)=pk，k=0,1,...，則

D(X)=\sum_{k=0}^{\infty}[x_k-E(x)]^2p_k

D(X)=k=0∑∞[xk−E(x)]2pk

X為離散型随機變量，其機率密度為

f(x)，則：

D(X)=\int_{-\infty}^{\infty}[x-E(X)]^{2} f(x) \mathrm{d} x

D(X)=∫−∞∞[x−E(X)]2f(x)dx

另外，方差還可以這樣算：

(

)

{

[

−

(

)

]

}

−

[

]

\begin{aligned}D(X) &=E\left\{[X-E(X)]^{2}\right\}=E\left\{X^{2}-2 X E(X)+[E(X)]^{2}\right\} \\&=E\left(X^{2}\right)-2 E(X) E(X)+[E(X)]^{2} \\&=E\left(X^{2}\right)-[E(X)]^{2}\end{aligned}

D(X)=E{[X−E(X)]2}=E{X2−2XE(X)+[E(X)]2}=E(X2)−2E(X)E(X)+[E(X)]2=E(X2)−[E(X)]2

方差的性質：

（1）設

C是一個常數，則

D(C)=0

D(C)=0；

（2）

⇔

{

}

D(X)=0 \Leftrightarrow P\{X=E(X)\}=1

D(X)=0⇔P{X=E(X)}=1

C是一個随機變量，

a，b

a，b為常數，則有

D(aX+b)=a^2D(X)

D(aX+b)=a2D(X)

（4）若

X,Y

X,Y互相獨立，則

D(X \pm Y)=D(X)+D(Y)

D(X±Y)=D(X)+D(Y)，反之不成立。

結合（3）和（4），若

X1,X2,...,Xn互相獨立，則有：

⋯

D\left(k_1X_{1}+k_2X_{2}+\cdots+k_nX_{n}\right)=k_1^2D\left(X_{1}\right)+k_2^2D\left(X_{2}\right)+\cdots+k_n^2D\left(X_{n}\right)

D(k1X1+k2X2+⋯+knXn)=k12D(X1)+k22D(X2)+⋯+kn2D(Xn)

(X,Y)

(X,Y)是一個二維随機變量，随機變量

X和

Y的協方差為：

{

}

Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\}

Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}

若

(X,Y)是離散型随機變量，其分布律為

P(X=x_i，Y=y_i)=p_{ij}，i,j=1,2,...

P(X=xi，Y=yi)=pij，i,j=1,2,...，則

Cov(X,Y)=\sum_{i=1}^{\infty}\sum_{j=1}^{\infty}[x_i-E(X)][y_j-E(Y)]p_{ij}

Cov(X,Y)=i=1∑∞j=1∑∞[xi−E(X)][yj−E(Y)]pij

若

(X,Y)是連續型随機變量，其機率密度為

f(x,y)，則：

Cov(X,Y)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}[x-E(X)][y-E(Y)]f(x,y)dxdy

Cov(X,Y)=∫−∞+∞∫−∞+∞[x−E(X)][y−E(Y)]f(x,y)dxdy

另外，方差還可以這樣算：

Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\}\\=E\{XY-XE(Y)-YE(X)+E(X)E(Y)\}\\=E(XY)-E(X)E(Y)-E(Y)E(X)+E(X)E(Y)\\=E(XY)-E(X)E(Y)

Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}=E{XY−XE(Y)−YE(X)+E(X)E(Y)}=E(XY)−E(X)E(Y)−E(Y)E(X)+E(X)E(Y)=E(XY)−E(X)E(Y)

協方差的性質

（1）

Cov

⁡

≡

\operatorname{Cov}(X, X) \equiv D(X)

Cov(X,X)≡D(X)

（2）

\operatorname{Cov}(Y, X)=\operatorname{Cov}(X, Y)

Cov(Y,X)=Cov(X,Y)

（3）

C是一個常數，

X是一個随機變量，則有

Cov(X,C)=0

（4）

a,b

a,b為常數時，

\operatorname{Cov}(a X, b Y)=a b \operatorname{Cov}(X, Y)

Cov(aX,bY)=abCov(X,Y)

（5）

Cov

⁡

\operatorname{Cov}\left(X_{1} \pm X_{2}, Y\right)=\operatorname{Cov}\left(X_{1}, Y\right) \pm \operatorname{Cov}\left(X_{2}, Y\right)

Cov(X1±X2,Y)=Cov(X1,Y)±Cov(X2,Y)

一般地，

∑

\operatorname{Cov}\left(\sum_{i=1}^{m} a_{i} X_{i}, \sum_{j=1}^{n} b_{j} Y_{j}\right)=\sum_{i=1}^{m} \sum_{j=1}^{n} a_{i} b_{j} \operatorname{Cov}\left(X_{i}, Y_{j}\right) .

Cov(i=1∑maiXi,j=1∑nbjYj)=i=1∑mj=1∑naibjCov(Xi,Yj).

（6）

D(X \pm Y)=D(X)+D(Y) \pm 2 \operatorname{Cov}(X, Y)

D(X±Y)=D(X)+D(Y)±2Cov(X,Y)

推廣到任意有限多個随機變量之和的情形：

≤

D(\sum_{i=1}^{n}X_i)=\sum_{i=1}^{n}D(X_i)+2\sum_{1\le i\lt j\le n}Cov(X_i,X_j)

D(i=1∑nXi)=i=1∑nD(Xi)+21≤i<j≤n∑Cov(Xi,Xj)

相關系數是标準化的協方差。

(X,Y)是二維随機變量，若

D(X)\gt0,D(Y)\gt0

D(X)>0,D(Y)>0，則

X,Y的相關系數為：

Cov

⁡

(

)

\rho_{X Y}=\frac{\operatorname{Cov}(X, Y)}{\sqrt{D(X)} \sqrt{D(Y)}}

ρXY=D(X)

D(Y)

Cov(X,Y)

相關系數的性質：

∣

≤

|\rho_{XY}|\le 1，

∣ρXY∣≤1，即

∈

[

]

\rho_{XY}\in[-1,1]

ρXY∈[−1,1]

\rho_{XY}=0

ρXY=0，稱

X與

Y不相關。

（3）

Y不相關

\Leftrightarrow

⇔

Cov(X,Y)=0\Leftrightarrow D(X \pm Y)=D(X)+D(Y) \Leftrightarrow E(X Y)=E(X) E(Y)

Cov(X,Y)=0⇔D(X±Y)=D(X)+D(Y)⇔E(XY)=E(X)E(Y)

（4）

Y獨立一定有

Y不相關；

Y不相關卻未必獨立。

k階原點矩

E(X^k)

E(Xk)，當

k=1

k=1時即為數學期望

k階中心矩

E\left\{[X-E(X)]^{k}\right\}

E{[X−E(X)]k}，當

k=2

k=2時即為方差，當

k=1時，

E[X-E(X)]=0

E[X−E(X)]=0

k+l

k+l階混合矩

E\left(X^{k} Y^{l}\right), E\left\{[X-E(X)]^{k}[Y-E(Y)]^{l}\right\}

E(XkYl),E{[X−E(X)]k[Y−E(Y)]l}

參考：

[1]https://zhuanlan.zhihu.com/p/343367455

數學期望(均值)、方差、協方差、相關系數和矩

文章目錄

繼續閱讀

素數的有關性質（二）歐拉函數的一些定理證明與計算

最常用的決策樹算法（二）Random Forest、Adaboost、GBDT 算法

手把手教你用opencv使用傳統算法實作産品缺陷檢測

Human-level concept learning through probabilistic program induction

交叉熵損失函數二進制交叉熵損失函數多元交叉熵函數詳解

交叉熵損失函數原理和推導

數控程式設計基礎——切削用量

Halcon讀取圖檔方法總結--單張讀取、有序批量讀取、無序批量讀取

模糊綜合評價模型一.概述二.經典集合和模糊集合的基本概念三.隸屬函數的三種确定方法四.應用：模糊綜合評價

泛統計理論初探——模型評估的驗證政策資料挖掘-模型驗證政策簡介

2018 Multi-University Training Contest 1 : Maximum Multiple

NILMTK——因子隐馬爾可夫之隐馬爾可夫1. 馬爾可夫鍊2.馬爾可夫模型3. 隐馬爾可夫模型4.HMM三種方式的實作5. hmmlearn應用

GMS：基于網格運動統計的快速極度魯棒的特征比對摘要1 簡介2 本文的方法3 應用于快速記分的網格架構4 實驗 5 結論

4 機率機器人 Probabilistic Robotics 擴充卡爾曼濾波算法1 前提介紹2 通過泰勒展式進行線性化3 擴充卡爾曼濾波算法（EKF）4 擴充卡爾曼濾波執行個體5 擴充卡爾曼濾波（EKF）公式推導6 擴充卡爾曼濾波的優缺點7 參考文獻

拓端tecdat|R語言代寫:結構方程模型、潛變量分析

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法