天天看點

08.第三章 數字特征與特征函數(1)第三章 數字特征與特征函數(1)

第三章 數字特征與特征函數(1)

1.随機變量的期望求算

随機變量将樣本點映射到實數,也就是說随機變量的取值總是一族數,這些數對應着不同的機率,那麼它們的聚集情況就有一定的特征來刻畫。數學期望就是刻畫這些數的聚集中心的數字特征,一般地對随機變量 X X X,分布函數為 F ( x ) F(x) F(x),定義 X X X的數學期望為(此處可跳過至具體兩種情況)

∫ − ∞ ∞ x d F ( x ) = ∑ i = 1 N x i [ F ( x i ) − F ( x i − 1 ) ] . \int_{-\infty}^\infty xdF(x)=\sum_{i=1}^N x_i[F(x_i)-F(x_{i-1})]. ∫−∞∞​xdF(x)=i=1∑N​xi​[F(xi​)−F(xi−1​)].

這種積分稱為Stieltjes積分,這裡 − ∞ = x 0 < x 1 < ⋯ < x N = ∞ -\infty =x_0<x_1<\cdots<x_N=\infty −∞=x0​<x1​<⋯<xN​=∞,且必須滿足絕對可積,也就是 ∫ − ∞ ∞ ∣ x ∣ d F ( x ) < ∞ \int_{-\infty}^\infty |x|dF(x)<\infty ∫−∞∞​∣x∣dF(x)<∞。

當然,看起來這不是一個好計算的積分,一是除了連續函數的分布函數是絕對可積的外,其他函數的分布函數并不一定有很好的性質;二是這樣一個複雜的求和式的求算是十分複雜的,一般我們将合式轉化為積分計算,反其道而行之顯然會造成很多不便。

繞開一般的随機變量,隻取其中特殊的兩種——離散型随機變量、連續型随機變量考慮,它們的分布分别可以由機率分布列和機率密度函數來刻畫,自然會考慮将它們的期望轉化為關于分布列、密度的表達式。

首先是離散型随機變量,回顧它的形狀(階梯型),除了少數幾個點外都是常數,是以 F ( x ) − F ( x − Δ x ) = 0 F(x)-F(x-\Delta x)=0 F(x)−F(x−Δx)=0對于一般的 x x x是成立的。不成立點在哪裡呢?顯然在于那幾個可取值的點,即 x 1 , ⋯   , x n , p ( x i ) > 0 x_1,\cdots,x_n,p(x_i)>0 x1​,⋯,xn​,p(xi​)>0。由于

F ( x i ) = P ( X ≤ x i ) ≠ P ( X < x i ) = F ( x i − 0 ) , F(x_i)=P(X\le x_i)\neq P(X<x_i)=F(x_i-0), F(xi​)=P(X≤xi​)​=P(X<xi​)=F(xi​−0),

是以在幾個點 x i x_i xi​處,有 F ( x i ) − F ( x i − 0 ) = p i F(x_i)-F(x_i-0)=p_i F(xi​)−F(xi​−0)=pi​,是以我們得到離散型随機變量的數學期望表達式

E X = ∑ i = 1 ∞ x i p i , p i > 0. EX=\sum_{i=1}^\infty x_i p_i,\quad p_i>0. EX=i=1∑∞​xi​pi​,pi​>0.

當然,也要滿足絕對可積條件 ∑ i = 1 ∞ ∣ x i ∣ p i < ∞ \sum\limits_{i=1}^\infty |x_i|p_i<\infty i=1∑∞​∣xi​∣pi​<∞。

對于連續型随機變量,由于 p ( x i ) = lim ⁡ x i − x i − 1 → 0 F ( x i ) − F ( x i − 1 ) x i − x i − 1 p(x_i)=\lim\limits_{x_i-x_{i-1}\to 0}\frac{F(x_i)-F(x_{i-1})}{x_i-x_{i-1}} p(xi​)=xi​−xi−1​→0lim​xi​−xi−1​F(xi​)−F(xi−1​)​,是以可以直接作變換,得到

E X = ∑ i = 1 N x i F ( x i ) − F ( x i − 1 ) x i − x i − 1 ( x i − x i − 1 ) = ∑ i = 1 N x i p ( x i ) [ x i − x i − 1 ] = ∫ − ∞ ∞ x p ( x ) d x . \begin{aligned} EX=&\sum_{i=1}^Nx_i\frac{F(x_i)-F(x_{i-1})}{x_i-x_{i-1}}(x_i-x_{i-1})\\ =&\sum_{i=1}^N x_i p(x_i)[x_i-x_{i-1}]\\ =&\int_{-\infty}^\infty xp(x)dx. \end{aligned} EX===​i=1∑N​xi​xi​−xi−1​F(xi​)−F(xi−1​)​(xi​−xi−1​)i=1∑N​xi​p(xi​)[xi​−xi−1​]∫−∞∞​xp(x)dx.​

而絕對可積的條件,就轉化為 ∫ − ∞ ∞ ∣ x ∣ p ( x ) d x < ∞ \int_{-\infty}^\infty |x|p(x)dx<\infty ∫−∞∞​∣x∣p(x)dx<∞。

綜上所述,我們一般使用如下的兩個公式來分别求離散型、連續型的随機變量期望:

E X = ∑ i = 1 ∞ x i p i , 或 E X = ∫ − ∞ ∞ x p ( x ) d x . EX=\sum_{i=1}^\infty x_ip_i,或EX=\int_{-\infty}^\infty xp(x)dx. EX=i=1∑∞​xi​pi​,或EX=∫−∞∞​xp(x)dx.

注意到,對于離散情形,數學期望就是各個取值關于它們機率的權重平均;而對于連續情形,密度函數也是機率在每點處取值的相對大小,也可以看成一種連續的權重平均。是以,數學期望反映的就是随機變量的平均水準,是以也叫均值。

那麼非離散、連續型數學期望,比如給定一個分布函數 F ( x ) F(x) F(x),它又不是連續的又不是階梯型的,應當如何求算它的數學期望?用求和式不實際,于是考慮對Stieltjes積分作一些變形。

首先對于Stieltjes積分,它可以跟分布函數聯系在一起,由積分和微分的互為逆運算性,有

F ( x ) = ∫ − ∞ x d F ( t ) = P ( X ≤ x ) F(x)=\int_{-\infty}^x dF(t)=P(X\le x) F(x)=∫−∞x​dF(t)=P(X≤x)

這裡 X ≤ x X\le x X≤x是一個Borel集,那麼由Borel集的構造,一切集合都可以類似表示在積分号上,是以有

P ( X ∈ B ) = ∫ x ∈ B d F ( x ) . P(X\in B)=\int_{x\in B}dF(x). P(X∈B)=∫x∈B​dF(x).

然後對數學期望的式子進行改造,由絕對可積性可以把積分拆成正負兩部分,得到

E X = ∫ − ∞ ∞ x d F ( x ) = ∫ 0 ∞ x d F ( x ) + ∫ − ∞ 0 x d F ( x ) = ∫ 0 ∞ ∫ 0 x d t d F ( x ) − ∫ − ∞ 0 ∫ x 0 d t d F ( x ) = ∫ 0 ∞ d t ∫ t ∞ d F ( x ) + ∫ − ∞ 0 ∫ − ∞ t d F ( x ) d t = ∫ 0 ∞ P ( X > t ) d t + ∫ − ∞ 0 P ( X < t ) d t . \begin{aligned} EX=&\int_{-\infty}^\infty xdF(x)\\ =&\int_{0}^\infty xdF(x)+\int_{-\infty}^0xdF(x)\\ =&\int_0^\infty \int_0^x dtdF(x)-\int_{-\infty}^0 \int_x^0 dtdF(x)\\ =&\int_0^\infty dt\int_t^\infty dF(x)+\int_{-\infty}^0\int_{-\infty}^t dF(x)dt\\ =&\int_0^\infty P(X>t)dt+\int_{-\infty}^0 P(X<t)dt. \end{aligned} EX=====​∫−∞∞​xdF(x)∫0∞​xdF(x)+∫−∞0​xdF(x)∫0∞​∫0x​dtdF(x)−∫−∞0​∫x0​dtdF(x)∫0∞​dt∫t∞​dF(x)+∫−∞0​∫−∞t​dF(x)dt∫0∞​P(X>t)dt+∫−∞0​P(X<t)dt.​

是以,在機率分布列或密度函數求算不是那麼友善,而分布函數已知時,可以利用這個公式來求随機變量的期望,這就解決了非離散、連續型随機變量數學期望的求算。

  • 這裡重要的是積分區域的變換。
  • 如果給定的随機變量隻是正值的,則可以舍棄後面那一項。

另外,還有重要的随機變量函數,它的數學期望求取卻十分簡單。現依然假設 X X X的分布函數為 F ( x ) F(x) F(x),有機率分布列 p i p_i pi​或密度函數 p ( x ) p(x) p(x),對于随機變量函數 Y = f ( X ) Y=f(X) Y=f(X),它的數學期望就是

E Y = ∫ − ∞ ∞ f ( x ) d F ( x ) = { ∑ i = 1 ∞ f ( x i ) p i , X 離 散 ; ∫ − ∞ ∞ f ( x ) p ( x ) d x , X 連 續 . EY=\int_{-\infty}^\infty f(x)dF(x)=\left\{ \begin{array}l \sum\limits_{i=1}^\infty f(x_i)p_i,&X離散;\\ \int_{-\infty}^\infty f(x)p(x)dx,&X連續. \end{array} \right. EY=∫−∞∞​f(x)dF(x)=⎩⎨⎧​i=1∑∞​f(xi​)pi​,∫−∞∞​f(x)p(x)dx,​X離散;X連續.​

這個結論直接記憶即可,就是用随機變量函數的函數部分,直接套到原積分内 X X X的位置。當然,如果 p ( x ) p(x) p(x)不太好積分,而 Y Y Y的密度函數在求取後卻有着簡潔好積的形式,也可以直接用 Y Y Y的密度求。

2.随機向量的期望求算

随機向量與随機變量的期望形式上是類似的,設 ( X , Y ) (X,Y) (X,Y)的聯合分布函數是 F ( x , y ) F(x,y) F(x,y),且具有聯合密度函數 p ( x , y ) p(x,y) p(x,y)(離散型可以直接類比一維,就不讨論了)。我們可以先求出其邊際分布 F X ( x ) , F Y ( y ) F_X(x),F_Y(y) FX​(x),FY​(y)進而分别确定 X , Y X,Y X,Y的期望,但對于 X , Y X,Y X,Y的期望,我們更願意将其看成一種随機向量函數:

g ( X , Y ) = X , h ( X , Y ) = Y . g(X,Y)=X,\quad h(X,Y)=Y. g(X,Y)=X,h(X,Y)=Y.

這樣,如果我們能推出一般随機變量函數 f ( X , Y ) f(X,Y) f(X,Y)的期望,就可以一舉解決所有相關的問題。好在,随機向量函數的期望具有和随機變量函數期望類似的形式,即

E f ( X , Y ) = ∫ − ∞ ∞ ∫ − ∞ ∞ f ( x , y ) d F ( x , y ) = ∫ − ∞ ∞ ∫ − ∞ ∞ f ( x , y ) p ( x , y ) d x d y . Ef(X,Y)=\int_{-\infty}^\infty \int_{-\infty}^\infty f(x,y)dF(x,y)=\int_{-\infty}^\infty \int_{-\infty}^\infty f(x,y)p(x,y)dxdy. Ef(X,Y)=∫−∞∞​∫−∞∞​f(x,y)dF(x,y)=∫−∞∞​∫−∞∞​f(x,y)p(x,y)dxdy.

這樣就可以不求邊際分布,直接求得每一個分量的期望,以及其他随機向量函數的數學期望。

3.數學期望的性質

數學期望具有一系列實用的性質,其中以線性計算相關性質最為重要。

  1. 有界性:若 a ≤ ξ ≤ b a\le \xi \le b a≤ξ≤b,則 E ξ E\xi Eξ存在且 a ≤ E ξ ≤ b a\le E\xi \le b a≤Eξ≤b。如果 ξ ≤ η \xi\le\eta ξ≤η,則有 E ξ ≤ E η E\xi \le E\eta Eξ≤Eη。

    注意兩個随機變量之間的大小關系是不好對比的,一般隻能說明 ξ < ξ + 1 \xi<\xi+1 ξ<ξ+1這種顯然的關系。

  2. 線性性質:若 E ξ 1 , ⋯   , E ξ n E\xi_1,\cdots,E\xi_n Eξ1​,⋯,Eξn​都存在,則對于任意常數 b , c 1 , ⋯   , c n b,c_1,\cdots,c_n b,c1​,⋯,cn​,有

    E ( ∑ i = 1 n c i ξ i + b ) = ∑ i = 1 n c i E ξ i + b . E(\sum_{i=1}^n c_i\xi_i+b)=\sum_{i=1}^nc_iE\xi_i+b. E(i=1∑n​ci​ξi​+b)=i=1∑n​ci​Eξi​+b.

    将此性質拆分,可以得到 E ( X + Y ) = E X + E Y , E ( c X ) = c E X E(X+Y)=EX+EY,E(cX)=cEX E(X+Y)=EX+EY,E(cX)=cEX,這就是數學期望的線性計算性質。

  3. 獨立可拆分性:若 X , Y X,Y X,Y獨立,則 E ( X Y ) = E ( X ) E ( Y ) E(XY)=E(X)E(Y) E(XY)=E(X)E(Y)。
  4. 有界收斂定理:對一列随機變量 ξ 1 , ⋯   , ξ n , ⋯ \xi_1,\cdots,\xi_n,\cdots ξ1​,⋯,ξn​,⋯與目标随機變量 ξ \xi ξ,如果對于任意樣本點 ω \omega ω,都有 lim ⁡ n → ∞ ξ n ( ω ) = ξ ( ω ) \lim\limits_{n\to \infty}\xi_n(\omega)=\xi(\omega) n→∞lim​ξn​(ω)=ξ(ω),且對一切 n ≥ 1 n\ge 1 n≥1, ∣ ξ n ∣ ≤ M |\xi_n|\le M ∣ξn​∣≤M,這裡 M M M為常數,則有

    lim ⁡ n → ∞ E ξ n = E ξ . \lim_{n\to \infty} E\xi_n=E\xi. n→∞lim​Eξn​=Eξ.

    這個定理給出了随機變量期望收斂的一個條件:随機變量列是有界的。如果把 M M M改成一個數學期望存在的非負随機變量 η \eta η,則 ξ n \xi_n ξn​的數學期望依然收斂于 E ξ E\xi Eξ,這就是控制收斂定理。

4.條件期望

條件期望針對條件分布而言,既然随機變量可以具有條件分布,那麼把條件分布看成分布函數就能夠推出條件期望。如果 X = x X=x X=x的情況下 Y Y Y的條件分布為 F Y ∣ X ( y ∣ x ) F_{Y|X}(y|x) FY∣X​(y∣x),則條件期望就是

E ( Y ∣ X = x ) = ∫ ∞ ∞ y d F Y ∣ X ( y ∣ x ) . E(Y|X=x)=\int_{\infty}^\infty ydF_{Y|X}(y|x). E(Y∣X=x)=∫∞∞​ydFY∣X​(y∣x).

在給定 x x x的情況下,可以看到條件期望是一個數值,那麼當 x x x可以任意給定時, E ( Y ∣ X = x ) E(Y|X=x) E(Y∣X=x)就可以看作一個關于 x x x的函數,記作 m ( x ) m(x) m(x)。然而,在很多情況下,我們沒法給定 x x x的具體值——因為 X X X本身也是随機變量,具有自己的分布。那麼 m ( X ) m(X) m(X)實際上也是一個随機變量( X X X取定值時 m ( X ) m(X) m(X)随之确定),它的期望有什麼特點?僅考慮 ( X , Y ) (X,Y) (X,Y)是連續的,具有聯合密度 p ( x , y ) p(x,y) p(x,y),那麼

E m ( X ) = ∫ − ∞ ∞ m ( x ) p X ( x ) d x = ∫ − ∞ ∞ ( ∫ − ∞ ∞ y p Y ∣ X ( y ∣ x ) d y ) p X ( x ) d x = ∫ − ∞ ∞ ∫ − ∞ ∞ y ( p Y ∣ X ( y ∣ x ) p X ( x ) ) d x d y = ∫ − ∞ ∞ ∫ − ∞ ∞ y p ( x , y ) d x d y = E ( Y ) . \begin{aligned} Em(X)=&\int_{-\infty}^\infty m(x)p_X(x)dx\\ =&\int_{-\infty}^\infty \left(\int_{-\infty}^{\infty} yp_{Y|X}(y|x)dy \right)p_X(x)dx\\ =&\int_{-\infty}^\infty \int_{-\infty}^\infty y(p_{Y|X}(y|x)p_X(x))dxdy\\ =&\int_{-\infty}^\infty \int_{-\infty}^\infty y p(x,y)dxdy\\ =&E(Y). \end{aligned} Em(X)=====​∫−∞∞​m(x)pX​(x)dx∫−∞∞​(∫−∞∞​ypY∣X​(y∣x)dy)pX​(x)dx∫−∞∞​∫−∞∞​y(pY∣X​(y∣x)pX​(x))dxdy∫−∞∞​∫−∞∞​yp(x,y)dxdyE(Y).​

也就是 E [ E ( Y ∣ X ) ] = E ( Y ) E[E(Y|X)]=E(Y) E[E(Y∣X)]=E(Y),這也被稱為全期望公式。可以看到,全期望公式裡 X X X和 Y Y Y沒有什麼限制,是以實際應用時 X X X可以根據情況選擇。這個公式在求随機過程期望時很常用。

要注意,在取條件期望時,右邊的 X X X是“暫時地”被當成常數處理的,是以 E ( f ( X ) Y ∣ X ) = f ( X ) E ( Y ∣ X ) E(f(X)Y|X)=f(X)E(Y|X) E(f(X)Y∣X)=f(X)E(Y∣X)是成立的。

繼續閱讀