<b>常見離散和連續機率分布</b>
(1)伯努利試驗
若試驗\(E\)隻可能出現\(A\)和\(B\)兩種結果,則稱該類試驗為伯努利試驗。顯然,若\(P(A)=p\),則有\(P(B)=1-p\),将\(E\)獨立地重複\(n\)次,則将這一串試驗稱為\(n\)重伯努利試驗。
(2)二項分布
二項分布是建立在\(n\)重伯努利試驗的基礎上,它表示在一輪\(n\)重伯努利試驗過程中,結果\(A\)恰好出現\(k\)次的機率,顯然,其機率分布可以表示為:
\[X \backsim B(n,k): P(X=k)=\begin{pmatrix} n \\ k \end{pmatrix}p^k (1-p)^{n-k} \tag{1}
\]
由于\(k \in [0,n]\),是以\(\sum_{k=0}^n{P(X=k)}=\sum_{k=0}^n{\begin{pmatrix} n \\ k \end{pmatrix}p^k (1-p)^{n-k}}=1\)。
(3)泊松分布
泊松分布的機率分布表示為
\[X \backsim \pi(\lambda):P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda} \tag{2}
直接看(2)式很難了解泊松分布的含義以及用處,其實它跟二項分布是有聯系的。在二項分布中,如果我們令\(p \rightarrow 0\),\(n \rightarrow \infty\),同時\(n p=\lambda\),則此時的二項分布即為泊松分布。舉個執行個體進行說明,在射擊運動中,每次射中靶子的機率為\(p\),沒射中的機率為\(1-p\),二項分布表示\(n\)次射箭機會中恰好射中\(k\)次的機率。泊松分布則表示,在命中機率很小的情況下(\(p\)很小),給予很多次射擊的機會(\(n\)很大),恰好射中\(k\)次的機率。是以泊松分布是二項分布在小機率情況下的一種特殊應用。以下證明上述結論:
由\(np=\lambda\)可以得到\(p=\lambda/n\),将其代入(1)中,可以得到
\[\begin{equation}
\begin{aligned}
P(X=k)&=\frac{n!}{k!(n-k)!}\frac{\lambda^k}{n^k}(1-\frac{\lambda}{n})^{n-k}\\
&=\frac{\lambda^k}{k!}\frac{n!}{(n-k)!n^k}(1-\frac{\lambda}{n})^{-k}(1-\frac{\lambda}{n})^n
\end{aligned}
\end{equation}\tag{3}
顯然,當\(n \rightarrow \infty\)時,下面各式成立:
\lim_{n \to \infty}{\frac{n!}{(n-k)!n^k}}&=\lim_{n \to \infty}{\frac{n(n-1)...(n-k+1)}{n^k}}=1\\
\lim_{n \to \infty}{(1-\frac{\lambda}{n})^{-k}}&=1\\
\lim_{n \to \infty}{(1-\frac{\lambda}{n})^n}&={\rm exp}(-\lambda)
\end{equation}\tag{4}
将(4)中各式代入(3)可以得到
\[\lim_{n \to \infty,np=\lambda}{\begin{pmatrix} n \\ k \end{pmatrix}p^k (1-p)^{n-k}}=\frac{\lambda^k}{k!}e^{-\lambda}
證畢。
上面給出的均是離散情況下常用的分布,以下給出幾個連續情況下的常用分布。
(4)均勻分布
均勻分布的機率密度函數表示為:
\[X \backsim U(a,b):f(x)=\begin{cases}\frac{1}{b-a},& \text{a < x < b}\\ 0, & \text{other}\end{cases}\tag{5}
上面的式子表示一個随機變量\(X\)落在\((a,b)\)區間上任意位置上的機率是相同的,即在區間\((a,b)\)上的所有事件發生的可能性是相同的。
(5)指數分布
指數分布的機率密度函數表示為:
\[X \backsim E(\lambda):f(x)=\lambda e^{-\lambda x}\tag{6}
對比泊松分布和指數分布的機率分布情況,可以看出,兩者是有一定聯系的,若令泊松分布中\(k=1\),則兩者就接近一緻了,是以參考泊松分布的應用場景,我們可以得知,指數分布是用來表示在一系列事件中,第一次出現某一種結果的機率分布,如在機械長時間測試中,第一次出現故障的時間。
指數分布最重要的性質是它的無記憶性,這個性質不好用很嚴謹的語句去定義它,不過可以通過一個簡單的例子來了解它的内容:我們現在想測試燈泡的使用壽命,假設一個燈泡\(A\)已經連續亮了100個小時,那麼它在第120個小時發生故障的機率其實和一個跟它一模一樣的新的燈泡在第20小時發生故障的機率是一樣的。也就是說,燈泡\(A\)将自己已經正常工作了100個小時這個事情忘了。顯然這個性質是很難直覺去了解的,不過不論是從嚴謹的理論推導還是從工程實踐上它都已經被不斷地得到驗證,以下分别從和兩方面進行說明。
指數分布的無記憶性用符号來表示其實就是:\(P(X>s+t|X>s)=P(X>t)\),現在來證明這個結論:由條件機率計算公式可知\(P(X>s+t|X>s)=\frac{P(X>s+t) \cap P(X>s)}{P(X>s)}\),由于\(X>s+t\)必然能推出\(X>t\),是以\(P(X>s+t) \cap P(X>s)=P(X>s+t)\),是以
P(X>s+t|X>s)&=\frac{P(X>s+t) \cap P(X>s)}{P(X>s)}=\frac{P(X>s+t)}{P(X>s)}\\
&=\frac{\int_{s+t}^\infty{\lambda e^{-\lambda x}dx}}{\int_s^\infty{\lambda e^{-\lambda x}dx}}=e^{-\lambda t}\\
P(X>t)&=\int_t^\infty{\lambda e^{-\lambda x}dx}=e^{-\lambda t}
\end{equation}\tag{7}
其實,在機械制造領域,關于機械故障率和使用時間之間的函數關系大體上是符合"澡盆模型"的,即在開始和最後階段,機械故障率高,在中間很長一段時間内故障率是保持基本不變的。這也一定程度上印證了指數分布的無記憶特性在工程上的應用價值。
(6)高斯分布
高斯分布的機率密度函數可以表示為:
\[X \backsim N(\mu,\sigma^2):f(x)=\frac{1}{\sqrt{2\pi}\sigma}{\rm exp}[-\frac{(x-\mu)^2}{2\sigma^2}]\tag{8}
高斯分布大名鼎鼎,且在各個方面均發揮了重要的作用。它之是以适用範圍如此廣泛,得益于中心極限定理闡釋的事實,即當一個事件受許多不用因素影響時,不管各個因素本來服從什麼分布,他們總的影響往往是服從高斯分布的。怪不得經常聽到高斯噪聲的說法,顯然噪聲來源方方面面,根據中心極限定理,它最有可能服從高斯分布。