天天看點

說人話了解 伯努利分布&二項分布&泊松分布&指數分布是什麼關系?

開始介紹之前還是老樣子先吐槽一下教科書不說人話,喜歡端着,真是耽誤了一群數學天才。

伯努利分布

伯努利分布很好了解,常見的例子就是抛硬币,假設硬币正面朝上的機率是 p,是以伯努利分布的機率品質函數(probability mass function,簡寫作pmf)是:

注意區分機率品質函數和機率密度函數,前者是針對離散情況而言的,後者是針對連續情況

\[f_{X}(x)=p^{x}(1-p)^{1-x}= \begin{cases}p & \text { if } x=1 \\ q & \text { if } x=0\end{cases}

\]

二項分布

上面隻是一個實驗,如果抛10次有8次是正面朝上的機率就是 \(C_{10}^8 p^8(1-p)^2\),這個其實就是二項分布,換言之二項分布的每一個單次實驗其實就是服從伯努利分布。二項分布的機率品質函數是

\[f(k, n, p)=\operatorname{Pr}(X=k)=\left(\begin{array}{l}

n \\

k

\end{array}\right) p^{k}(1-p)^{n-k}

\]

泊松分布

那泊松分布是什麼呢?其實作實中很多事情都可以用泊松分布來描述,而且其實泊松分布可以簡單地是伯努利分布的極限情況。

我們看一個​​馬同學給的例子​​,

假如你開了個饅頭店,每天營業時間是早上12點到下午6點,是的你就是這麼仁慈,員工得休息好才能好好上班。然後你統計了一周的顧客數量,發現每天來的人顧客數量不一樣。那很自然地你就想根據來的顧客的數量來提前準備制作饅頭的數量,免得顧客數量多的時候,饅頭數量不夠,導緻鈔票賺少了。同樣的,如果饅頭做多了,又浪費了。是以你想知道每天顧客數量是100的機率(也可以是200,400等)。要計算這個就需要用到泊松分布。

為友善計算,假設你的店新開張,總共5個顧客來消費了,分别是在1點,2點,3點,4點和6點到的,此時我們可以把整個營業時間劃分成6個時間段,那麼每個時間段顧客來與不來其實就是一個服從伯努利分布的随機變量。假設每個時間段内來顧客的機率是 p, 那麼一天内來5個顧客的機率就是 \(C_{6}^5 p^5(1-p)^1\)。

看到這你肯定在想了,那如果第一天開張來了10個顧客呢?是的,你的想法很好。此時我們可以把時間段劃分的更加小,可以是秒也可以是分鐘。我們假設總共劃分了\(n\)個時間段,當\(n\)趨于無窮小的時候,每個時間段也就趨于無窮小了,那麼在這\(n\)個時間段來了\(k\)個顧客的機率(一個時間段内最多隻有一個顧客出現或者沒有顧客)是

\[\lim _{n \rightarrow \infty}\left(\begin{array}{l}

n \\

k

\end{array}\right) p^{k}(1-p)^{n-k}

\]

發現了沒,這不就是二項分布嗎?是以這也就解釋了前面我們說泊松分布可以簡單地是伯努利(或二項)分布的在時間段是極限小的情況。因為我們說抛硬币的時候通常是不考慮時間的,即基本上不會說我們每分鐘或者每秒抛一次硬币,而泊松分布是将時間劃分成若幹個時間段,而這個時間段的大小視情況而定。

因為連續時間上的泊松分布被轉化成了二項分布,而二項分布的期望是

\[E(X)=np=\mu

\]

是以在這\(n\)個時間段來了\(k\)個顧客的機率

\[p=\frac{\mu}{n}

\]

我們把這個機率帶入到上面的極限中去可以得到(推導過程省略了)

\[\lim _{n \rightarrow \infty}\left(\begin{array}{l}

n \\

k

\end{array}\right) p^{k}(1-p)^{n-k}=\frac{\mu^{k}}{k !} e^{-\mu}

\]

可以看到當時間段趨于無窮小時,最終得到的機率是與\(n\)無關的,隻跟均值和你想預測的\(k\)有關。一般會把\(\mu\)用\(\lambda\)表示,是以泊松分布下的機率品質函數(注意泊松分布也是離散的機率分布)是

\[P(X=k)=\frac{\lambda^{k}}{k !} e^{-\lambda}

\]

那麼根據今天新開張的資料,均值\(\mu\)(或者說\(\lambda\))的值就是5,開門營業的時間越久,才會評估越準确。我們用​​這個網站​​畫出了機率品質函數,可以越靠近均值,機率越高。另外來10個顧客的機率隻有0.018。是以說你還是趁早把店鋪轉租出去吧,好好進廠裡搬磚吧。

說人話了解 伯努利分布&二項分布&泊松分布&指數分布是什麼關系?

指數分布

指數分布是從泊松分布推斷出來,泊松分布考慮的是在時間間隔足夠小的情況下每天來的顧客的數量的機率,而指數分布考慮的是時間間隔的機率。比如你想求出\(T\)個時間段内都沒來一個顧客的機率,這就等價于k=0,即 \(P(t>T)=P(X=0)=e^{-\lambda}\)。把時間t作為變量對泊松分布公式稍微擴充一下就得到了指數分布

\[P(t>T)=P(t>T,X=k=0)=\frac{(\lambda t)^{k}}{k !} e^{-\lambda t}=e^{-\lambda t}

\]

同理

\[P(t\le T)=1-P(t>T)=1-e^{-\lambda t}

\]

是以指數分布的累積分布函數是

\[F(t)= \begin{cases}1-e^{-\lambda t}, & t \geq 0 \\ 0, & t<0\end{cases}

\]

對 \(F(t)\)求導後可以得到機率密度函數(注意這裡不是機率品質函數了,因為指數分布是連續分布):

\[p(t)= \begin{cases}\lambda e^{-\lambda t}, & t \geq 0 \\ 0, & t<0\end{cases}

\]

對應到上面的例子,\(\lambda\)是每天來的顧客數量均值,假設是5,我們可以畫出此時的指數分布的機率密度函數

說人話了解 伯努利分布&amp;二項分布&amp;泊松分布&amp;指數分布是什麼關系?

因為我們上面的例子考慮的是每天的顧客數,是以\(x=1\)時,計算得到的\(p(X>1)\)表示超過1天都沒有顧客的機率是0.00674,這表示你開的店每天大機率還是有人回來關顧的哈哈哈

當我們把\(x=\frac{1}{18}\approx 0.0555\)時,就表示 超過 \(6*\frac{1}{18}=\frac{1}{3}\)小時 (20分鐘)(因為你一天隻開門營業6個小時)沒顧客來的機率是0.75749。

因為指數分布有個特點是無記憶性,換言之,不管你從哪個時間點(比如下午1點或者2點)去計算 \(p(x>0.1)\),得到的結果都是一樣的,即未來20分鐘内沒顧客來的機率是0.75749,是以你買出一個饅頭後可以比較放心的打一把農藥來打發時間。

說人話了解 伯努利分布&amp;二項分布&amp;泊松分布&amp;指數分布是什麼關系?
注意泊松分布和指數分布的前提是,事件之間不能有關聯,否則就不能運用上面的公式。

總結

伯努利分布 > 二項分布 > 泊松分布 > 指數分布 就是一個個套娃的關系。

微信公衆号:AutoML機器學習

MARSGGBO♥原創

繼續閱讀