二項分布和Beta分布
二項分布
随機變量 X X 服從二項分布,寫作X∼Bin(n,p)X∼Bin(n,p),它的機率品質函數為:
P(X=k)=(nk)pk(1−p)n−k P ( X = k ) = ( n k ) p k ( 1 − p ) n − k
例如有一位NBA球員,他的命中率是0.55,現在他投了6次,那麼他命中2次的機率是 (62)0.552(1−0.55)6−2=0.19 ( 6 2 ) 0.55 2 ( 1 − 0.55 ) 6 − 2 = 0.19 。
Beta分布
Beta分布被用來描述機率的機率。
X∼Beta(α,β) X ∼ B e t a ( α , β ) :
f(x)=xα−1(1−x)β−1∫10uα−1(1−u)β−1du,x∈[0,1] f ( x ) = x α − 1 ( 1 − x ) β − 1 ∫ 0 1 u α − 1 ( 1 − u ) β − 1 d u , x ∈ [ 0 , 1 ]
期望 E(X)=αα+β E ( X ) = α α + β 。
假如我們這個NBA球員上一賽季的命中率是0.55,我們想預測他目前賽季的命中率。本來命中率就是一個機率,現在我們把它當做自變量,這也就是為什麼Beta分布描述的是機率的機率。
現在賽季剛開始,他投了3個球,然後都沒中,如果我們直接預測他的命中率 p=0/3=0 p = 0 / 3 = 0 ,這貌似就有點不太合理了,比較合理的是利用他上一賽季的命中率資訊(這在統計學中也叫做先驗)。
這裡就可以用到Beta分布了,設 α=55,β=45 α = 55 , β = 45 ,求得期望 E(X)=0.55 E ( X ) = 0.55 ,這樣就用到了他上一賽季的資訊,這樣一開始他的命中率大概是0.55。
當他投了3個球,0中,那就是 α+0=55,β+3=48 α + 0 = 55 , β + 3 = 48 ,求得期望 E(X)=0.53 E ( X ) = 0.53 ,現在就可以預測他的命中率大概是0.53。
當他投了100個球,60中,那就是 α+60=115,β+40=85 α + 60 = 115 , β + 40 = 85 ,求得期望 E(X)=0.575 E ( X ) = 0.575 ,現在就可以預測他的命中率大概是0.575了。
可以發現,利用了Beta分布之後,可以随着比賽進行,不斷更新他的命中率預測。
多項式分布和Dirichlet分布
多項式分布
多項式分布是二項分布從二維向多元的拓展, X∼Mul(n,p1,p2,...,pm) X ∼ M u l ( n , p 1 , p 2 , . . . , p m ) :
P(X1=k1,...,Xm=km)=n!k1!⋯km!pk11⋯pkmm,∑i=1mki=n P ( X 1 = k 1 , . . . , X m = k m ) = n ! k 1 ! ⋯ k m ! p 1 k 1 ⋯ p m k m , ∑ i = 1 m k i = n
還是那個NBA球員的例子,如果他的投籃命中率是0.55,打鐵率0.25,空炮率0.2(這裡可能女生有點沒概念,打鐵也就是碰到籃筐但沒中,空炮也就是Air Ball,籃筐、籃闆、籃網都沒碰到,我們這裡将命中打鐵之外的都當做空炮),他投了6次,那其中2次命中,3次打鐵,1次空炮的機率是: 6!2!⋅3!⋅1!⋅0.552⋅0.253⋅0.21=0.06 6 ! 2 ! ⋅ 3 ! ⋅ 1 ! ⋅ 0.55 2 ⋅ 0.25 3 ⋅ 0.2 1 = 0.06 。
狄利克雷分布
狄利克雷分布是Beta分布從二維向多元的拓展, X∼Dir(α1,⋯,αm) X ∼ D i r ( α 1 , ⋯ , α m ) :
f(x1,⋯,xm)=∏mi=1xαi−1i∫10⋯∫10∏mi=1uαi−1idu1⋯dum f ( x 1 , ⋯ , x m ) = ∏ i = 1 m x i α i − 1 ∫ 0 1 ⋯ ∫ 0 1 ∏ i = 1 m u i α i − 1 d u 1 ⋯ d u m
其中分母是一個多重積分, ∀xi∈[0,1] ∀ x i ∈ [ 0 , 1 ] , ∑mi=1xi=1 ∑ i = 1 m x i = 1 。
期望 E(X)=(α1∑mi=1αi,αi∑mi=1αi,⋯,αm∑mi=1αi) E ( X ) = ( α 1 ∑ i = 1 m α i , α i ∑ i = 1 m α i , ⋯ , α m ∑ i = 1 m α i ) 。
我們可以發現,狄利克雷分布的機率密度函數是一個多元函數,每個自變量的取值範圍都是[0,1]。
還是以那個NBA球星作為例子,假設他上一個賽季出手投籃共100次(命中55次,打鐵25次,空炮20次),我們設 α1=55,α2=25,α3=20 α 1 = 55 , α 2 = 25 , α 3 = 20 。
他投了10次(命中8,打鐵1,空炮1),預測他的命中率,打鐵率,空炮率分别為:
x1=55+8(55+8)+(25+1)+(20+1)=0.57x2=25+1(55+8)+(25+1)+(20+1)=0.23x3=20+1(55+8)+(25+1)+(20+1)=0.20 x 1 = 55 + 8 ( 55 + 8 ) + ( 25 + 1 ) + ( 20 + 1 ) = 0.57 x 2 = 25 + 1 ( 55 + 8 ) + ( 25 + 1 ) + ( 20 + 1 ) = 0.23 x 3 = 20 + 1 ( 55 + 8 ) + ( 25 + 1 ) + ( 20 + 1 ) = 0.20