天天看點

指數分布指數分布

指數分布

當一個随機變量 X X X ~ e x p ( λ ) exp(\lambda) exp(λ)時,它的密度函數為:

f ( x ) = { λ e − λ x ,     ( x ≥ 0 ) 0 ,         ( x &lt; 0 ) . f(x)=\left\{ \begin{aligned} \lambda e^{-\lambda x},~~~(x\geq0)\\ 0,~~~~~~~(x&lt;0) \end{aligned} \right.. f(x)={λe−λx,   (x≥0)0,       (x<0)​.

1 泊松分布

前面介紹伽馬分布的時候介紹過,伽馬分布族是泊松分布中參數與指數分布中參數的共轭先驗分布族,同時,指數分布是伽馬分布的特例。其實,指數分布與泊松分布有着密不可分的聯系,這也是通常把指數分布與泊松分布中的參數一般都計作 λ \lambda λ的原因。

随機變量 ξ \xi ξ服從參數為 λ \lambda λ的 P o i s s o n Poisson Poisson分布,即 ξ \xi ξ~ P ( λ ) P(\lambda) P(λ),那麼 ξ \xi ξ的分布列為:

P ( ξ = k ) = e − λ λ k k ! ( λ &gt; 0 ) . P(\xi=k)=\frac{e^{-\lambda}\lambda^k}{k!}(\lambda&gt;0). P(ξ=k)=k!e−λλk​(λ>0).

服從指數分布的随機變量 X X X是連續型随機變量;服從泊松分布的随機變量 ξ \xi ξ是離散型随機變量。 ξ \xi ξ的實際意義可以是機關時間内事件發生的個數(一種計數),即 P ( ξ = k ) = e − λ λ k k ! P(\xi=k)=\frac{e^{-\lambda}\lambda^k}{k!} P(ξ=k)=k!e−λλk​意味着: 機關時間内,特定事件發生的次數為 k k k的機率為 e − λ λ k k ! \frac{e^{-\lambda}\lambda^k}{k!} k!e−λλk​.

簡單使用級數,可以求出:

E ( ξ ) = ∑ k = 0 ∞ k e − λ λ k k ! = λ E(\xi)=\sum\limits_{k=0}^{\infty}k\frac{e^{-\lambda}\lambda^k}{k!}=\lambda E(ξ)=k=0∑∞​kk!e−λλk​=λ

即在服從 P ( λ ) P(\lambda) P(λ)的 ξ \xi ξ 的密度函數表達式中,參數 λ \lambda λ的意義是,機關時間内發生特定事件次數的期望值。可以将在時間 t 内發生事件的次數的随機變量可記為 N ( t ) N(t) N(t), 則有 N ( t ) ∼ P ( λ t ) N(t)\sim P(\lambda t) N(t)∼P(λt),即:

P ( N ( t ) = k ) = e − λ t ( λ t ) k k ! ( λ &gt; 0 ) . P(N(t)=k)=\frac{e^{-\lambda t}(\lambda t)^k}{k!}(\lambda&gt;0). P(N(t)=k)=k!e−λt(λt)k​(λ>0).

将在兩次事件發生之間的時間間隔的随機變量記為 T T T, 根據這個意義, T T T為一個連續型随機變量。

F T ( t ) = P ( T ≤ t ) = 1 − P ( T &gt; t ) = 1 − P ( N ( t ) = 0 ) = 1 − e − λ t     ( t ≥ 0 ) F_T(t)=P(T\le t)=1-P(T&gt;t)=1-P(N(t)=0)=1-e^{-\lambda t}~~~(t\ge0) FT​(t)=P(T≤t)=1−P(T>t)=1−P(N(t)=0)=1−e−λt   (t≥0)

則:

f T ( t ) = λ e − λ t     ( t ≥ 0 ) f_T(t)=\lambda e^{-\lambda t} ~~~(t\ge0) fT​(t)=λe−λt   (t≥0)

事件發生的次數服從參數為 λ \lambda λ的泊松分布,兩次之間的時間間隔作為一個随機變量服從參數為 λ \lambda λ指數分布。使用分部積分,可以求出随機變量 T T T的期望為:

E ( T ) = ∫ 0 + ∞ t λ e − λ t d t = 1 λ E(T)=\int_{0}^{+\infty}t\lambda e^{-\lambda t}dt=\frac{1}{\lambda} E(T)=∫0+∞​tλe−λtdt=λ1​

綜上,可以了解參數 λ \lambda λ的實際意義: λ \lambda λ是機關時間内發生事件個數的期望,兩次事件發生之間的時間間隔的期望為 1 λ . \frac{1}{\lambda}. λ1​.

2 生存分析

在生存分析中,生存時間的分布類型不易确定。一般近似服從指數分布、Weibull分布、Gompertz分布、對數正态分布、對數Logistic分布等。除指數分布外,其他分布都在一定條件下呈現為“s型”生長曲線。

2.1 風險函數

在生存資料的分析中,可以使用 Cox 回歸。上面定義随機變量 T T T 為兩次事件發生之間的時間間隔,在我們衡量一個病人可以生存的時間時(從起始事件到終點事件的時間),可以使用 T T T, 将其作為一個服從參數為 λ \lambda λ 的指數分布的随機變量。下面介紹生存分析中的因變量。

如果有n個病人,将這n個病人的生存時間的随機變量記為 T 1 , T 2 , . . . , T n T_1,T_2,...,Tn T1​,T2​,...,Tn, 則有 T i T_i Ti​的密度函數:

f T i ( t i ) = λ i e − λ i t i ,     ( i = 1 , 2 , . . . , n ) f_{T_i}(t_i)=\lambda_i e^{-\lambda_i t_i},~~~(i=1,2,...,n) fTi​​(ti​)=λi​e−λi​ti​,   (i=1,2,...,n)

T i T_i Ti​的分布函數為:

P ( T i ≤ t i ) = F T i ( t i ) = 1 − λ i e − λ i t i ,     ( i = 1 , 2 , . . . , n ) P(T_i\le t_i)=F_{T_i}(t_i)=1-\lambda_i e^{-\lambda_i t_i},~~~(i=1,2,...,n) P(Ti​≤ti​)=FTi​​(ti​)=1−λi​e−λi​ti​,   (i=1,2,...,n)

對應的生存函數為:

S T i ( t i ) = P ( T i &gt; t i ) = 1 − F T i ( t i ) = e − λ i t i ,     ( i = 1 , 2 , . . . , n ) S_{T_i}(t_i)=P(T_i&gt;t_i)=1-F_{T_i}(t_i)=e^{- \lambda_i t_i},~~~(i=1,2,...,n) STi​​(ti​)=P(Ti​>ti​)=1−FTi​​(ti​)=e−λi​ti​,   (i=1,2,...,n)

風險函數為:

h T i ( t i ) = f T i ( t i ) S T i ( t i ) = λ i h_{T_i}(t_i)=\frac{f_{T_i}(t_i)}{S_{T_i}(t_i)}=\lambda_i hTi​​(ti​)=STi​​(ti​)fTi​​(ti​)​=λi​

事實上,風險函數的分子部分是一個條件機率,求的是在一個病人已經生存到時間 t 的條件下在時間 t 的瞬時死亡率。風險函數值越大,瞬時死亡率越高,病人越危險。即:

h ( t ) = f ( t ) S ( t ) = lim ⁡ △ t → 0 F ( t + △ t ) − F ( t ) △ t / P ( T &gt; t ) h(t)=\frac{f(t)}{S(t)}={{\lim\limits_{\triangle t\rightarrow0}}{\frac{F(t+\triangle t)-F(t)}{\triangle t}}}/ {{P(T&gt;t)}} h(t)=S(t)f(t)​=△t→0lim​△tF(t+△t)−F(t)​/P(T>t)

                         = lim ⁡ △ t → 0 P ( t &lt; T ≤ t + △ t ) / P ( T &gt; t ) △ t ~~~~~~~~~~~~~~~~~~~~~~~~=\lim\limits_{\triangle t\rightarrow0}{\frac{P(t&lt;T\le t+\triangle t)/P(T&gt;t)}{\triangle t}}                         =△t→0lim​△tP(t<T≤t+△t)/P(T>t)​

                    = lim ⁡ △ t → 0 P ( t &lt; T ≤ t + △ t   ∣   T &gt; t ) △ t ~~~~~~~~~~~~~~~~~~~=\lim\limits_{\triangle t\rightarrow0}{\frac{P(t&lt;T\le t+\triangle t~|~T&gt;t)}{\triangle t}}                    =△t→0lim​△tP(t<T≤t+△t ∣ T>t)​

如果要建立 Cox 回歸模型,首先要計算出每個患者所對應的 h T i ( t i ) = λ i h_{T_i}(t_i)=\lambda_i hTi​​(ti​)=λi​, 在使用貝葉斯思想對 λ i \lambda_i λi​ 進行參數估計時,可以用伽馬分布(伽馬分布中的參數估計可以再用均勻分布作為超先驗分布)表示出 λ i \lambda_i λi​ 的分布情況,然後使用合适的統計量(例如衆數或者均數)進行估計。

2.2 威布爾分布

服從參數為 λ \lambda λ與 k k k的兩參數Weibull分布的随機變量 T T T的密度函數為:

f ( t ) = k λ ( t λ ) k − 1 e − ( t λ ) k ,     ( t ≥ 0 ) f(t)= {\frac{k}{\lambda}} {(\frac{t}{\lambda})^{k-1}} {e^{-(\frac{t}{\lambda})^k}},~~~(t\ge 0 ) f(t)=λk​(λt​)k−1e−(λt​)k,   (t≥0)

很明顯,當參數 k = 1 k=1 k=1時,随機變量 T T T服從參數為 1 λ \frac{1}{\lambda} λ1​的指數分布。指數分布是Weibull分布的特例。Weibull分布也廣泛地應用于生存資料的分析中。但威布爾分布更廣泛地适用于機械結構失效分析過程中,許多有關威布爾分布的研究表明,如果某系統的局部失效導緻了整個系統的功能失靈,則這種系統壽命一般服從Weibull分布。

T T T的分布函數為:

P ( T ≤ t ) = F ( t ) = 1 − e x p { − ( t k ) k } ,     ( t ≥ 0 ) P(T\le t)=F(t)=1-exp\left\{-(\frac{t}{k})^k\right\},~~~(t\ge 0 ) P(T≤t)=F(t)=1−exp{−(kt​)k},   (t≥0)

可靠度函數(對應于生存分析中的生存函數)為:

R ( t ) = P ( T &gt; t ) = 1 − F ( t ) = e x p { − ( t k ) k } R(t)=P(T&gt;t)=1-F(t)=exp\left\{-(\frac{t}{k})^k\right\} R(t)=P(T>t)=1−F(t)=exp{−(kt​)k}

失效率函數(對應于生存分析中的風險函數)為:

λ ( t ) = f ( t ) R ( t ) = k λ ( t λ ) k − 1 \lambda(t)=\frac{f(t)}{R(t)}={\frac{k}{\lambda}} {(\frac{t}{\lambda})^{k-1}} λ(t)=R(t)f(t)​=λk​(λt​)k−1

2.3 對數正态分布

在介紹對數正态分布時,先介紹一個定理:

定理#: 已知随機變量 X X X的密度函數,且 t = g ( x ) t=g(x) t=g(x)嚴格單調,其反函數 x = h ( t ) x=h(t) x=h(t)有連續導函數,那麼:

f T ( t ) = { f X [ h ( t ) ] ∣ h ′ ( t ) ∣ , ( m i n { g ( − ∞ ) , g ( + ∞ ) } &lt; t &lt; m a x { g ( − ∞ ) , g ( + ∞ ) } 0 ,                                     其 他                                                               f_T(t)=\left\{ \begin{aligned} f_X[h(t)]\left| h&#x27;(t)\right|, (min\left\{g(-\infty),g(+\infty)\right\}&lt;t&lt;max\left\{g(-\infty),g(+\infty)\right\}\\ 0,~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~其他~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\\ \end{aligned} \right. fT​(t)={fX​[h(t)]∣h′(t)∣,(min{g(−∞),g(+∞)}<t<max{g(−∞),g(+∞)}0,                                   其他                                                             ​

若随機變量 X ∼ N ( μ , σ 2 ) , X\sim N(\mu,\sigma^2), X∼N(μ,σ2), 則随機變量 T = e X T=e^X T=eX服從對數正态分布。 應用定理#,那麼 T = e X T=e^X T=eX的密度函數為:

f ( t ) = { 1 t 2 π σ e x p { − ( ln ⁡ t − μ ) 2 2 σ 2 } ,         t &gt; 0 0 ,                                  t ≤ 0 f(t)=\left\{ \begin{aligned} \frac{1}{t\sqrt {2\pi }\sigma}exp \left\{-\frac{(\ln t-\mu)^2}{2\sigma^2}\right\},~~~~~~~t&gt;0\\ 0,~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~t\le 0 \\ \end{aligned} \right. f(t)=⎩⎪⎨⎪⎧​t2π

​σ1​exp{−2σ2(lnt−μ)2​},       t>00,                                t≤0​

T T T的生存函數與風險函數與上面2.1一緻。

2.4 log-logistic分布

随機變量 X X X服從logistic分布,則 T = e X T=e^X T=eX服從 log-logistic分布。這裡選取一種logistic分布的特例進行解釋。

随機變量 X X X的密度函數為:

f ( x ) = e − x ( 1 + e − x ) 2 f(x)=\frac{e^{-x}}{(1+e^{-x})^2} f(x)=(1+e−x)2e−x​

應用定理#,那麼 T = e X T=e^X T=eX的密度函數為:

f ( t ) = { 1 ( 1 + t ) 2 ,     t &gt; 0 0 ,              t ≤ 0 f(t)=\left\{ \begin{aligned} \frac{1}{(1+t)^2},~~~t&gt;0\\ 0,~~~~~~~~~~~~t\le 0 \\ \end{aligned} \right. f(t)=⎩⎪⎨⎪⎧​(1+t)21​,   t>00,            t≤0​

T T T的生存函數與風險函數與上面2.1一緻。

繼續閱讀