天天看點

PRML學習筆記-條件高斯分布與邊緣高斯分布的常用性質條件高斯分布與邊緣高斯分布的常用性質

條件高斯分布與邊緣高斯分布的常用性質

基本知識

多元高斯分布的一個重要性質是,如果兩組變量是聯合高斯分布,那麼以一組變量為條件,另一組變量同樣是高斯分布。類似地,任何一個變量的邊緣分布也是高斯分布。

首先考慮條件機率的情形。假設 x 是一個服從高斯分布 N ( x ∣ μ , Σ ) \mathcal{N}(\boldsymbol{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) N(x∣μ,Σ) 的D維向量。我們把 x \boldsymbol{x} x劃分成兩個不相交的子集 x a \boldsymbol{x}_{a} xa​和 x b \boldsymbol{x}_{b} xb​。不失一般性,我們可以令 x a \boldsymbol{x}_{a} xa​為 x \boldsymbol{x} x的前M個分量,令 x b \boldsymbol{x}_{b} xb​為剩餘的D − M個分量,是以 x = ( x a x b ) \boldsymbol{x}=\left(\begin{array}{l}{\boldsymbol{x}_{a}} \\ {\boldsymbol{x}_{b}}\end{array}\right) x=(xa​xb​​)我們也定義對應的對均值向量 μ 的劃分,即

μ = ( μ a μ b ) \boldsymbol{\mu}=\left(\begin{array}{c}{\boldsymbol{\mu}_{a}} \\ {\boldsymbol{\mu}_{b}}\end{array}\right) μ=(μa​μb​​)協方差矩陣 Σ \mathbf{\Sigma} Σ為 Σ = ( Σ a a Σ a b Σ b a Σ b b ) \boldsymbol{\Sigma}=\left(\begin{array}{cc}{\boldsymbol{\Sigma}_{a a}} & {\boldsymbol{\Sigma}_{a b}} \\ {\boldsymbol{\Sigma}_{b a}} & {\boldsymbol{\Sigma}_{b b}}\end{array}\right) Σ=(Σaa​Σba​​Σab​Σbb​​)

注:協方差矩陣均為對稱矩陣

在許多情況下,使用協方差矩陣的逆矩陣比較友善。即 Λ = Σ − 1 = ( Λ a a Λ a b Λ b a Λ b b ) \Lambda = \Sigma^{-1}=\left(\begin{array}{ll}{\mathbf{\Lambda}_{a a}} & {\mathbf{\Lambda}_{a b}} \\ {\mathbf{\Lambda}_{b a}} & {\mathbf{\Lambda}_{b b}}\end{array}\right) Λ=Σ−1=(Λaa​Λba​​Λab​Λbb​​)這被稱為精度矩陣,分塊矩陣的逆矩陣的恒等式如下

( A B C D ) − 1 = ( M − M B D − 1 − D − 1 C M D − 1 + D − 1 C M B D − 1 ) \left(\begin{array}{cc}{A} & {B} \\ {C} & {D}\end{array}\right)^{-1}=\left(\begin{array}{cc}{M} & {-M B D^{-1}} \\ {-D^{-1} C M} & {D^{-1}+D^{-1} C M B D^{-1}}\end{array}\right) (AC​BD​)−1=(M−D−1CM​−MBD−1D−1+D−1CMBD−1​) M = ( A − B D − 1 C ) − 1 M=\left(A-B D^{-1} C\right)^{-1} M=(A−BD−1C)−1

注:在推導條件高斯分布時,精度矩陣更友善,在推導邊緣高斯分布時協方差矩陣更友善

目的1:給定聯合分布的表達式,尋找條件機率分布 p ( x a ∣ x b ) p\left(\boldsymbol{x}_{a} | \boldsymbol{x}_{b}\right) p(xa​∣xb​)的表達式

一種比較高效的計算方法

首先給定聯合分布為 − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) = − 1 2 ( x a − μ a ) T Λ a a ( x a − μ a ) − 1 2 ( x a − μ a ) T Λ a b ( x b − μ b ) − 1 2 ( x b − μ b ) T Λ b a ( x a − μ a ) − 1 2 ( x b − μ b ) T Λ b b ( x b − μ b ) \begin{aligned}-\frac{1}{2}(&\boldsymbol{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})=\\ &-\frac{1}{2}\left(\boldsymbol{x}_{a}-\boldsymbol{\mu}_{a}\right)^{T} \boldsymbol{\Lambda}_{a a}\left(\boldsymbol{x}_{a}-\boldsymbol{\mu}_{a}\right)-\frac{1}{2}\left(\boldsymbol{x}_{a}-\boldsymbol{\mu}_{a}\right)^{T} \boldsymbol{\Lambda}_{a b}\left(\boldsymbol{x}_{b}-\boldsymbol{\mu}_{b}\right) \\ &-\frac{1}{2}\left(\boldsymbol{x}_{b}-\boldsymbol{\mu}_{b}\right)^{T} \boldsymbol{\Lambda}_{b a}\left(\boldsymbol{x}_{a}-\boldsymbol{\mu}_{a}\right)-\frac{1}{2}\left(\boldsymbol{x}_{b}-\boldsymbol{\mu}_{b}\right)^{T} \boldsymbol{\Lambda}_{b b}\left(\boldsymbol{x}_{b}-\boldsymbol{\mu}_{b}\right) \end{aligned} −21​(​x−μ)TΣ−1(x−μ)=−21​(xa​−μa​)TΛaa​(xa​−μa​)−21​(xa​−μa​)TΛab​(xb​−μb​)−21​(xb​−μb​)TΛba​(xa​−μa​)−21​(xb​−μb​)TΛbb​(xb​−μb​)​我們把它看成 x a \boldsymbol{x}_{a} xa​的函數,這又是一個二次型,是以對應的條件分布 p ( x a ∣ x b ) p\left(\boldsymbol{x}_{a} | \boldsymbol{x}_{b}\right) p(xa​∣xb​)是高斯分布.由于分布由均值和協方差完全确定,是以我們的目标是通過觀察上式找到 p ( x a ∣ x b ) p\left(\boldsymbol{x}_{a} | \boldsymbol{x}_{b}\right) p(xa​∣xb​)的均值和協方差的表達式.

"完成平方項"法:

這種方法中,我們已知一個二次型,這個二次型定義了高斯分布的指數項,我們需要确定對應的均值和協方差.這種問題可以這樣解決:我們注意到一個一般的高斯分布 N ( x ∣ μ , Σ ) \mathcal{N}(\boldsymbol{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) N(x∣μ,Σ)的指數項可以寫成 − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) = − 1 2 x T Σ − 1 x + x T Σ − 1 μ + 常 數 -\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})=-\frac{1}{2} \boldsymbol{x}^{T} \boldsymbol{\Sigma}^{-1} \boldsymbol{x}+\boldsymbol{x}^{T} \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}+ 常數 −21​(x−μ)TΣ−1(x−μ)=−21​xTΣ−1x+xTΣ−1μ+常數其中,"常數"表示與x無關的項,并且我們用到了 Σ \Sigma Σ的對稱性.是以,如果将普通的二次型表示成上式的形式,那麼我們可以立即令 x \boldsymbol{x} x中的二階項的系數矩陣等于協方差矩陣的的逆矩陣 Σ − 1 \Sigma^{-1} Σ−1,令 x \boldsymbol{x} x中線性項的系數等于 Σ − 1 μ \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu} Σ−1μ,這樣我們就可以得到 μ \mu μ

将這種方法應用到條件高斯分布中 p ( x a ∣ x b ) p\left(\boldsymbol{x}_{a} | \boldsymbol{x}_{b}\right) p(xa​∣xb​),考慮條件分布對 x a \boldsymbol{x}_{a} xa​的函數依賴關系,其中 x b \boldsymbol{x}_{b} xb​被當成常數.選出所有 x a \boldsymbol{x}_{a} xa​的二階項,那麼有 Σ a ∣ b = Λ a a − 1 \boldsymbol{\Sigma}_{a | b}=\boldsymbol{\Lambda}_{a a}^{-1} Σa∣b​=Λaa−1​ μ a ∣ b = Σ a ∣ b { Λ a a μ a − Λ a b ( x b − μ b ) } = μ a − Λ a a − 1 Λ a b ( x b − μ b ) \begin{aligned} \boldsymbol{\mu}_{a | b} &=\boldsymbol{\Sigma}_{a | b}\left\{\boldsymbol{\Lambda}_{a a} \boldsymbol{\mu}_{a}-\boldsymbol{\Lambda}_{a b}\left(\boldsymbol{x}_{b}-\boldsymbol{\mu}_{b}\right)\right\} \\ &=\boldsymbol{\mu}_{a}-\boldsymbol{\Lambda}_{a a}^{-1} \boldsymbol{\Lambda}_{a b}\left(\boldsymbol{x}_{b}-\boldsymbol{\mu}_{b}\right) \end{aligned} μa∣b​​=Σa∣b​{Λaa​μa​−Λab​(xb​−μb​)}=μa​−Λaa−1​Λab​(xb​−μb​)​

目的2:給定聯合分布的表達式,尋找邊緣機率分布的表達式

p ( x a ) = ∫ p ( x a , x b ) d x b p\left(\boldsymbol{x}_{a}\right)=\int p\left(\boldsymbol{x}_{a}, \boldsymbol{x}_{b}\right) \mathrm{d} \boldsymbol{x}_{b} p(xa​)=∫p(xa​,xb​)dxb​

由于我們的目标是積分出 x b \boldsymbol{x}_{b} xb​,首先考慮涉及到 x b \boldsymbol{x}_{b} xb​的項,然後配出平方,使積分更友善地計算.選出涉及 x b \boldsymbol{x}_{b} xb​的項,我們有 − 1 2 x b T Λ b b x b + x b T m = − 1 2 ( x b − Λ b b − 1 m ) T Λ b b ( x b − Λ b b − 1 m ) + 1 2 m T Λ b b − 1 m -\frac{1}{2} \boldsymbol{x}_{b}^{T} \boldsymbol{\Lambda}_{b b} \boldsymbol{x}_{b}+\boldsymbol{x}_{b}^{T} \boldsymbol{m}=-\frac{1}{2}\left(\boldsymbol{x}_{b}-\boldsymbol{\Lambda}_{b b}^{-1} \boldsymbol{m}\right)^{T} \boldsymbol{\Lambda}_{b b}\left(\boldsymbol{x}_{b}-\boldsymbol{\Lambda}_{b b}^{-1} \boldsymbol{m}\right)+\frac{1}{2} \boldsymbol{m}^{T} \boldsymbol{\Lambda}_{b b}^{-1} \boldsymbol{m} −21​xbT​Λbb​xb​+xbT​m=−21​(xb​−Λbb−1​m)TΛbb​(xb​−Λbb−1​m)+21​mTΛbb−1​m其中 m = Λ b b μ b − Λ b a ( x a − μ a ) \boldsymbol{m}=\boldsymbol{\Lambda}_{b b} \boldsymbol{\mu}_{b}-\boldsymbol{\Lambda}_{b a}\left(\boldsymbol{x}_{a}-\boldsymbol{\mu}_{a}\right) m=Λbb​μb​−Λba​(xa​−μa​)我們看到,與 x b \boldsymbol{x}_{b} xb​相關的項被轉化為了一個高斯分布的标準二次型加上一個與 x b \boldsymbol{x}_{b} xb​無關的(但與 x a \boldsymbol{x}_{a} xa​有關)的項.是以當我們取這個二次型作為高斯分布的指數項時,我們看到要求的關于 x b \boldsymbol{x}_{b} xb​的積分的形式為 ∫ exp ⁡ { − 1 2 ( x b − Λ b b − 1 m ) T Λ b b ( x b − Λ b b − 1 m ) } d x b \int \exp \left\{-\frac{1}{2}\left(\boldsymbol{x}_{b}-\boldsymbol{\Lambda}_{b b}^{-1} \boldsymbol{m}\right)^{T} \boldsymbol{\Lambda}_{b b}\left(\boldsymbol{x}_{b}-\boldsymbol{\Lambda}_{b b}^{-1} \boldsymbol{m}\right)\right\} \mathrm{d} \boldsymbol{x}_{b} ∫exp{−21​(xb​−Λbb−1​m)TΛbb​(xb​−Λbb−1​m)}dxb​這裡注意到,它是一個在未歸一化的高斯分布上做的積分,是以結果是歸一化系數的倒數.而高斯分布的系數與均值無關,隻依賴于協方差矩陣的行列式.是以,通過關于 x b \boldsymbol{x}_{b} xb​配出平方項,我們能夠積分出 x b \boldsymbol{x}_{b} xb​,這樣将剩下的與 x b \boldsymbol{x}_{b} xb​無關但與 x a \boldsymbol{x}_{a} xa​有關的項與聯合隻與 x a \boldsymbol{x}_{a} xa​有關但與 x b \boldsymbol{x}_{b} xb​無關的項結合,我們有 1 2 [ Λ b b μ b − Λ b a ( x a − μ a ) ] T Λ b b − 1 [ Λ b b μ b − Λ b a ( x a − μ a ) ] − 1 2 x a T Λ a a x a + x a T ( Λ a a μ a + Λ a b μ b ) + 常 數 = − 1 2 x a T ( Λ a a − Λ a b Λ b b − 1 Λ b a ) x a + x a T ( Λ a a − Λ a b Λ b b − 1 Λ b a ) μ a + 常 數 \begin{aligned} \frac{1}{2}\left[\boldsymbol{\Lambda}_{b b} \boldsymbol{\mu}_{b}-\right.&\left.\boldsymbol{\Lambda}_{b a}\left(\boldsymbol{x}_{a}-\boldsymbol{\mu}_{a}\right)\right]^{T} \boldsymbol{\Lambda}_{b b}^{-1}\left[\boldsymbol{\Lambda}_{b b} \boldsymbol{\mu}_{b}-\boldsymbol{\Lambda}_{b a}\left(\boldsymbol{x}_{a}-\boldsymbol{\mu}_{a}\right)\right] \\ &-\frac{1}{2} \boldsymbol{x}_{a}^{T} \boldsymbol{\Lambda}_{a a} \boldsymbol{x}_{a}+\boldsymbol{x}_{a}^{T}\left(\boldsymbol{\Lambda}_{a a} \boldsymbol{\mu}_{a}+\boldsymbol{\Lambda}_{a b} \boldsymbol{\mu}_{b}\right)+常數 \\=&-\frac{1}{2} \boldsymbol{x}_{a}^{T}\left(\boldsymbol{\Lambda}_{a a}-\boldsymbol{\Lambda}_{a b} \boldsymbol{\Lambda}_{b b}^{-1} \boldsymbol{\Lambda}_{b a}\right) \boldsymbol{x}_{a} \\ &+\boldsymbol{x}_{a}^{T}\left(\boldsymbol{\Lambda}_{a a}-\boldsymbol{\Lambda}_{a b} \boldsymbol{\Lambda}_{b b}^{-1} \boldsymbol{\Lambda}_{b a}\right) \boldsymbol{\mu}_{a}+常數 \end{aligned} 21​[Λbb​μb​−=​Λba​(xa​−μa​)]TΛbb−1​[Λbb​μb​−Λba​(xa​−μa​)]−21​xaT​Λaa​xa​+xaT​(Λaa​μa​+Λab​μb​)+常數−21​xaT​(Λaa​−Λab​Λbb−1​Λba​)xa​+xaT​(Λaa​−Λab​Λbb−1​Λba​)μa​+常數​其中"常數"表示與 x a \boldsymbol{x}_{a} xa​無關的量,再次使用完成平方項法,我們可以看到 p ( x a ) p\left(\boldsymbol{x}_{a}\right) p(xa​)的協方差矩陣為 Σ a = ( Λ a a − Λ a b Λ b b − 1 Λ b a ) − 1 \boldsymbol{\Sigma}_{a}=\left(\boldsymbol{\Lambda}_{a a}-\boldsymbol{\Lambda}_{a b} \boldsymbol{\Lambda}_{b b}^{-1} \boldsymbol{\Lambda}_{b a}\right)^{-1} Σa​=(Λaa​−Λab​Λbb−1​Λba​)−1類似地,均值有下式給出 Σ a ( Λ a a − Λ a b Λ b b − 1 Λ b a ) μ a = μ a \boldsymbol{\Sigma}_{a}\left(\boldsymbol{\Lambda}_{a a}-\boldsymbol{\Lambda}_{a b} \boldsymbol{\Lambda}_{b b}^{-1} \boldsymbol{\Lambda}_{b a}\right) \boldsymbol{\mu}_{a}=\boldsymbol{\mu}_{a} Σa​(Λaa​−Λab​Λbb−1​Λba​)μa​=μa​又因為 ( Λ a a Λ a b Λ b a Λ b b ) − 1 = ( Σ a a Σ a b Σ b a Σ b b ) \left(\begin{array}{ll}{\mathbf{\Lambda}_{a a}} & {\mathbf{\Lambda}_{a b}} \\ {\mathbf{\Lambda}_{b a}} & {\mathbf{\Lambda}_{b b}}\end{array}\right)^{-1}=\left(\begin{array}{cc}{\mathbf{\Sigma}_{a a}} & {\mathbf{\Sigma}_{a b}} \\ {\mathbf{\Sigma}_{b a}} & {\mathbf{\Sigma}_{b b}}\end{array}\right) (Λaa​Λba​​Λab​Λbb​​)−1=(Σaa​Σba​​Σab​Σbb​​)根據分塊矩陣的逆矩陣恒等式有 ( Λ a a − Λ a b Λ b b − 1 Λ b a ) − 1 = Σ a a \left(\boldsymbol{\Lambda}_{a a}-\boldsymbol{\Lambda}_{a b} \boldsymbol{\Lambda}_{b b}^{-1} \boldsymbol{\Lambda}_{b a}\right)^{-1}=\boldsymbol{\Sigma}_{a a} (Λaa​−Λab​Λbb−1​Λba​)−1=Σaa​我們可以得到 E [ x a ] = μ a cov ⁡ [ x a ] = Σ a a \begin{aligned} \mathbb{E}\left[\boldsymbol{x}_{a}\right] &=\boldsymbol{\mu}_{a} \\ \operatorname{cov}\left[\boldsymbol{x}_{a}\right] &=\boldsymbol{\Sigma}_{a a} \end{aligned} E[xa​]cov[xa​]​=μa​=Σaa​​

總結

我們關于分塊高斯的邊緣分布和條件分布的結果可以總結如下.

給定一個聯合高斯分布 N ( x ∣ μ , Σ ) \mathcal{N}(\boldsymbol{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) N(x∣μ,Σ)其中 Λ = Σ − 1 \Lambda = \Sigma^{-1} Λ=Σ−1且 x = ( x a x b ) , μ = ( μ a μ b ) \boldsymbol{x}=\left(\begin{array}{l}{\boldsymbol{x}_{a}} \\ {\boldsymbol{x}_{b}}\end{array}\right), \quad \boldsymbol{\mu}=\left(\begin{array}{l}{\boldsymbol{\mu}_{a}} \\ {\boldsymbol{\mu}_{b}}\end{array}\right) x=(xa​xb​​),μ=(μa​μb​​) Σ = ( Σ a a Σ a b Σ b a Σ b b ) , Λ = ( Λ a a Λ a b Λ b a Λ b b ) \boldsymbol{\Sigma}=\left(\begin{array}{cc}{\boldsymbol{\Sigma}_{a a}} & {\boldsymbol{\Sigma}_{a b}} \\ {\boldsymbol{\Sigma}_{b a}} & {\boldsymbol{\Sigma}_{b b}}\end{array}\right), \quad \boldsymbol{\Lambda}=\left(\begin{array}{cc}{\boldsymbol{\Lambda}_{a a}} & {\boldsymbol{\Lambda}_{a b}} \\ {\boldsymbol{\Lambda}_{b a}} & {\boldsymbol{\Lambda}_{b b}}\end{array}\right) Σ=(Σaa​Σba​​Σab​Σbb​​),Λ=(Λaa​Λba​​Λab​Λbb​​)條件機率分布: p ( x a ∣ x b ) = N ( x a ∣ μ a ∣ b , Λ a a − 1 ) μ a ∣ b = μ a − Λ a a − 1 Λ a b ( x b − μ b ) \begin{array}{l}{p\left(\boldsymbol{x}_{a} | \boldsymbol{x}_{b}\right)=\mathcal{N}\left(\boldsymbol{x}_{a} | \boldsymbol{\mu}_{a | b}, \boldsymbol{\Lambda}_{a a}^{-1}\right)} \\ {\boldsymbol{\mu}_{a | b}=\boldsymbol{\mu}_{a}-\boldsymbol{\Lambda}_{a a}^{-1} \boldsymbol{\Lambda}_{a b}\left(\boldsymbol{x}_{b}-\boldsymbol{\mu}_{b}\right)}\end{array} p(xa​∣xb​)=N(xa​∣μa∣b​,Λaa−1​)μa∣b​=μa​−Λaa−1​Λab​(xb​−μb​)​邊緣機率分布: p ( x a ) = N ( x a ∣ μ a , Σ a a ) p\left(\boldsymbol{x}_{a}\right)=\mathcal{N}\left(\boldsymbol{x}_{a} | \boldsymbol{\mu}_{a}, \boldsymbol{\Sigma}_{a a}\right) p(xa​)=N(xa​∣μa​,Σaa​)

繼續閱讀