在閱讀高斯過程(GPs)時,我認為能夠證明有關多元高斯分布的一些基本事實将是有用的,這些高斯分布是GP的基礎。 即,如何證明多元高斯的條件分布和邊際分布也是高斯,并給出其形式。
首先,我們知道,一個均值為 μ \mu μ、協方差矩陣為 Σ \Sigma Σ的多元正态分布的機率密度函數可以表示為
1 ( 2 π ) k / 2 ∣ Σ ∣ 1 / 2 e x p ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) \frac{1}{(2\pi)^{k/2}{|\Sigma|}^{1/2}} exp(- \frac{1}{2} (x - \mu)^T \Sigma^{-1} (x-\mu)) (2π)k/2∣Σ∣1/21exp(−21(x−μ)TΣ−1(x−μ))
為了簡化表示,我現在假設分布的均值為零,但是所有内容都應以一種直接的方式延續到更一般的情況下。
進一步地,在這裡我們将 x x x拆分成兩部分 [ a b ] \begin{bmatrix} a \\ b \end{bmatrix} [ab],是以我們接下來将研究兩個新的分布:條件分布 p ( a ∣ b ) p(a|b) p(a∣b)和邊緣分布 p ( b ) p(b) p(b)。首先,我們将原有的協方差矩陣 Σ \Sigma Σ變形為一個分塊矩陣的形式 [ A C T C B ] \begin{bmatrix} A & C^T \\ C & B \end{bmatrix} [ACCTB],其中 A A A表示變量 a a a的協方差矩陣, B B B表示變量 b b b的協方差矩陣, C C C表示交叉項(cross-terms)。
現在,我們希望能夠寫出逆協方差矩陣 [ A C T C B ] − 1 \left[ \begin{array}{cc} A & C^T \\ C & B \end{array}\right]^{-1} [ACCTB]−1。 我們可以利用 Schur complement方法并将其寫為:
[ A C T C B ] − 1 = [ I 0 − B − 1 C I ] [ ( A − C T B − 1 C ) − 1 0 0 B − 1 ] [ I − C T B − 1 0 I ] \left[\begin{array}{cc} A & C^T \\ C & B \end{array}\right]^{-1} = \left[ \begin{array}{cc} I & 0 \\ -B^{-1}C & I \end{array}\right] \left[ \begin{array}{cc} (A-C^T B^{-1} C)^{-1} & 0 \\ 0 & B^{-1} \end{array}\right] \left[ \begin{array}{cc} I & -C^T B^{-1} \\ 0 & I \end{array}\right] [ACCTB]−1=[I−B−1C0I][(A−CTB−1C)−100B−1][I0−CTB−1I]
我将在下面解釋如何得出這一點。現在,我們知道聯合分布可以寫成
p ( a , b ) ∝ exp ( − 1 2 [ a b ] T [ A C T C B ] − 1 [ a b ] ) p(a,b) \propto \exp \left(-\frac{1}{2} \left[ \begin{array}{c} a\\ b \end{array} \right]^T \left[ \begin{array}{cc} A & C^T \\ C & B \end{array}\right]^{-1} \left[ \begin{array}{c} a\\ b \end{array} \right] \right) p(a,b)∝exp(−21[ab]T[ACCTB]−1[ab])
我們可以用塊協方差矩陣的逆的上述表達式代替,如果我們通過乘以外部矩陣來簡化,則可以得到
p ( a , b ) ∝ exp ( − 1 2 [ a − C T B − 1 b b ] T [ ( A − C T B − 1 C ) − 1 0 0 B − 1 ] [ a − C T B − 1 b b ] ) p(a,b) \propto \exp \left(-\frac{1}{2} \left[ \begin{array}{c} a - C^T B^{-1} b \\ b \end{array} \right]^T \left[ \begin{array}{cc} (A-C^T B^{-1} C)^{-1} & 0 \\ 0 & B^{-1} \end{array}\right] \left[ \begin{array}{c} a - C^T B^{-1} b \\ b \end{array} \right] \right) p(a,b)∝exp(−21[a−CTB−1bb]T[(A−CTB−1C)−100B−1][a−CTB−1bb])
利用中心矩陣是塊對角線的事實,我們有
p ( a , b ) ∝ exp ( − 1 2 ( a − C T B − 1 b ) T ( A − C T B − 1 C ) − 1 ( a − C T B − 1 b ) ) exp ( − 1 2 b T B − 1 b ) p(a,b) \propto \exp \left(-\frac{1}{2} (a - C^T B^{-1} b)^T (A-C^T B^{-1} C)^{-1} (a - C^T B^{-1} b)\right) \exp \left( -\frac{1}{2} b^T B^{-1} b\right) p(a,b)∝exp(−21(a−CTB−1b)T(A−CTB−1C)−1(a−CTB−1b))exp(−21bTB−1b)
至此,我們已經完成許多工作。 如果我們以b為條件,則第二個指數項作為常數消失,我們有
p ( a ∣ b ) ∼ N ( C T B − 1 b , ( A − C T B − 1 C ) ) p(a|b) \sim \mathcal{N}\left(C^T B^{-1} b, (A-C^T B^{-1} C)\right) p(a∣b)∼N(CTB−1b,(A−CTB−1C))
請注意,如果 a a a和 b b b不相關,則 C = 0 C = 0 C=0,我們隻得到 a a a的邊際分布。如果我們對 a a a進行邊際化,則可以将第二個指數項拉到積分之外,并且第一個項隻是高斯分布的密度,是以它積分為1,我們發現
p ( b ) = ∫ a p ( a , b ) ∼ N ( 0 , B ) p(b) = \int_a p(a,b) \sim \mathcal{N}(0,B) p(b)=∫ap(a,b)∼N(0,B)
上面,我寫道,您可以使用Schur complement獲得協方差逆矩陣的塊矩陣形式。 實際将如何得出呢? 如Wikipedia頁面中所述,可以使用Gaussian elimination方法來推導逆表達式。
延伸閱讀
閱讀有關高斯過程的維基百科頁面後,我便開始了這一思路。作為快速入門,頁面上對GP的簡要介紹的外部連結有所幫助。 MacKay和Rasmussen的視訊講座既不錯,又有助于加深對GP的了解。
MacKay還對Humble Gaussian distribution發表了一篇不錯的短文,它提供了有關高斯分布的協方差和逆協方差矩陣的更多資訊。特别地,逆協方差矩陣告訴您兩個變量之間的關系,并以所有其他變量為條件,是以如果您将某些變量邊緣化,則它們會發生變化。逆協方差矩陣中偏離對角線元素的符号與兩個變量之間相關性的符号相反,該條件以所有其他變量為條件。
要深入研究高斯過程,可以閱讀Rasmussen和Williams所著的《高斯機器學習過程的高斯》一書,該書可線上獲得。附錄包含有關高斯恒等式和矩陣恒等式的有用事實和參考,例如矩陣求逆引理,高斯消除的另一種應用是确定逆,在這種情況下為矩陣求和的逆。
參考文獻
1.關于在CSDN中如何插入數學公式的使用參考大全
2.[CSDN_Markdown] 使用LaTeX寫矩陣
3.CSDN Markdown 公式大全
4.在CSDN-Markdown中書寫多行大括号公式
5.Conditional and marginal distributions of a multivariate Gaussian