天天看點

高斯過程(Gaussian Process)

高斯過程是對函數的機率分布進行模組化,給定資料 ( X , Y ) (\mathbf{X}, \mathbf{Y}) (X,Y) , 高斯過程便是得到從空間 X \mathbf{X} X 到空間 y \mathbf{y} y 的機率性映射,假設 f f f 為所需求得的函數分布,考慮到存在一定的噪聲幹擾,則從 X \mathbf{X} X 到 y \mathbf{y} y 的機率性映射可表示為:

y = f ( X ) + ϵ , ϵ ∼ N ( 0 , β − 1 I ) \mathbf{y}=f(\mathbf{X})+ \boldsymbol{\epsilon}, \boldsymbol{\epsilon} \sim \mathcal{N}\left(\mathbf{0}, \beta^{-1} \mathbf{I}\right) y=f(X)+ϵ,ϵ∼N(0,β−1I) 該公式中涉及兩個映射過程,先是從 X \mathbf{X} X 到函數 F \mathbf{F} F 的映射,後是 F \mathbf{F} F 到 Y \mathbf{Y} Y 的映射。而高斯過程主要專注于第一個映射過程,這兩個機率性映射可由以下高斯分布表示:

F ∣ X ∼ N ( 0 , K ( X , X ) ) \mathbf{F} \mid \mathbf{X} \sim \mathcal{N}(\mathbf{0}, K(\mathbf{X}, \mathbf{X})) F∣X∼N(0,K(X,X)) Y ∣ F ∼ N ( F , β − 1 I N ) \mathbf{Y} \mid \mathbf{F} \sim \mathcal{N}\left(\mathbf{F}, \beta^{-1} \mathbf{I}_{N}\right) Y∣F∼N(F,β−1IN​) 其中 K ( X , X ) K(\mathbf{X}, \mathbf{X}) K(X,X) 是高斯過程的核函數,衡量各 X \mathbf{X} X之間的兩兩互相關系。

則由 X \mathbf{X} X 到 y \mathbf{y} y 的機率映射可表示為:

p ( y ∣ X ) = ∫ p ( y ∣ f ) p ( f ∣ X ) d f p(\mathbf{y}\mid\mathbf{X})=\int p(\mathbf{y} \mid \mathbf{f}) p(\mathbf{f} \mid \mathbf{X}) d \mathbf{f} p(y∣X)=∫p(y∣f)p(f∣X)df 現在我們給定測試資料 X ∗ \mathbf{X}^{*} X∗, 要求其所對應的預測值 y ∗ \mathbf{y}^{*} y∗, 其公式為:

p ( y ∗ ∣ X ∗ , X , y ) = ∫ p ( y ∗ ∣ f ∗ ) p ( f ∗ ∣ X ∗ , X , y ) d f p(\mathbf{y}^{*}\mid\mathbf{X}^{*}, \mathbf{X}, \mathbf{y})=\int p(\mathbf{y}^{*} \mid \mathbf{f}^{*}) p(\mathbf{f}^{*} \mid \mathbf{X}^{*}, \mathbf{X}, \mathbf{y}) d \mathbf{f} p(y∗∣X∗,X,y)=∫p(y∗∣f∗)p(f∗∣X∗,X,y)df 其中 p ( y ∗ ∣ f ∗ ) p\left(\mathbf{y}^{*}\mid \mathbf{f}^{*}\right) p(y∗∣f∗) 已知, p ( f ∗ ∣ X ∗ , X , y ) p\left(\mathbf{f}^{*}\mid \mathbf{X}^{*}, \mathbf{X}, \mathbf{y}\right) p(f∗∣X∗,X,y) 為未知量,由于:

[ f f ∗ ] ∼ N ( 0 , [ K ( X , X ) K ( X , X ∗ ) K ( X ∗ , X ) K ( X ∗ , X ∗ ) ] ) \left[\begin{array}{l}\mathbf{f} \\\mathbf{f}^{*}\end{array}\right] \sim \mathcal{N}\left(\mathbf{0},\left[\begin{array}{ll}K(\mathbf{X}, \mathbf{X}) & K\left(\mathbf{X}, \mathbf{X}^{*}\right) \\K\left(\mathbf{X}^{*}, \mathbf{X}\right) & K\left(\mathbf{X}^{*}, \mathbf{X}^{*}\right)\end{array}\right]\right) [ff∗​]∼N(0,[K(X,X)K(X∗,X)​K(X,X∗)K(X∗,X∗)​]) 是以:

p ( f ∗ ∣ X ∗ , X , y ) ∼ N ( K ( X ∗ , X ) K ( X , X ) − 1 f , K ( X ∗ , X ∗ ) − K ( X ∗ , X ) K ( X , X ) − 1 K ( X , X ∗ ) ) \begin{aligned} p\left(\mathbf{f}^{*} \mid \mathbf{X}^{*}, \mathbf{X}, \mathbf{y}\right) \sim \mathcal{N}(& K\left(\mathbf{X}^{*}, \mathbf{X}\right) K(\mathbf{X}, \mathbf{X})^{-1} \mathbf{f}, \\ &\left.K\left(\mathbf{X}^{*}, \mathbf{X}^{*}\right)-K\left(\mathbf{X}^{*}, \mathbf{X}\right) K(\mathbf{X}, \mathbf{X})^{-1} K\left(\mathbf{X}, \mathbf{X}^{*}\right)\right) \end{aligned} p(f∗∣X∗,X,y)∼N(​K(X∗,X)K(X,X)−1f,K(X∗,X∗)−K(X∗,X)K(X,X)−1K(X,X∗))​ 上式的證明可參考《Pattern Recognition and Machine Learning》一書中的”條件高斯分布”章節。

繼續閱讀