高斯混合模型Gaussian Mixture Models

項目位址：https://github.com/Daya-Jin/ML_for_learner/blob/master/mixture/GaussianMixture.ipynb

原部落格：https://daya-jin.github.io/2019/03/15/Gaussian_Mixture_Models/

算法概述

高斯混合模型(Gaussian Mixture Models)是一種無監督聚類模型。GMM認為不同類别的特征密度函數是不一樣的(實際上也不一樣)，GMM為每個類别下的特征分布都假設了一個服從高斯分布的機率密度函數：

P ( x ∣ c k ) = 1 2 π σ k e x p ( − ( x − μ k ) 2 2 σ k 2 ) P ( x ∣ c k ) ∼ N ( μ k , σ k ) \begin{aligned} P(x|c_{k})&=\frac{1}{\sqrt{2\pi}\sigma_{k}}exp(-\frac{(x-\mu_{k})^{2}}{2\sigma_{k}^2}) \\ P(x|c_{k})&{\sim}N(\mu_{k},\sigma_{k}) \\ \end{aligned} P(x∣ck)P(x∣ck)=2π

σk1exp(−2σk2(x−μk)2)∼N(μk,σk)

而資料中又可能是由多個類混合而成，是以資料中特征的機率密度函數可以使用多個高斯分布的組合來表示：

P ( x ) = ∑ k = 1 K P ( c k ) P ( x ∣ c k ) = ∑ k = 1 K π k N ( x ∣ μ k , σ k ) \begin{aligned} P(x)&=\sum\limits_{k=1}^{K}P(c_{k})P(x|c_{k}) \\ &=\sum\limits_{k=1}^{K}\pi_{k}N(x|\mu_{k},\sigma_{k}) \\ \end{aligned} P(x)=k=1∑KP(ck)P(x∣ck)=k=1∑KπkN(x∣μk,σk)

其中 π k \pi_{k} πk為類分布機率，也可看做是各高斯分布函數的權重系數，也叫做混合系數(mixture coefficient)，其滿足 ∑ k = 1 K π k = 1 \sum_{k=1}^{K}\pi_{k}=1 ∑k=1Kπk=1。

Expectation-Maximization

模型的形式有了，給定一組資料 X X X，我們需要得到一組參數 { μ , σ } \{\mu,\sigma\} {μ,σ}，使得在這組參數下觀測資料 X X X出現的機率最大，即最大似然估計。對于資料中的所有樣本，其出現的機率(似然函數)為：

∏ i = 1 N P ( x i ) = ∏ i = 1 N ∑ k = 1 K π k N ( x i ∣ μ k , σ k ) \prod\limits_{i=1}^{N}P(x_{i})=\prod\limits_{i=1}^{N}\sum\limits_{k=1}^{K}\pi_{k}N(x_{i}|\mu_{k},\sigma_{k}) i=1∏NP(xi)=i=1∏Nk=1∑KπkN(xi∣μk,σk)

對數似然函數為：

∑ i = 1 N ln ⁡ { ∑ k = 1 K π k N ( x i ∣ μ k σ k ) } \sum\limits_{i=1}^{N}\ln\{\sum\limits_{k=1}^{K}\pi_{k}N(x_{i}|\mu_{k}\sigma_{k})\} i=1∑Nln{k=1∑KπkN(xi∣μkσk)}

假設我們現在有了參數 { μ , σ } \{\mu,\sigma\} {μ,σ}，需要計算某個樣本對應的類簇，由貝葉斯公式有：

P ( c k ∣ x i ) = P ( c k , x i ) P ( x i ) = P ( x i ∣ c k ) P ( c k ) P ( x i ) = π k N ( x i ∣ μ k , σ k ) ∑ k = 1 K π k N ( x i ∣ μ k , σ k ) \begin{aligned} P(c_{k}|x_{i})&=\frac{P(c_{k},x_{i})}{P(x_{i})} \\ &=\frac{P(x_{i}|c_{k})P(c_{k})}{P(x_{i})} \\ &=\frac{\pi_{k}N(x_{i}|\mu_{k},\sigma_{k})}{\sum\limits_{k=1}^{K}\pi_{k}N(x_{i}|\mu_{k},\sigma_{k})} \end{aligned} P(ck∣xi)=P(xi)P(ck,xi)=P(xi)P(xi∣ck)P(ck)=k=1∑KπkN(xi∣μk,σk)πkN(xi∣μk,σk)

可以看出就是一個softmax的形式。同時，有了 P ( c k ∥ x i ) P(c_{k}\|x_{i}) P(ck∥xi)之後，又可以計算出某個類别的分布機率與該類别下的統計量：

N k = ∑ i = 1 N P ( c k ∣ x i ) π k = N k N = 1 N ∑ i = 1 N P ( c k ∣ x i ) μ k = 1 N k ∑ i = 1 N P ( c k ∣ x i ) x i σ k = 1 N k ∑ i = 1 N P ( c k ∣ x i ) ( x i − μ k ) 2 \begin{aligned} N_{k}&=\sum\limits_{i=1}^{N}P(c_{k}|x_{i}) \\ \pi_{k}&=\frac{N_{k}}{N}=\frac{1}{N}\sum\limits_{i=1}^{N}P(c_{k}|x_{i}) \\ \mu_{k}&=\frac{1}{N_{k}}\sum\limits_{i=1}^{N}P(c_{k}|x_{i})x_{i} \\ \sigma_{k}&=\sqrt{\frac{1}{N_{k}}\sum\limits_{i=1}^{N}P(c_{k}|x_{i})(x_{i}-\mu_{k})^{2}} \\ \end{aligned} Nkπkμkσk=i=1∑NP(ck∣xi)=NNk=N1i=1∑NP(ck∣xi)=Nk1i=1∑NP(ck∣xi)xi=Nk1i=1∑NP(ck∣xi)(xi−μk)2

其中 N k N_{k} Nk為類别 k k k出現的頻率期望。

以上兩步計算實質上對應了期望最大化(Expectation-Maximization)算法的E步(E-step)跟M步(M-step)。

多元資料時的情況

在多元資料下，需要為每個類生成一個多元高斯分布，表示方式與單維情況稍有不同：

N ( x i ∣ μ k , Σ k ) = 1 ( 2 π ) n / 2 Σ k 1 / 2 e x p ( − 1 2 ( x i − μ k ) T Σ k − 1 ( x i − μ k ) ) N(x_{i}|\mu_{k},\Sigma_{k})=\frac{1}{(2\pi)^{n/2}\Sigma_{k}^{1/2}}exp(-\frac{1}{2}(x_{i}-\mu_{k})^{T}\Sigma_{k}^{-1}(x_{i}-\mu_{k})) N(xi∣μk,Σk)=(2π)n/2Σk1/21exp(−21(xi−μk)TΣk−1(xi−μk))

訓練

有了算法架構，怎麼訓練模型呢。在初始時随機生成 K K K個高斯分布，然後不斷地疊代EM算法，直至似然函數變化不再明顯或者達到了最大疊代次數。

E-step

在給定的多元高斯分布下，計算各樣本屬于各個類别的機率：

P ( c k ∣ x i ) = π k P ( c k ∣ x i ) ∑ k = 1 K π k P ( c k ∣ x i ) P(c_{k}|x_{i})=\frac{\pi_{k}P(c_{k}|x_{i})}{\sum\limits_{k=1}^{K}\pi_{k}P(c_{k}|x_{i})} P(ck∣xi)=k=1∑KπkP(ck∣xi)πkP(ck∣xi)

M_step

根據機率重新計算更優的高斯參數：

N k = ∑ x = 1 N P ( c k ∣ x i ) π k = N k N μ k = 1 N k ∑ i = 1 N P ( c k ∣ x i ) x i Σ k = 1 N k ∑ i = 1 N P ( c k ∣ x i ) ( x i − μ k ) T ( x i − μ k ) \begin{aligned} N_{k}&=\sum\limits_{x=1}^{N}P(c_{k}|x_{i}) \\ \pi_{k}&=\frac{N_{k}}{N} \\ \mu_{k}&=\frac{1}{N_{k}}\sum\limits_{i=1}^{N}P(c_{k}|x_{i})x_{i} \\ \Sigma_{k}&=\frac{1}{N_{k}}\sum\limits_{i=1}^{N}P(c_{k}|x_{i})(x_{i}-\mu_{k})^{T}(x_{i}-\mu_{k}) \\ \end{aligned} NkπkμkΣk=x=1∑NP(ck∣xi)=NNk=Nk1i=1∑NP(ck∣xi)xi=Nk1i=1∑NP(ck∣xi)(xi−μk)T(xi−μk)

實作指導

完整代碼

高斯混合模型Gaussian Mixture Models

算法概述

Expectation-Maximization

多元資料時的情況

訓練

E-step

M_step

繼續閱讀

sas EM 決策樹

PCA(主成分分析)降維可視化Matlab實作

數理統計——Kmeans一、聚類二、程式實作三、各種算法對比1.KMeans++2.Mini Batch K-Means3.如何确定合适的k值

拓端tecdat|R語言代寫實作層次聚類模型

拓端tecdat|R語言輔導使用K-Means聚類可視化WiFi通路

拓端tecdat|R語言代寫：EM算法和高斯混合模型的實作

拓端tecdat|R語言輔導中不同類型的聚類方法比較

ICCV何恺明團隊又一神作：Transformer仍有繼續改善的空間

經典算法筆記：無監督算法（聚類、降維）

【基礎算法】常見的ML、DL程式設計題

交叉熵損失函數的了解

層次聚類算法介紹1層次聚類的定義2距離與相似性3合并算法思想4算法流程5 示例與分析6需注意的問題

2018ICLR會議論文：無監督異常檢測的深度自編碼高斯混合模型DEEP AUTOENCODING GAUSSIAN MIXTURE MODEL FOR UNSUPERVISE

跟着Cell學單細胞轉錄組分析(十二):轉錄因子分析

機器學習 day7 kmeans 聚類算法

【Spark Mllib】K-均值聚類——電影類型K-均值聚類資料特征提取