天天看点

高斯混合模型GMM(Gaussian Mixture Model)

    统计学习的模型有两种,一种是概率模型,一种是非概率模型。

    所谓概率模型,是指训练模型的形式是P(Y|X)。输入是X,输出是Y,训练后模型得到的输出不是一个具体的值,而是一系列的概率值(对应于分类问题来说,就是输入X对应于各个不同Y(类)的概率),然后我们选取概率最大的那个类作为判决对象(软分类--soft assignment)。所谓非概率模型,是指训练模型是一个决策函数Y=f(X),输入数据X是多少就可以投影得到唯一的Y,即判决结果(硬分类--hard assignment)。

    GMM假设样本分布是几个高斯分布的加权和。

    混合高斯模型定义为:

高斯混合模型GMM(Gaussian Mixture Model)

     其中K 为模型的个数;πk为第k个高斯的权重;p(x / k) 则为第k个高斯概率密度,其均值为μk,方差为σk。对此概率密度的估计就是要求出πk、μk 和σk 各个变量----是为参数估计。

    在做参数估计的时候,常采用的是最大似然方法。最大似然法就是使样本点在估计的概率密度函数上的概率值最大。由于概率值一般都很小,N 很大的时候, 连乘的结果非常小,容易造成浮点数下溢。所以我们通常取log,将目标改写成:

高斯混合模型GMM(Gaussian Mixture Model)
高斯混合模型GMM(Gaussian Mixture Model)
高斯混合模型GMM(Gaussian Mixture Model)
高斯混合模型GMM(Gaussian Mixture Model)
高斯混合模型GMM(Gaussian Mixture Model)
高斯混合模型GMM(Gaussian Mixture Model)

    一般用来做参数估计的时候,我们都是通过对待求变量进行求导来求极值,在上式中,log函数中又有求和,你想用求导的方法算的话方程组将会非常复杂,没有闭合解。可以采用的求解方法是EM算法。

第一步:假设知道各个高斯模型的参数(可以初始化一个,或者基于上一步迭代结果),去估计每个高斯模型的权值(πk);

第二步,基于估计的权值,回过头再去确定高斯模型的参数(μk 和σk )。

重复这两个步骤直至算法收敛。

———————————————————————————————————————————————

下面的是具体EM算法,了解即可:

1、(E step)

    假设高斯模型的参数是已知,对于第i个样本xi 来说,它由第k 个model 生成的概率为:

高斯混合模型GMM(Gaussian Mixture Model)
高斯混合模型GMM(Gaussian Mixture Model)

 2、(M step)

高斯混合模型GMM(Gaussian Mixture Model)
高斯混合模型GMM(Gaussian Mixture Model)

3、重复上述两步骤直到算法收敛。

继续阅读