天天看点

HMM、MEMM、CRF模型的比较

一、HMM

HMM、MEMM、CRF模型的比较

HMM属于生成模型,模型中2个假设:

  • 输出观测值 X i X_i Xi​之间相互独立;
  • 齐次一阶Markov,即状态的转移过程中当前状态只与前一状态有关。

二、MEMM

HMM、MEMM、CRF模型的比较

P ( I ∣ O ) = ∏ t = 1 n exp ⁡ ( ∑ a ) λ a f a ( o , i ) Z ( o , i i − 1 ) , i = 1 , ⋯   , n P(I | O)=\prod_{t=1}^{n} \frac{\exp \left(\sum_{a}\right) \lambda_{a} f_{a}(o, i)}{Z\left(o, i_{i-1}\right)}, i=1, \cdots, n P(I∣O)=t=1∏n​Z(o,ii−1​)exp(∑a​)λa​fa​(o,i)​,i=1,⋯,n

求和的作用在概率中是归一化,但是这里归一化放在了指数内部,管这叫local归一化。 来了,viterbi求解过程,是用dp的状态转移公式(MEMM的没展开,请参考CRF下面的公式),因为是局部归一化,所以MEMM的viterbi的转移公式的第二部分出现了问题,导致dp无法正确的递归到全局的最优。

δ i + 1 = max ⁡ 1 ≤ j ≤ m { δ i ( I ) + ∑ i T ∑ k M λ k f k ( O , I i − 1 , I i , i ) } \delta_{i+1}=\max _{1 \leq j \leq m}\left\{\delta_{i}(I)+\sum_{i}^{T} \sum_{k}^{M} \lambda_{k} f_{k}\left(O, I_{i-1}, I_{i}, i\right)\right\} δi+1​=1≤j≤mmax​{δi​(I)+i∑T​k∑M​λk​fk​(O,Ii−1​,Ii​,i)}

  • MEMM模型属于判别模型,打破了观察值之间相互独立产生的问题,但是由于状态之间的假设理论,MEMM倾向于选择拥有更少转移的状态,使得该模型存在 标注偏置问题(label bias problem)。

三、CRF(Conditional Random Field)

HMM、MEMM、CRF模型的比较

从概率图可以很形象的看出一个区别:

HMM是有向图,严格定义了y的有序性,只能从左至右。CRF是无向图,y无序,可左可右。HMM是生成模型,通过求联合概率获得;CRF是判别模型,通过条件概率求得。在如词性标注上的应用中CRF更合理,因为它直接求某个标注的概率,而HMM需要先算联合概率再转而求目标的概率。

对于所谓的条件和随机场的理解:

  • 条件:属于生成模型
  • 随机场:无向图模型

    CRF模型属于判别模型,解决了标注偏置问题,去除了HMM中两个不合理的假设,当然,模型相应得也变复杂了。

    CRF建模公式如下,整个过程的推导可以结合这个词性标注的案例更好理解 :CRF词性标注:

    P ( I ∣ O ) = 1 Z ( O ) ∏ i ψ i ( I i ∣ O ) = 1 Z ( O ) ∏ i e ∑ k λ k f k ( O , l i − 1 , I i , i ) = 1 Z ( O ) e ∑ i ∑ k λ k f k ( O , I i − 1 , I i , i ) P(I | O)=\frac{1}{Z(O)} \prod_{i} \psi_{i}\left(I_{i} | O\right)=\frac{1}{Z(O)} \prod_{i} e^{\sum_{k} \lambda_{k} f_{k}\left(O, l_{i-1}, I_{i}, i\right)}=\frac{1}{Z(O)} e^{\sum_{i} \sum_{k} \lambda_{k} f_{k}\left(O, I_{i-1}, I_{i}, i\right)} P(I∣O)=Z(O)1​i∏​ψi​(Ii​∣O)=Z(O)1​i∏​e∑k​λk​fk​(O,li−1​,Ii​,i)=Z(O)1​e∑i​∑k​λk​fk​(O,Ii−1​,Ii​,i)

    因为是判别模型,所以直接为了确定边界而去建模,因为创造出来就是为了这个分边界的目的。比如说序列求概率(分类)问题,直接考虑找出函数分类边界。所以才为什么会有这个公式。所以再看到这个公式也别懵逼了。

除了建模总公式,关键的CRF重点概念与MEMM类似:判别式模型、特征函数。

继续阅读