天天看點

nlp基礎—11.條件随機場模型(CRF)模型補充

文章目錄

      • 引言
      • 一、機率圖模型
      • 二、CRF模型
        • 1.條件随機場的矩陣形式
        • 2. HMM模型與CRF模型比較
        • 3. 條件随機場的三個基本問題
          • 3.1 機率計算問題
          • 3.2 預測問題(Inference)
          • 3.3 參數估計問題

nlp基礎—9.條件随機場模型(CRF算法)上一節主要依據《統計學習方法》這本書來學習條件随機場模型;這一節從原論文角度來學習條件随機場模型。

引言

  所謂線性鍊條件随機場就是邏輯回歸的引申,相當于它的每一個時間步都是一個獨立的邏輯回歸模型,我們隻需要将邏輯回歸連起來就可以得到線性鍊的條件随機場。如果不考慮隐變量之間簡單的依賴關系,就可以得到一般的條件随機場模型。

nlp基礎—11.條件随機場模型(CRF)模型補充

HMM模型是生成式模型,CRF模型是判别式模型。

一、機率圖模型

  機率圖模型是由圖表示的機率分布,用于刻畫随機變量之間的依賴關系。我們有兩種刻畫方式,一種是有向圖模型:

nlp基礎—11.條件随機場模型(CRF)模型補充
  • 每個節點對應一個随機變量
  • 通過條件機率 P ( x i │ P a r e n t s ( x i ) ) P(x_i│Parents(x_i)) P(xi​│Parents(xi​))刻畫父節點對 x i x_i xi​的影響
  • 圖中無回路
    nlp基礎—11.條件随機場模型(CRF)模型補充

    其機率為:

    P ( a , b , c , d , e ) = P ( a ) P ( b │ a ) P ( c │ b ) P ( d │ b ) P ( e ∣ c , d ) P(a,b,c,d,e )=P(a)P(b│a)P(c│b)P(d│b)P(e|c,d) P(a,b,c,d,e)=P(a)P(b│a)P(c│b)P(d│b)P(e∣c,d)

一種是無向圖模型:

nlp基礎—11.條件随機場模型(CRF)模型補充
  • 每個節點對應一個随機變量
  • 每條邊表示随機變量之間的依賴關系
  • 聯合機率分布滿足局部馬爾科夫性
nlp基礎—11.條件随機場模型(CRF)模型補充

最大團:無向圖中任何兩個結點均有邊連接配接的結點子集稱為團。如果C是一個團,并且不能再加進任何一個結點使其成為更大的團,則稱C為最大團

Hammersley-Clifford定理:機率無向圖模型的聯合機率分布P(Y)可以表示為如下形式:

P ( Y ) = 1 / Z ∏ C ψ c ( Y c ) Z = ∑ Y ∏ C ψ c ( Y c ) ψ c ( Y c ∣ θ ) = e x p [ ∑ j = 1 n w i F i ( Y c ) ] n : 特 征 的 數 量 F i ( Y c ) : Y c 這 個 團 上 所 提 取 出 的 特 征 P(Y)=1/Z∏_Cψ_c(Y_c)\\Z=∑_Y∏_Cψ_c(Y_c)\\ψ_c(Y_c|θ)=exp[∑_{j=1}^nw_iF_i(Y_c)]\\n: 特征的數量 \\F_i(Y_c): Y_c這個團上所提取出的特征 P(Y)=1/ZC∏​ψc​(Yc​)Z=Y∑​C∏​ψc​(Yc​)ψc​(Yc​∣θ)=exp[j=1∑n​wi​Fi​(Yc​)]n:特征的數量Fi​(Yc​):Yc​這個團上所提取出的特征

那麼,上面無向圖模型的聯合機率分布為:

P ( a , b , c , d , e ) = 1 / Z ψ 1 ( a , b , d ) ψ 2 ( b , c ) ψ 3 ( c , e ) P(a,b,c,d,e )=1/Zψ_1(a,b,d)ψ_2(b,c)ψ_3(c,e) P(a,b,c,d,e)=1/Zψ1​(a,b,d)ψ2​(b,c)ψ3​(c,e)

二、CRF模型

  奧卡姆刮胡刀原理告訴我們:若非必要,勿增實體。在序列标注方面,HMM模型會遇到什麼問題呢?HMM模型在生成每個詞時,隻考慮目前這個詞的狀态,不能很好的考慮上下文。

1.條件随機場的矩陣形式

nlp基礎—11.條件随機場模型(CRF)模型補充

x = ( x 1 , x 2 , x 3 ) y = ( y 1 , y 2 , y 3 ) P ( y ∣ x , w ) = 1 / Z ( w , x ) ∏ i = 1 C e x p [ ∑ j = 1 n w j f j ( x , y i , y i − 1 ) ] x=(x_1,x_2,x_3)\\y=(y_1,y_2,y_3)\\P(y|x,w)=1/Z(w,x)∏_{i=1}^Cexp[∑_{j=1}^nw_jf_j(x, y_i,y_i−1)] x=(x1​,x2​,x3​)y=(y1​,y2​,y3​)P(y∣x,w)=1/Z(w,x)i=1∏C​exp[j=1∑n​wj​fj​(x,yi​,yi​−1)]

由于在各個勢函數之間共享了權重,則可以寫成:

P ( y ∣ x , w ) = 1 / Z ( w , x ) ∏ i = 1 C e x p [ ∑ j = 1 n w j f j ( x , y i , y i − 1 ) ] a r g m a x w ∏ i = 1 N P ( y ∣ x , w ) P(y|x,w)=1/Z(w,x)∏_{i=1}^Cexp[∑_{j=1}^nw_jf_j(x, y_i,y_i−1)]\\arg max_w∏_{i=1}^NP(y|x,w) P(y∣x,w)=1/Z(w,x)i=1∏C​exp[j=1∑n​wj​fj​(x,yi​,yi​−1)]argmaxw​i=1∏N​P(y∣x,w)

2. HMM模型與CRF模型比較

  将隐馬爾可夫模型寫成條件機率的形式就成了條件随機場模型。

nlp基礎—11.條件随機場模型(CRF)模型補充

3. 條件随機場的三個基本問題

nlp基礎—11.條件随機場模型(CRF)模型補充
3.1 機率計算問題

   給 定 w , x , y , 計 算 P ( y ∣ x , w ) 給定w,x,y,計算P(y|x,w) 給定w,x,y,計算P(y∣x,w)

重點: 計 算 Z ( w , x ) 計算Z(w,x) 計算Z(w,x)

Z ( w , x ) = ∑ y e x p [ ∑ j = 1 n w j ∑ i = 1 C f j ( x , y i , y i − 1 ) ] = ∑ y e x p [ ∑ i = 1 C ∑ j = 1 n w j f j ( x , y i , y i − 1 ) ] = ∑ y e x p [ ∑ i = 1 C g i ( x , y i , y i − 1 ) ] g i ( x , y i , y i − 1 ) = ∑ j = 1 n w j f j ( x , y i , y i − 1 ) Z(w,x)=∑_yexp[∑_{j=1}^nw_j∑_{i=1}^Cf_j(x, y_i,y_i−1)]\\=∑_yexp[∑_{i=1}^C∑_{j=1}^nw_jf_j(x, y_i,y_i−1)]\\=∑_yexp[∑_{i=1}^Cg_i(x,y_i,y_i−1) ]\\g_i(x,y_i, y_i−1)=∑_{j=1}^nw_jf_j(x, y_i,y_i−1) Z(w,x)=y∑​exp[j=1∑n​wj​i=1∑C​fj​(x,yi​,yi​−1)]=y∑​exp[i=1∑C​j=1∑n​wj​fj​(x,yi​,yi​−1)]=y∑​exp[i=1∑C​gi​(x,yi​,yi​−1)]gi​(x,yi​,yi​−1)=j=1∑n​wj​fj​(x,yi​,yi​−1)

然後再用前向後向算法計算。

3.2 預測問題(Inference)

   給 定 w , x , 計 算 y ′ = a r g m a x y P ( y ∣ x , w ) 給定w,x,計算 y^′=arg max_yP(y|x,w) 給定w,x,計算y′=argmaxy​P(y∣x,w)

nlp基礎—11.條件随機場模型(CRF)模型補充
3.3 參數估計問題

   給 定 x , y , 計 算 w ′ = a r g m a x w P ( y ∣ x , w ) 給定x,y,計算 w^′=arg max_wP(y|x,w) 給定x,y,計算w′=argmaxw​P(y∣x,w)

nlp基礎—11.條件随機場模型(CRF)模型補充

如果對您有幫助,麻煩點贊關注,這真的對我很重要!!!如果需要互關,請評論或者私信!

nlp基礎—11.條件随機場模型(CRF)模型補充