天天看點

學習筆記CB007:分詞、命名實體識别、詞性标注、句法分析樹

中文分詞把文本切分成詞語,還可以反過來,把該拼一起的詞再拼到一起,找到命名實體。

機率圖模型條件随機場适用觀測值條件下決定随機變量有有限個取值情況。給定觀察序列X,某個特定标記序列Y機率,指數函數 exp(∑λt+∑μs)。符合最大熵原理。基于條件随機場命名實體識别方法屬于有監督學習方法,利用已标注大規模語料庫訓練。

命名實體的放射性。命名實體的前後詞。

特征模闆,目前位置前後n個位置字/詞/字母/數字/标點作為特征,基于已經标注好語料,詞性、詞形已知。特征模闆選擇和具體識别實體類别有關。

命名實體,人名(政治家、藝人等)、地名(城市、州、國家、建築等)、組織機構名、時間、數字、專有名詞(電影名、書名、項目名、電話号碼等)。命名性指稱、名詞性指稱和代詞性指稱。

詞形上下文訓練模型,給定詞形上下文語境中産生實體機率。詞性上下文訓練模型,給定詞性上下文語境中産生實體機率。給定實體詞形串作為實體機率。給定實體詞性串作為實體機率。

詞性,名、動、形、數、量、代、副、介、連、助、歎、拟聲。自然語言處理詞性,差別詞、方位詞、成語、習用語、機構團體、時間詞,多達100多種。漢語詞性标注最大困難“兼類”,一個詞在不同語境中有不同詞性,很難從形式上識别。

詞性标注過程。标注,根據規則或統計方法做詞性标注。校驗,一緻性檢查和自動校對方法修正。

統計模型詞性标注方法。大量已标注語料庫訓練,選擇合适訓練用數學模型,機率圖隐馬爾科夫模型(HMM)适合詞性标注基于觀察序列标注情形。

隐馬爾可夫模型參數初始化。模型參數初始化,在利用語料庫前用最小成本和最接近最優解目标設定初值。HMM,基于條件機率生成式模型,模型參數生成機率,假設每個詞生成機率是所有可能詞性個數倒數,計算最簡單最有可能接近最優解生成機率。每個詞所有可能詞性,已有詞表标記,詞表生成方法簡單,已标注語料庫,很好統計。生成機率初值設定0。

規則詞性标注方法。既定搭配關系上下文語境規則,判斷實際語境按照規則标注詞性。适合既有規則,對兼詞詞性識别效果好,不适合網絡新詞層出不窮、網絡用語新規則。機器學習自動提取規則,初始标注器标注結果和人工标注結果差距,生成修正标注轉換規則,錯誤驅動學習方法。經過人工校總結大量有用資訊補充調整規則庫。

統計方法、規則方法相結合詞性标注方法。規則排歧,統計标注,最後校對,得到正确标注結果。首選統計方法标注,同時計算計算置信度或錯誤率,判斷結果是否可疑,在可疑情況下采用規則方法歧義消解,達到最佳效果。

詞性标注校驗。校驗确定正确性,修正結果。檢查詞性标注一緻性。一緻性,所有标注結果,相同語境同一個詞标注相同。兼類詞,被标記不同詞性。非兼類詞,人工校驗或其他原因導緻标記不同詞性。詞數目多,詞性多,一緻性名額無法計算公式求得,基于聚類和分類方法,根據歐式距離定義一緻性名額,設定門檻值,保證一緻性在門檻值範圍内。詞性标注自動校對。不需要人參與,直接找出錯誤标注修正,适用一個詞詞性标注通篇全錯,資料挖掘和規則學習方法判斷相對準确。大規模訓練語料生成詞性校對決策表,找通篇全錯詞性标注自動修正。

句法分析樹生成。把一句話按照句法邏輯組織成一棵樹。

句法分析分句法結構分析和依存關系分析。句法結構分析是短語結構分析,提取出句子名詞短語、動詞短語等。分基于規則的分析方法和基于統計分析方法。基于規則方法存在很多局限性。基于統計方法,基于機率上下文無關文法(PCFG),終結符集合、非終結符集合、規則集。

先展示簡單例子,感受計算過程,再叙述理論。

終結符集合,表示有哪些字可作句法分析樹葉子節點。非終結符集合,表示樹非頁子節點,連接配接多個節點表達關系節點,句法規則符号。規則集,句法規則符号,模型訓練機率值左部相同的機率和一定是1。

一句話句法結構樹可能有多種,隻選擇機率最大作句子最佳結構。 設W={ω1ω2ω3……}表示一個句子,其中ω表示一個詞(word),利用動态規劃算法計算非終結符A推導出W中子串ωiωi+1ωi+2……ωj的機率,假設機率為αij(A),遞歸公式,αij(A)=P(A->ωi),αij(A)=∑∑P(A->BC)αik(B)α(k+1)j(C)。

句法規則提取方法與PCFG的機率參數估計。大量的樹庫,訓練資料。樹庫中句法規則提取生成結構形式,進行合并、歸納等處理,得到終結符集合∑、非終結符集合N、規則集R。機率參數計算方法,給定參數一個随機初始值,采用EM疊代算法,不斷訓練資料,計算每條規則使用次數作為最大似然計算得到機率估值,不斷疊代更新機率,最終得出機率符合最大似然估計精确值。

參考資料:

《Python 自然語言處理》

<a href="http://www.shareditor.com/blogshow?blogId=82">http://www.shareditor.com/blogshow?blogId=82</a>

<a href="http://www.shareditor.com/blogshow?blogId=86">http://www.shareditor.com/blogshow?blogId=86</a>

<a href="http://www.shareditor.com/blogshow?blogId=87">http://www.shareditor.com/blogshow?blogId=87</a>

歡迎推薦上海機器學習工作機會,我的微信:qingxingfengzi

繼續閱讀