天天看點

中文詞性标注學習筆記(一)---詞性标注概念詞性标注(一)

詞性标注(一)

前言

詞性标注也被稱為文法标注或詞類消疑,是語料庫語言學中将語料庫内單詞的詞性按其含義和上下文内容進行标記的文本資料處理技術。

詞性标注可以由人工或特定算法完成,使用機器學習方法實作詞性标注是自然語言處理的研究内容。常見的詞性标注算法包括隐馬爾可夫模型、條件随機場等。

詞性标注主要被應用于文本挖掘和NLP領域,是各類基于文本的機器學習任務,例如語義分析和指代消解的預處理步驟。

隐馬爾可夫模型

隐馬爾可夫模型(Hidden Markov Model,HMM)作為一種統計分析模型,創立于20世紀70年代。80年代得到了傳播和發展,成為信号處理的一個重要方向,現已成功地用于語音識别,行為識别,文字識别以及故障診斷等領域。

中文詞性标注學習筆記(一)---詞性标注概念詞性标注(一)

通俗的了解隐馬爾可夫模型(摘抄自知乎)

還是用最經典的例子,擲骰子。假設我手裡有三個不同的骰子。第一個骰子是我們平常見的骰子(稱這個骰子為D6),6個面,每個面(1,2,3,4,5,6)出現的機率是1/6。第二個骰子是個四面體(稱這個骰子為D4),每個面(1,2,3,4)出現的機率是1/4。第三個骰子有八個面(稱這個骰子為D8),每個面(1,2,3,4,5,6,7,8)出現的機率是1/8。

中文詞性标注學習筆記(一)---詞性标注概念詞性标注(一)

設我們開始擲骰子,我們先從三個骰子裡挑一個,挑到每一個骰子的機率都是1/3。然後我們擲骰子,得到一個數字,1,2,3,4,5,6,7,8中的一個。不停的重複上述過程,我們會得到一串數字,每個數字都是1,2,3,4,5,6,7,8中的一個。例如我們可能得到這麼一串數字(擲骰子10次):1 6 3 5 2 7 3 5 2 4這串數字叫做可見狀态鍊。但是在隐馬爾可夫模型中,我們不僅僅有這麼一串可見狀态鍊,還有一串隐含狀态鍊。在這個例子裡,這串隐含狀态鍊就是你用的骰子的序列。比如,隐含狀态鍊有可能是:D6 D8 D8 D6 D4 D8 D6 D6 D4 D8一般來說,HMM中說到的馬爾可夫鍊其實是指隐含狀态鍊,因為隐含狀态(骰子)之間存在轉換機率(transition probability)。在我們這個例子裡,D6的下一個狀态是D4,D6,D8的機率都是1/3。D4,D8的下一個狀态是D4,D6,D8的轉換機率也都一樣是1/3。這樣設定是為了最開始容易說清楚,但是我們其實是可以随意設定轉換機率的。比如,我們可以這樣定義,D6後面不能接D4,D6後面是D6的機率是0.9,是D8的機率是0.1。這樣就是一個新的HMM。同樣的,盡管可見狀态之間沒有轉換機率,但是隐含狀态和可見狀态之間有一個機率叫做輸出機率(emission probability)。就我們的例子來說,六面骰(D6)産生1的輸出機率是1/6。産生2,3,4,5,6的機率也都是1/6。我們同樣可以對輸出機率進行其他定義。比如,我有一個被賭場動過手腳的六面骰子,擲出來是1的機率更大,是1/2,擲出來是2,3,4,5,6的機率是1/10。

中文詞性标注學習筆記(一)---詞性标注概念詞性标注(一)
中文詞性标注學習筆記(一)---詞性标注概念詞性标注(一)

訓練方法

馬爾可夫模型的隐狀态是詞性,顯狀态是單詞。

相關學習連接配接

https://www.bilibili.com/video/av27557638/?p=25

http://www.hankcs.com/nlp/part-of-speech-tagging.html

https://www.zhihu.com/question/20962240

https://baike.baidu.com/item/詞性标注

繼續閱讀