天天看點

中文命名實體識别NER:Lattice LSTM一、Lattice LSTM 模型二、模型訓練 

目錄

一、Lattice LSTM 模型

1、字元序列輸入

2、詞粒度輸入

3、字粒度和詞粒度資訊選取

二、模型訓練 

        LSTM-CRF模型在英文命名實體識别任務中具有顯著效果,在中文NER任務中,基于字元的NER模型也明顯優于基于詞的NER模型(避免分詞錯誤對NER任務的影響),但如何在基于字元的NER模型中引入詞彙資訊,确定實體邊界,對中文NER任務有明顯提升效果。

        Lattice LSTM模型是基于詞彙增強方法的中文NER的開篇之作。在該模型中,使用了字元資訊和所有詞序列資訊,避免因分詞錯誤導緻實體識别錯誤,在中文NER任務上有顯著效果。

中文命名實體識别NER:Lattice LSTM一、Lattice LSTM 模型二、模型訓練 

一、Lattice LSTM 模型

1、字元序列輸入

Lattice LSTM處理字元序列的LSTM結構如下(原始的LSTM模型):

中文命名實體識别NER:Lattice LSTM一、Lattice LSTM 模型二、模型訓練 

對應的數學公式如下,其中c是字粒度變量,j表示序列的目前位置,

中文命名實體識别NER:Lattice LSTM一、Lattice LSTM 模型二、模型訓練 

表示目前輸入的字粒度資訊:

中文命名實體識别NER:Lattice LSTM一、Lattice LSTM 模型二、模型訓練 

2、詞粒度輸入

Lattice LSTM處理詞粒度的LSTM結構如下,與字元的LSTM相比,沒有輸出向量:

中文命名實體識别NER:Lattice LSTM一、Lattice LSTM 模型二、模型訓練 

對應的數學公式:

中文命名實體識别NER:Lattice LSTM一、Lattice LSTM 模型二、模型訓練 

3、字粒度和詞粒度資訊選取

Lattice LSTM處理字元序列附加詞資訊,采用上述兩個結構(字粒度+詞粒度)的組合,通過一個額外的門控制字粒度資訊與詞粒度資訊的選取,額外的門計算如下:

中文命名實體識别NER:Lattice LSTM一、Lattice LSTM 模型二、模型訓練 

處理字粒度的隐狀态變化如下:

中文命名實體識别NER:Lattice LSTM一、Lattice LSTM 模型二、模型訓練 

 當目前位置j存在詞粒度資訊時,Lattice LSTM處理字粒度結構的隐狀态發生了變化,隐狀态用學到的詞粒度資訊替換掉了來自字粒度的資訊,但這并不意味着将目前位置之前所有字粒度資訊都丢棄了,因為詞粒度資訊中保留了來自詞在序列中開始位置之前的字粒度資訊。

二、模型訓練 

标準的CRF層被用在Lattice LSTM的輸出向量

中文命名實體識别NER:Lattice LSTM一、Lattice LSTM 模型二、模型訓練 

上面,一個标簽序列

中文命名實體識别NER:Lattice LSTM一、Lattice LSTM 模型二、模型訓練 

的機率為:

中文命名實體識别NER:Lattice LSTM一、Lattice LSTM 模型二、模型訓練 

其中,分母是所有标簽序列。我們需要尋找一個輸入序列中得分最高的标簽序列,損失函數為:

中文命名實體識别NER:Lattice LSTM一、Lattice LSTM 模型二、模型訓練 

其中正則項是所有參數集合 

參考文獻:

<Chinese NER Using Lattice LSTM>

https://www.paperweekly.site/papers/notes/623

繼續閱讀