天天看點

【論文筆記】《基于深度學習的中文命名實體識别研究》閱讀筆記

作者及其機關:北京郵電大學,張俊遙,2019年6月,碩士論文

摘要

實驗資料:來源于網絡公開的新聞文本資料;用随機欠采樣和過采樣的方法解決分類不均衡問題;使用

BIO

格式的标簽識别5類命名實體,标注11種标簽。

學習模型:基于

RNN-CRF

架構,提出

Bi-GRU-Attention

模型;基于改進的

ELMo

可移植模型。

一,緒論

1,研究背景及意義

研究背景主要介紹的是時代背景及

NER

的應用領域。

2,研究現狀

1)基于規則和詞典的方法;

2)基于統計的方法:語言的

N

元模型,隐馬爾科夫模型,最大熵模型,條件随機場,支援向量機,決策樹,基于轉換的學習方法;

3)基于深度學習的方法:基于雙向循環神經網絡與條件随機場結合的架構;基于标簽轉移與視窗滑動的方法;注意力機制(

Attention

);

4)基于遷移學習的方法。

面臨挑戰:

1)中文命名實體界限難劃分;

2)中文命名實體結構更多樣複雜;

3)中文命名實體分類标準不同,劃分标注結果不同。

3,研究内容

1)資料集收集與預處理;

2)基于雙向循環神經網絡與條件随機場模型的研究;

3)基于

ELMo

的可移植模型研究。

二,相關技術

1,基于循環神經網絡方法的技術

1)神經單元結構:循環是指一個神經單元的計算是按照時間順序展開依次進行的過程。具有記憶特征,常用來處理與序列相關的問題。

2)循環神經網絡的發展:

LSTM

取代

CNN

,主要是解決

CNN

單元的反向傳播的計算問題。

3)深層網絡搭建:

Dropout

常被用作防止模型過拟合,減少網絡備援度,增加模型魯棒性;批量歸一化政策是批量梯度下降算法過程的一項操作;

clip

是一種有效控制梯度爆炸的算法。

4)目标函數,即損失函數,衡量經過模型計算的預測結果和事實上的結果之間的差距。如:平方差,交叉熵,

softmax

5)注意力機制:論文研究了在

LSTM

中引入注意力機制。

6)

Adam

優化算法:适合解決梯度稀疏或噪音較高的優化問題。

2,基于遷移學習方法的技術

1)基本思想:
(1)預訓練的兩種基本思路:
a)基于共同表示形式的思路:電子文本大多以某種向量形式(詞,句,段,文本)表示輸入到網絡中,如

ELMo

模型。

b)基于網絡微調的思想:借鑒機器視覺領域的模型思想,在預訓練好的模型上加入針對任務的功能層,在對後幾層進行結構和參數設定的精調。

2)語言模型:雙向語言模型

3)詞向量技術:

One-hot

向量,稀疏向量和稠密向量。
(1)基于統計的方法

a)基于共現矩陣的方法:在設定的視窗大小内,統計了一個句子中詞語前後相鄰出現的次數,使用這個次數構成的向量當作詞向量,這個向量比較稀疏。

b)奇異值分解的方法:可以看作一種降維過程,把稀疏矩陣壓縮為稠密矩陣的過程。

(2)基于語言模型的方法:
a)跳字模型(

skip-gram

):使用一個詞來預測上下文詞語;

b)連續詞袋模型(

CBOW

):使用周圍詞語預測中心詞;

c)

ELMo

模型:詞向量表達過程是動态的,即一詞多義下的詞向量完全不同。
4)混淆矩陣:資料科學,資料分析和機器學習中統計分類的實際結果和預測結果的表格表示。

三,命名實體識别任務與資料集

1,命名實體識别任務

1)定義:命名實體識别屬于序列标注類問題,分為三大類(實體類,數量類,時間類),七小類(人名,地名,組織名,日期,時間,貨币或者百分比)。

2)任務過程:準确劃分出命名實體的邊界,并将命名實體進行正确的分類。

3)判别标準:(1)準确劃分出命名實體的邊界;(2)命名實體的标注分類正确;(3)命名實體内部位置标注有序。

$$

準确率=\frac{标注結果正确的數量}{标注結果的數量}\times{100%} \召回率=\frac{标注命名實體正确的數量}{标注命名實體的數量}\times{100%}\F_1=\frac{(\beta^{2}+1)\times 準确率\times 召回率}{(\beta^{2}\times 準确率) + 召回率}\times{100%}

2,資料集收集與處理

1)資料源:本論文資料來源于搜狗實驗室公開的2012年6月到7月期間的國内外國際、體育、社會、娛樂等18類新聞文本。

2)資料處理:

jieba

+盤古工具,本文研究

NER

分為五類:人名(58136),地名(87412),機構名(5142),時間(75491),數量(148392)。資料集(句子個數)分:訓練集(197828),驗證集(8994),測試集(3485)。

四,基于改進的神經網絡與注意力機制結合的研究

1,RNN-CRF架構

1)架構結構:以

Bi-LSTM-CRF

模型為例,包括字嵌入層(字量化表示,輸入到神經網絡),

Bi-LSTM

神經網絡層(雙向網絡記錄了上下文資訊,據此共同訓練計算目前的字的新向量表示,其輸出字或詞的向量次元與神經單元數量有關),

CRF

層(進行進一步标簽順序的規則學習)。

2)模型原理:将輸入的語句轉換為詞向量,然後輸入到

LSTM

網絡計算,接着在

CRF

層中計算輸出标簽,根據定義的目标函數計算損失,使用梯度下降等算法更新模型中的參數。

2,改進與設計

1)改進的思想與結構設計:改進思路就是簡化神經單元結構,本文使用雙向的

GRU

結構代替

LSTM

單元結構,使用神經網絡與注意力機制結合。

2)改進的模型設計

3,實驗與分析

1)實驗思路是以

Bi-LSTM-CRF

為基礎,并進行網絡優化,對比本文提出的

Bi-GRU-Attention

實驗一:

Bi-LSTM

網絡參數

參數名稱 數值
batch_size 20
max_num_steps
優化器 Admin
初始學習率 0.001
衰減率 0.8
clip 5
one-hot_dim 11

實驗二:

GRU-Attention

模型實驗參數

參數
char_dim 100
神經單元數 128
Adam
epoch

實驗結果如下:

分類/F1/模型 Bi-LSTM-CRF Bi-LSTM-Attention Bi-GRU-CRF Bi-GRU-Attention
人名 82.32% 82.45% 82.22% 82.42%
地名 89.97% 90.19% 89.93% 91.06%
機構名 91.94% 91.96% 91.95%
數量 94.98% 95.06% 95.01% 95.26%
時間 96.05% 96.14% 96.06%

五,基于ELMo的可移植模型研究

1,改進的

ELMo

模型設計

ELMo

模型在2018年由

Peter

提出,

Peter

團隊使用雙層的循環神經網絡實作模型的預先訓練。本章基于

Peter

ELMo

模型設計,提出了直通結構,實作詞向量的提前訓練模型。

1)模型原理:

Peters

使用

CNN-BIG-LSTM

網絡實作模型,使用卷積神經網絡實作字元編碼,使用兩層雙向循環神經網絡實作詞向量的訓練模型。

2)改進與設計:本文使用改進的

ELMo

預先訓練模型包含輸入層,卷積神經網絡7層,雙向神經網絡2層,輸出層結構。

2,基于

ELMo

的嵌入式模型設計

1)連接配接結構:在模型嵌入的銜接層中,本文使用次元映射的方法,将不同次元的輸入輸出次元進行統一。

2)模型設計:本文的嵌入

ELMo

模型,包含

ELMo

層,銜接層,神經網絡層,注意力層和輸出調整層結構。

3,實驗

實驗參數配置如下:

1)

ELMo

word_dim
50
activation ReLU
每層神經單元數目 512
lr_decay
3

2)卷積神經網絡參數

卷積層 輸出詞向量次元 過濾器個數
conv1 32
conv2
conv3 64
conv4
conv5 256
conv6
conv7 1024

3)移植模型實驗參數

初始化學習率
dropout 0.1

實驗結果對比:

改進的ELMo嵌入模型
83.14%
92.36%
93.02%
96.13%
96.55%

六,總結與展望

1,總結

本文主要研究了基于深度學習的中文命名實體識别任務,提出了

Bi-GRU-Attention

模型減少訓練時間,提升模型準确率;提出了基于改進的

ELMo

可移植模型,用于應對少量資料集和快速移植不同場景的問題。

2,不足與發展趨勢

1)公開的權威的中文文本資料集不足;

2)可以劃分更細的領域或分類,分别涉及分類器;

3)基于遷移學習的多任務模型研究是熱點。

閱讀心得:緒論内容相對詳細,結構中規中矩,美中不足缺乏對研究對象現狀的介紹,國内外研究現狀,要解決的問題以及達到的預期效果未盡闡述。技術要點論述詳盡,本文設計實驗充分且多角度論證,擴充實驗與改進設計也具有一定創新性。通過本篇論文研究學習,在

NER

領域收獲頗多,很多知識有待彌補,如

ELMo

模型,遷移學習方面需要加強學習。

本文由部落格群發一文多發等營運工具平台 OpenWrite 釋出

PS:如果你覺得文章對你有所幫助,别忘了推薦或者分享,因為有你的支援,才是我續寫下篇的動力和源泉!

  • 作者:

    zhangbc

    出處:

    http://www.cnblogs.com/zhangbc/

    格言:

    我願意做一隻蝸牛,慢慢地向前爬,不退縮,不洩氣,做好自己,立足當下,展望未來!

    本文版權歸作者和部落格園共有,歡迎轉載,但未經作者同意必須保留此段聲明,且在文章頁面明顯位置給出原文連接配接,否則保留追究法律責任的權利。

  • posted @

    2020-03-01 15:52 

    天堂的鴿子 

    閱讀(939) 

    評論(0) 

    編輯 

    收藏 

    舉報

    繼續閱讀