作者及其機關：北京郵電大學，張俊遙，2019年6月，碩士論文

摘要

實驗資料：來源于網絡公開的新聞文本資料；用随機欠采樣和過采樣的方法解決分類不均衡問題；使用

BIO

格式的标簽識别5類命名實體，标注11種标簽。

學習模型：基于

RNN-CRF

架構，提出

Bi-GRU-Attention

模型；基于改進的

ELMo

可移植模型。

一，緒論

1，研究背景及意義

研究背景主要介紹的是時代背景及 NER 的應用領域。

2，研究現狀

1）基于規則和詞典的方法；

2）基于統計的方法：語言的
N
元模型，隐馬爾科夫模型，最大熵模型，條件随機場，支援向量機，決策樹，基于轉換的學習方法；

3）基于深度學習的方法：基于雙向循環神經網絡與條件随機場結合的架構；基于标簽轉移與視窗滑動的方法；注意力機制(
Attention
)；

4）基于遷移學習的方法。

面臨挑戰：

1）中文命名實體界限難劃分；

2）中文命名實體結構更多樣複雜；

3）中文命名實體分類标準不同，劃分标注結果不同。

3，研究内容

1）資料集收集與預處理；

2）基于雙向循環神經網絡與條件随機場模型的研究；

3）基于
ELMo 的可移植模型研究。

二，相關技術

1，基于循環神經網絡方法的技術

1）神經單元結構：循環是指一個神經單元的計算是按照時間順序展開依次進行的過程。具有記憶特征，常用來處理與序列相關的問題。

2）循環神經網絡的發展：
LSTM 取代 CNN ，主要是解決 CNN
單元的反向傳播的計算問題。

3）深層網絡搭建：
Dropout 常被用作防止模型過拟合，減少網絡備援度，增加模型魯棒性；批量歸一化政策是批量梯度下降算法過程的一項操作； clip
是一種有效控制梯度爆炸的算法。

4）目标函數，即損失函數，衡量經過模型計算的預測結果和事實上的結果之間的差距。如：平方差，交叉熵，
softmax
。

5）注意力機制：論文研究了在
LSTM
中引入注意力機制。

6）
Adam 優化算法：适合解決梯度稀疏或噪音較高的優化問題。

2，基于遷移學習方法的技術

1）基本思想：
（1）預訓練的兩種基本思路：
a）基于共同表示形式的思路：電子文本大多以某種向量形式（詞，句，段，文本）表示輸入到網絡中，如 ELMo
模型。

b）基于網絡微調的思想：借鑒機器視覺領域的模型思想，在預訓練好的模型上加入針對任務的功能層，在對後幾層進行結構和參數設定的精調。

2）語言模型：雙向語言模型

3）詞向量技術：
One-hot 向量，稀疏向量和稠密向量。
（1）基于統計的方法

a）基于共現矩陣的方法：在設定的視窗大小内，統計了一個句子中詞語前後相鄰出現的次數，使用這個次數構成的向量當作詞向量，這個向量比較稀疏。

b）奇異值分解的方法：可以看作一種降維過程，把稀疏矩陣壓縮為稠密矩陣的過程。

（2）基于語言模型的方法：
a）跳字模型（ skip-gram
）：使用一個詞來預測上下文詞語；

b）連續詞袋模型（
CBOW
）：使用周圍詞語預測中心詞；

c）
ELMo 模型：詞向量表達過程是動态的，即一詞多義下的詞向量完全不同。

4）混淆矩陣：資料科學，資料分析和機器學習中統計分類的實際結果和預測結果的表格表示。

三，命名實體識别任務與資料集

1，命名實體識别任務

1）定義：命名實體識别屬于序列标注類問題，分為三大類（實體類，數量類，時間類），七小類（人名，地名，組織名，日期，時間，貨币或者百分比）。

2）任務過程：準确劃分出命名實體的邊界，并将命名實體進行正确的分類。

3）判别标準：（1）準确劃分出命名實體的邊界；（2）命名實體的标注分類正确；（3）命名實體内部位置标注有序。

$$

準确率=\frac{标注結果正确的數量}{标注結果的數量}\times{100%} \召回率=\frac{标注命名實體正确的數量}{标注命名實體的數量}\times{100%}\F_1=\frac{(\beta^{2}+1)\times 準确率\times 召回率}{(\beta^{2}\times 準确率) + 召回率}\times{100%}

2，資料集收集與處理

1）資料源：本論文資料來源于搜狗實驗室公開的2012年6月到7月期間的國内外國際、體育、社會、娛樂等18類新聞文本。

2）資料處理：
jieba +盤古工具，本文研究 NER 分為五類：人名（58136），地名（87412），機構名（5142），時間（75491），數量（148392）。資料集（句子個數）分：訓練集（197828），驗證集（8994），測試集（3485）。

四，基于改進的神經網絡與注意力機制結合的研究

1，RNN-CRF架構

1）架構結構：以 Bi-LSTM-CRF 模型為例，包括字嵌入層（字量化表示，輸入到神經網絡）， Bi-LSTM 神經網絡層（雙向網絡記錄了上下文資訊，據此共同訓練計算目前的字的新向量表示，其輸出字或詞的向量次元與神經單元數量有關）， CRF
層（進行進一步标簽順序的規則學習）。

2）模型原理：将輸入的語句轉換為詞向量，然後輸入到
LSTM 網絡計算，接着在 CRF 層中計算輸出标簽，根據定義的目标函數計算損失，使用梯度下降等算法更新模型中的參數。

2，改進與設計

1）改進的思想與結構設計：改進思路就是簡化神經單元結構，本文使用雙向的 GRU 結構代替 LSTM
單元結構，使用神經網絡與注意力機制結合。

2）改進的模型設計

3，實驗與分析

1）實驗思路是以 Bi-LSTM-CRF 為基礎，并進行網絡優化，對比本文提出的 Bi-GRU-Attention

實驗一：

Bi-LSTM

網絡參數

參數名稱	數值
batch_size	20
max_num_steps
優化器	Admin
初始學習率	0.001
衰減率	0.8
clip	5
one-hot_dim	11

實驗二：

GRU-Attention

模型實驗參數

參數

char_dim	100

神經單元數	128
	Adam



epoch

實驗結果如下：

分類/F1/模型	Bi-LSTM-CRF	Bi-LSTM-Attention	Bi-GRU-CRF	Bi-GRU-Attention
人名	82.32%	82.45%	82.22%	82.42%
地名	89.97%	90.19%	89.93%	91.06%
機構名	91.94%	91.96%		91.95%
數量	94.98%	95.06%	95.01%	95.26%
時間	96.05%	96.14%	96.06%

五，基于ELMo的可移植模型研究

1，改進的 `ELMo` 模型設計

ELMo 模型在2018年由 Peter 提出， Peter 團隊使用雙層的循環神經網絡實作模型的預先訓練。本章基于 Peter 的 ELMo
模型設計，提出了直通結構，實作詞向量的提前訓練模型。

1）模型原理：
Peters 使用 CNN-BIG-LSTM
網絡實作模型，使用卷積神經網絡實作字元編碼，使用兩層雙向循環神經網絡實作詞向量的訓練模型。

2）改進與設計：本文使用改進的
ELMo 預先訓練模型包含輸入層，卷積神經網絡7層，雙向神經網絡2層，輸出層結構。

2，基于 `ELMo` 的嵌入式模型設計

1）連接配接結構：在模型嵌入的銜接層中，本文使用次元映射的方法，将不同次元的輸入輸出次元進行統一。

2）模型設計：本文的嵌入
ELMo 模型，包含 ELMo 層，銜接層，神經網絡層，注意力層和輸出調整層結構。

3，實驗

實驗參數配置如下：

1）

ELMo


word_dim
	50
activation	ReLU
每層神經單元數目	512


lr_decay
	3

2）卷積神經網絡參數

卷積層	輸出詞向量次元	過濾器個數
conv1	32
conv2
conv3	64
conv4
conv5	256
conv6
conv7	1024

3）移植模型實驗參數







初始化學習率

dropout	0.1

實驗結果對比：

			改進的ELMo嵌入模型
			83.14%
			92.36%
			93.02%
			96.13%
			96.55%

六，總結與展望

1，總結

本文主要研究了基于深度學習的中文命名實體識别任務，提出了 Bi-GRU-Attention 模型減少訓練時間，提升模型準确率；提出了基于改進的 ELMo 可移植模型，用于應對少量資料集和快速移植不同場景的問題。

2，不足與發展趨勢

1）公開的權威的中文文本資料集不足；

2）可以劃分更細的領域或分類，分别涉及分類器；

3）基于遷移學習的多任務模型研究是熱點。

閱讀心得：緒論内容相對詳細，結構中規中矩，美中不足缺乏對研究對象現狀的介紹，國内外研究現狀，要解決的問題以及達到的預期效果未盡闡述。技術要點論述詳盡，本文設計實驗充分且多角度論證，擴充實驗與改進設計也具有一定創新性。通過本篇論文研究學習，在

NER

領域收獲頗多，很多知識有待彌補，如

ELMo

模型，遷移學習方面需要加強學習。

本文由部落格群發一文多發等營運工具平台 OpenWrite 釋出

PS:如果你覺得文章對你有所幫助，别忘了推薦或者分享,因為有你的支援，才是我續寫下篇的動力和源泉！

作者：

zhangbc

出處：

http://www.cnblogs.com/zhangbc/

格言：

我願意做一隻蝸牛，慢慢地向前爬，不退縮，不洩氣，做好自己，立足當下，展望未來！

本文版權歸作者和部落格園共有，歡迎轉載，但未經作者同意必須保留此段聲明，且在文章頁面明顯位置給出原文連接配接，否則保留追究法律責任的權利。

posted @

2020-03-01 15:52

天堂的鴿子

閱讀(939)

評論(0)

編輯

舉報

【論文筆記】《基于深度學習的中文命名實體識别研究》閱讀筆記

摘要

一，緒論

1，研究背景及意義

2，研究現狀

3，研究内容

二，相關技術

1，基于循環神經網絡方法的技術

2，基于遷移學習方法的技術

三，命名實體識别任務與資料集

1，命名實體識别任務

2，資料集收集與處理

四，基于改進的神經網絡與注意力機制結合的研究

1，RNN-CRF架構

2，改進與設計

3，實驗與分析

五，基于ELMo的可移植模型研究

1，改進的 `ELMo` 模型設計

2，基于 `ELMo` 的嵌入式模型設計

3，實驗

六，總結與展望

1，總結

2，不足與發展趨勢

繼續閱讀

論文筆記 Joint Inference of Reward Machines and Policies for Reinforcement Learning摘要介紹準備工作JIRP算法優化案例研究Reference

小樣本學習|元學習ICLR2017《Optimization as A Model for Few-shot Learning》1. 思想2. 過程3. 實驗

論文筆記：Semantic Relation Reasoning for Shot-Stable Few-Shot Object Detection

[論文解讀]EMNLP2019: A Boundary-aware Neural Model for Nested NER

3D修複論文：Shape Inpainting using 3D Generative Adversarial Network and Recurrent Convolutional Networks 摘要一、簡介二、網絡結構三、實驗結果

論文筆記-PSPNet-Semantic Segmentation--Pyramid Scene Parsing Network論文筆記-PSPNet-Semantic Segmentation–Pyramid Scene Parsing Network

論文筆記-Unsupervised Adversarial Depth Estimation using Cycled Generative Networks

論文筆記-Structured Coupled Generative Adversarial Networks for Unsupervised Monocular Depth Estimation

論文筆記 -《Machine vision technology for detecting the external defects of fruits - a review》1 文章背景2 摘要内容3 段落主旨

論文閱讀：CVPR2019 | CSPNet: A New Backbone that can Enhance Learning Capability of CNN前言一、Introduction二、Method三、 result總結

論文筆記 - Weighted Component Hashing of Binary Aggregated Descriptors for Fast Visual Search

【論文筆記】FM: Factorization Machines

（推薦系統） FM算法：Factorization Machines摘要1. FM模型2. FM如何解決資料的稀疏性3 FM的線性複雜度4.FM與其他算法的對比5 總結

[MICCAI2019] Learning shape priors for robust cardiac MR segmentation from multi-view images

[MICCAI2019] Unified Attentional Generative Adversarial Network for Brain Tumor Segmentation From Mu

論文閱讀筆記（三）：Research on Network Attack Effect Evaluation Based on Confrontational Perspective一. 論文簡介二. 創新點和貢獻：三. 相關領域的概述(related work)四. 作者的方案五. 主要的資訊流（approach）六. 總結

【論文筆記】《基于深度學習的中文命名實體識别研究》閱讀筆記

摘要

一，緒論

1，研究背景及意義

2，研究現狀

3，研究内容

二，相關技術

1，基于循環神經網絡方法的技術

2，基于遷移學習方法的技術

三，命名實體識别任務與資料集

1，命名實體識别任務

2，資料集收集與處理

四，基于改進的神經網絡與注意力機制結合的研究

1，RNN-CRF架構

2，改進與設計

3，實驗與分析

五，基于ELMo的可移植模型研究

1，改進的 ELMo 模型設計

2，基于 ELMo 的嵌入式模型設計

3，實驗

六，總結與展望

1，總結

2，不足與發展趨勢

繼續閱讀

1，改進的 `ELMo` 模型設計

2，基于 `ELMo` 的嵌入式模型設計