[论文解读]EMNLP2019: A Boundary-aware Neural Model for Nested NER

EMNLP2019: A Boundary-aware Neural Model for Nested Named Entity Recognition
论文链接: https://www.aclweb.org/anthology/D19-1034.pdf
论文代码: https://github.com/thecharm/boundary-aware-nested-ner

简介

Motivation

在 NER 任务中，有一类特殊的 nested entity, 即两个不同的实体相互嵌套，如Figure1中的 protein 实体和 RNA 实体。在这种情况下，同一个 token (例如图中的 “1” )，就会具备不同的实体标签。

传统方法会通过人工提供特征来解决这里问题，但却受限于特征工程的繁重工作。在今年的方法中，有两类方法解决nested NER问题:

Layered Sequence Labeling model: 通过层级的序列标注，先识别内层的实体，然后基于此通过下一层的序列标注来识别外层的实体；然而这一方法的受限于错误传递；
Region Classification Model: 发现序列中所有可能的实体位置区间(span), 将他们输入分类层来发现具体的实体；然而这一方法的缺点是由于缺乏精确的边界信息，会抽取出很多并非 target entity 的 entity mention.

基于以上两种方法的优缺点，本文考虑将他们结合起来: 用序列标注模型来发现实体的位置，用 region classification model 对序列标注发现的 entity span candidate 进行实体类型的分类；同时，由于实体标签预测和边界发现是在同一区间范围内的，因此引入多任务学习对它们进行优化。

Contributions

本文设计了边界感知的神经网络模型来预测实体的类别信息，它可以首先定位出实体的位置(span), 然后在对应的位置区间内进行实体类型的预测；
引入多任务学习来捕实体边界与事件标签之间的依赖关系；
在公开的 nested NER 数据集上，本文模型取得了超越 SOTA 的效果，并在inference取得了更快的速度。

模型

[论文解读]EMNLP2019: A Boundary-aware Neural Model for Nested NER

本文模型具体包括以下部分:

Token Representaiton

对于包含 n n n 个tokens的句子 ( t 1 , t 2 , . . . , t n ) (t_1, t_2, ..., t_n) (t1,t2,...,tn), 通过如下三个步骤得到初始的表示:

通过 lookup table 获取 t i t_i ti 的 word embedding:

x i w = e w ( t i ) x_i^w = e^w(t_i) xiw=ew(ti)
若一个token t i t_i ti 包含若干个 characters x i c x_i^c xic, 则先通过 e c ( x i c ) e^{c}(x_i^c) ec(xic) 得到其对应的词向量，然后通过 BiLSTM 得到每个字符的表示:

x i c = [ h i c ← ; h i c → ] x_i^c = [ \overleftarrow{h_i^c}; \overrightarrow{h_i^c}] xic=[hic

;hic

]

最后将 token 和对应字符的表示进行拼接:

x i t = [ x i w , x i c ] x_i^t = [x_i^w, x_i^c] xit=[xiw,xic]

Shared Feature Extractor

在得到 x i t x_i^t xit 的表示后，通过 BiLSTM 再次进行特征抽取:

[论文解读]EMNLP2019: A Boundary-aware Neural Model for Nested NER

Entity Boundary Detection

在边界检测阶段，对于句子 ( t 1 , t 2 , . . . , t n ) (t_1, t_2, ..., t_n) (t1,t2,...,tn)，我们将其包含的 entity 表示为 R ( i , j ) R(i,j) R(i,j), 表示 ( t i , t i + 1 , . . . , t j ) (t_i, t_{i+1}, ..., t_j) (ti,ti+1,...,tj) 构成一个实体。具体地，将 t i t_i ti 和 t j t_j tj 标注为 B 和 E, 区间内的token标注为 I, 非实体的token标注为 O。

对于每个token, 通过如下计算预测其对应的边界标签:

[论文解读]EMNLP2019: A Boundary-aware Neural Model for Nested NER

并通过下式定义 boundary detection 的 loss:

L b c l s = − ∑ ( d i t ^ log ⁡ ( d i t ) ) L_{bcls} = -\sum{(\hat{d_i^t} \log(d_i^t))} Lbcls=−∑(dit^log(dit))

Entity Categorical Label Prediction

基于 boundary detection 得到 R(i,j) 的基础上，首先计算得到 R(i,j) 部分对应的表示:

R i , j = [ 1 j − i + 1 ∑ k = i j h k t ] R_{i,j} = [ \frac{1}{j-i+1} \sum_{k=i}^j{h_k^t}] Ri,j=[j−i+11k=i∑jhkt]

然后对 R(i,j) 进行实体类别的分类,并定义loss:

[论文解读]EMNLP2019: A Boundary-aware Neural Model for Nested NER

Multitask Training

多任务的 loss 如下定义, 其中 α \alpha α 是控制各子任务重要性的超参

a l p h a ∑ L b c l s + ( 1 − α ) ∑ L e c l s alpha \sum{ L_{bcls} }+ (1-\alpha) \sum{L_{ecls}} alpha∑Lbcls+(1−α)∑Lecls

实验

实验部分主要介绍了所用的数据集、Baseline、参数设置和评价函数。

结果与讨论

分析总体实验结果。结果显示，本文模型的实验结果超越了现有的SOTA模型，且作者认为由于本文方法能更准确地发现entity边界以及 end2end 多任务抽取模式带来的提升，并在下文进行了分析。
分析Boundary Detection上的实验结果。从文中表5，6 看出本文在Boundary Detection 上就取得了比其他模型更好的效果，作者将这归因于multiLoss 同时考虑了实体边界与实体类型间依赖；同时，正是因为Boundary Detection 上更好的实验效果，整个 nested NER 任务才取得了更好的效果。
分析本文模型与现有模型在 Inference Time 上的区别。本文模型取得了更高的效率，作者将这归因于本文发现的 entity boundary 是更精确的，较之前人工作，non-entity boundary 更少。
分析多任务学习的影响。作者将本文的 Boundary Detection 与 EntityLabel Prediction 用 Pipiline 的方式进行了运行，发现仍旧是ene2end取得了较好的结果。作者将这归因于，** Multi-task Learning 能够捕捉到实体边界和实体类型标签间隐含的依赖信息**。
分析本文模型在** Flat NER** 任务上的结果。作者用本文模型在 JNLPBA DataSet 进行了 Falt NER 的实验，仍旧取得了较好的效果。
实例分析。作者通过一则实例对不同方法的特点进行分析，例句中 human TATA binding factor 是内嵌于 transcriptionally active human TATA binding factor的实体，Layered model 都只检出了 outer entity, 这说明相比之下本文模型能更加准确地发现 entity 的区间范围；而本文方法的 PipiLine 模式只检测出了 inner entity, 这说明 Multitask 的方法能够在边界检测模块和实体类型预测模块间进行信息共享，这有助于结果的提升。

[论文解读]EMNLP2019: A Boundary-aware Neural Model for Nested NER

了解更多深度学习相关知识与信息，请关注公众号深度学习的知识小屋

[论文解读]EMNLP2019: A Boundary-aware Neural Model for Nested NER

[论文解读]EMNLP2019: A Boundary-aware Neural Model for Nested NER

简介

Motivation

Contributions

相关工作

模型

Token Representaiton

Shared Feature Extractor

Entity Boundary Detection

Entity Categorical Label Prediction

Multitask Training

实验

结果与讨论

继续阅读

考证大全 | 证券从业资格考试

敲黑板！2021年证券从业考试考点预测

2021年银行从业考试考情介绍,果断收藏!

证券从业合格证书什么时候打印？有哪些注意事项？

【干货满满】初级银行从业考试《个人理财》重点梳理

2020年经济师考试，难吗？

初级银行从业资格证有什么用？

MBA提前面试纯干货分享

MBA值得学么

论文阅读笔记（三）：Research on Network Attack Effect Evaluation Based on Confrontational Perspective一. 论文简介二. 创新点和贡献：三. 相关领域的概述(related work)四. 作者的方案五. 主要的信息流（approach）六. 总结

吴恩达logistic回归实现

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

深度学习模型分析人类复杂疾病的准确性

【趋高机器视觉】机器视觉技术原理解析及解决方案

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络