[论文阅读笔记44]Named Entity Recognition without Labelled Data：A Weak Supervision Approach

一，题目

Named Entity Recognition without Labelled Data：A Weak Supervision Approach

无标记数据的命名实体识别: 一种弱监督方法

挪威奥斯陆大学 — 挪威

二，摘要

问题：在目标域没有手工标记的数据时，NER怎么进行问题？

解决：提出弱监督方案；依赖于广泛的标签函数来自动注释目标域的文本，然后使用Markov模型把这些标签整合在一起，把整合后的标注送入到最终的NER模型进行识别。

效果：经过两个英文数据集做实验在实体层次上有7个百分点的提升；

三，背景与相关技术

背景：NER很重要，可在实际的环境中，研究的目标域因为没有标注数，不可作迁移学习。

解决方法：提出ws在没有标签数据的情况下去bootstrap（提升）NER模型；这个方法主要是依赖标注函数去标注，然后通过考虑标注的准确性与混淆性使用HMM模型统一这些带有noise的标签，最后再采用最终的模型去进行训练。

特点：标注函数允许我们向序列标注模型注入专业的知识；

贡献：

1. NER的广泛的标签函数集合，包括在不同文本领域上训练的神经模型、地名词典、启发式函数和文档级约束。

2. 一种新的弱监督模型，适合于序列标签任务，并能够包括概率标签预测。

3. 标签函数和聚合模型开源；

3.1 无监督域自适应

无监督域适应试图调整来自源域的知识来预测通常具有本质上不同特征的目标域中的新实例。
 方法: 
      使用pivots调整特征空间（SCL）；
      代维转换特征空间；
      划分成一般与域特征；
      多任务；
      基于域自适应的微调；

3.2 注释的聚合

1. Bayesian Classifier Combination approach；
2. learn a generative model；
3. Conditional Random Fields (CRFs)；
4. Hidden Markov Model；
5. Fully Bayesian approach；

3.2 弱监督

1. distant supervision
2. Snorkel framework; 
3. Deep probabilistic logic: A unifying framework for indirect supervision
4.  Swellshark
5. 2020 - Weakly supervised sequence tagging from noisy rules

文章提出：linking rules

3.3 集成学习

bagging, boosting and random forests

四，方法模型

[论文阅读笔记44]Named Entity Recognition without Labelled Data：A Weak Supervision Approach

4.1 Labelling functions – 标注函数

域外模型：使用已有的标注数据中进行训练模型，来自于四个数据(Ontonotes, CoNLL 2003,Broad Twitter Corpus, NER-annotated corpus of SEC filings)。
这些模型都是由biLSTM+CRF的模型训练出来的；
Gazetteers：Wikipedia,Geonames,Crunchbase Open Data Map, DBPedia
Heuristic functions(启发式): 每个函数专门识别特定类型的命名实体。例如 日期、时间、金额、百分比和基数/序号值这些特殊实体，是由专门的启发式来处理。
Document-level relations： 引入一个标签函数来捕获文档中的标签一致性约束；

4.2 Aggregation model

HMM模型。

[论文阅读笔记44]Named Entity Recognition without Labelled Data：A Weak Supervision Approach

4.3 Sequence labelling model

[论文阅读笔记44]Named Entity Recognition without Labelled Data：A Weak Supervision Approach

实验

数据集：

CoNLL 2003，

Reuters & Bloomberg

基线：

Ontonotes-trained NER，

Majority voting (MV) ，

Snorkel model，

mSDA，

AdaptaBERT，

Mixtures of multinomials，

Accuracy model (ACC) ,

Confusion vector (CV),

Confusion matrix (CM) ,

Sequential Confusion Matrix (SEQ),

Dependent confusion matrix (DCM)

结果：

[论文阅读笔记44]Named Entity Recognition without Labelled Data：A Weak Supervision Approach

从这个数据来分析，启发式的规则，还是比较不错的。虽然是有提升的，可是总感觉提升出来的结果不是太优秀，或者可能是受到了实验数据的影响。

[论文阅读笔记44]Named Entity Recognition without Labelled Data：A Weak Supervision Approach

总结

WS的一个应用, 模型思想是一个旧思想。文章设置的函数值得借鉴学习下。实验还是比较丰富的。

[论文阅读笔记44]Named Entity Recognition without Labelled Data：A Weak Supervision Approach

参考

https://www.aclweb.org/anthology/2020.acl-main.139/

https://github.com/NorskRegnesentral/weak-supervision-for-NER

其它知识

Structural Correspondence Learning：结构对应学习包括一个源域和一个目标域。两个域都有足够的未标记数据，但只有源域有标记的训练数据。

该方法通过建模来自不同领域的特征与支点特征的相关性来识别这些特征之间的对应关系.

happyprince

[论文阅读笔记44]Named Entity Recognition without Labelled Data：A Weak Supervision Approach

一，题目

二，摘要

三，背景与相关技术

3.1 无监督域自适应

3.2 注释的聚合

3.2 弱监督

3.3 集成学习

四，方法模型

4.1 Labelling functions – 标注函数

4.2 Aggregation model

4.3 Sequence labelling model

实验

总结

参考

其它知识

继续阅读

吴恩达机器学习笔记（3）

吴恩达j机器学习之过拟合

吴恩达机器学习(一) 介绍

深度学习模型分析人类复杂疾病的准确性

疾病研究：重症肌无力

人工智能如何有效地运用于自然语言处理

新闻 | Mapbox 牵手阿里，飞猪旅行上线六大城市地图功能

【趋高机器视觉】机器视觉技术原理解析及解决方案

吴恩达 coursera ML 第七课总结+作业答案前言目录正文模型表示作业答案

XGBoost Plotting API以及GBDT组合特征实践 XGBoost Plotting API以及GBDT组合特征实践

[HTML5]自定义属性 data-* 和 jQuery.data 详解

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络

2021年危险化学品经营单位安全管理人员考试题库及危险化学品经营单位安全管理人员考试技巧

无人机--飞控科普