論文解讀：ACL2021 NER | 基于模闆的BART命名實體識别

摘要：本文是對ACL2021 NER 基于模闆的BART命名實體識别這一論文工作進行初步解讀。

本文分享自華為雲社群《ACL2021 NER | 基于模闆的BART命名實體識别》，作者： JuTzungKuei 。

論文：Cui Leyang, Wu Yu, Liu Jian, Yang Sen, Zhang Yue. TemplateBased Named Entity Recognition Using BART [A]. Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021 [C]. Online: Association for Computational Linguistics, 2021, 1835–1845.

連結：https://aclanthology.org/2021.findings-acl.161.pdf

代碼：https://github.com/Nealcly/templateNER

0、摘要

小樣本NER：源領域資料多，目标領域資料少
現有方法：基于相似性的度量

缺點：不能利用模型參數中的知識進行遷移

提出基于模闆的方法

NER看作一種語言模型排序問題，seq2seq架構
原始句子和模闆分别作為源序列和模闆序列，由候選實體span填充
推理：根據相應的模闆分數對每個候選span分類

資料集

CoNLL03 富資源
MIT Movie、MIT Restaurant、ATIS 低資源

1、介紹

NER：NLP基礎任務，識别提及span，并分類
神經NER模型：需要大量标注資料，新聞領域很多，但其他領域很少

理想情況：富資源知識遷移到低資源
實際情況：不同領域實體類别不同
訓練和測試：softmax層和crf層需要一緻的标簽
新領域：輸出層必須再調整和訓練

最近，小樣本NER采用距離度量：訓練相似性度量函數

優：降低了領域适配
缺：(1)啟發式最近鄰搜尋，查找最佳超參，未更新網絡參數，不能改善跨域執行個體的神經表示；(2)依賴源域和目标域相似的文本模式

利用生成PLM的小樣本學習潛力，進行序列标注
BART由标注實體填充的預定義模闆微調
實體模闆：<candidate_span> is a <entity_type> entity
非實體模闆：<candidate_span> is not a named entity

方法優點：

可有效利用标注執行個體在新領域微調
比基于距離的方法更魯棒，即使源域和目标域在寫作風格上有很大的差距
可應用任意類别的NER，不改變輸出層，可持續學習

第一個使用生成PLM解決小樣本序列标注問題
Prompt Learning（提示學習）

2、方法

2.1、建立模闆

将NER任務看作是seq2seq架構下的LM排序問題
标簽集 entity_type：\mathbf{L}=\{l_1,...,l_{|L|}\}L={l1,...,l∣L∣}，即{LOC, PER, ORG, …}
自然詞：\mathbf{Y}=\{y_1,...,y_{|L|}\}Y={y1,...,y∣L∣}，即{location, person, orgazation, …}
實體模闆：\mathbf{T}^{+}_{y_k}=\text{<candidate\_span> is a location entity.}Tyk+=<candidate_span> is a location entity.
非實體模闆：\mathbf{T}^{-}=\text{<candidate\_span> is not a named entity.}T−=<candidate_span> is not a named entity.
模闆集合：\mathbf{T}=[\mathbf{T}^{+}_{y_1},...,\mathbf{T}^{+}_{y_{|L|}},\mathbf{T}^{-}]T=[Ty1+,...,Ty∣L∣+,T−]

2.2、推理

枚舉所有的span，限制n-grams的數量1~8，每個句子有8n個模闆
模闆打分：\mathbf{T}_{{y_k},x_{i:j}}=\{t_1,...,t_m\}Tyk,xi:j={t1,...,tm}

x_{i:j}xi:j實體得分最高
如果存在嵌套實體，選擇得分較高的一個

2.3、訓練

金标實體用于建立模闆

實體x_{i:j}xi:j的類型為y_kyk，其模闆為：\mathbf{T}^{+}_{y_k,x_{i:j}}Tyk,xi:j+
非實體x_{i:j}xi:j，其模闆為：\mathbf{T}^{-}_{x_{i:j}}Txi:j−

建構訓練集：

正例：(\mathbf{X}, \mathbf{T}^+)(X,T+)
負例：(\mathbf{X}, \mathbf{T}^-)(X,T−)，随機采樣，數量是正例的1.5倍

編碼：\mathbf{h}^{enc}=\text{ENCODER}(x_{1:n})henc=ENCODER(x1:n)
解碼：\mathbf{h}_c^{dec}=\text{DECODER}(h^{enc}, t_{1:c-1})hcdec=DECODER(henc,t1:c−1)
詞t_ctc的條件機率：p(t_c|t_{1:c-1},\mathbf{X})=\text{SOFTMAX}(\mathbf{h}_c^{dec}\mathbf{W}_{lm}+\mathbf{b}_{lm})p(tc∣t1:c−1,X)=SOFTMAX(hcdecWlm+blm)

\mathbf{W}_{lm} \in \mathbb{R}^{d_h\times |V|}Wlm∈Rdh×∣V∣

交叉熵loss

3、結果

不同模闆類型的測試結果

選擇前三個模闆，分别訓練三個模型

實驗結果

最後一行是三模型融合，實體級投票

号外号外：想了解更多的AI技術幹貨，歡迎上華為雲的AI專區，目前有AI程式設計Python等六大實戰營供大家免費學習。

點選關注，第一時間了解華為雲新鮮技術~

論文解讀：ACL2021 NER | 基于模闆的BART命名實體識别

0、摘要

1、介紹

2、方法

2.1、建立模闆

2.2、推理

2.3、訓練

3、結果

繼續閱讀

線段樹基礎合集線段樹基礎合集

線性基模闆

最大流模闆（Dinic算法）

使用中文維基百科進行GloVe實驗

從詞向量衡量标準到全局向量的詞嵌入模型GloVe再到一詞多義的解決方式衡量标準Evaluation引子全局向量的詞嵌入應用對一詞多義的思考Reference

NLP︱進階詞向量表達（一）——GloVe（理論、相關測評結果、R&python實作、相關應用）一、理論簡述二、測評三、Glove實作&R&python四、相關應用

GloVe與word2vec的差別，及GloVe的缺陷

更别緻的詞向量模型(一)：simpler glove

C++實作反射（三）

glove_python安裝（避免編譯錯誤）

python 分析qq聊天記錄

[一起學BERT]（一）：BERT模型的原理基礎Self-Attention機制理論Multi-head Self-Attention注意力機制位置編碼Transformer理論BERT理論

ELMO BERT GPT

BERT、Elmo、GPT一、發展曆史二、bert三、ERNIE四、GPT—transformer的decoder

POJ 1734 Sightseeing trip

人工智能如何有效地運用于自然語言處理