天天看點

論文解讀:ACL2021 NER | 基于模闆的BART命名實體識别

摘要:本文是對ACL2021 NER 基于模闆的BART命名實體識别這一論文工作進行初步解讀。

本文分享自華為雲社群《ACL2021 NER | 基于模闆的BART命名實體識别》,作者: JuTzungKuei 。

論文:Cui Leyang, Wu Yu, Liu Jian, Yang Sen, Zhang Yue. TemplateBased Named Entity Recognition Using BART [A]. Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021 [C]. Online: Association for Computational Linguistics, 2021, 1835–1845.

連結:https://aclanthology.org/2021.findings-acl.161.pdf

代碼:https://github.com/Nealcly/templateNER

論文解讀:ACL2021 NER | 基于模闆的BART命名實體識别

0、摘要

  • 小樣本NER:源領域資料多,目标領域資料少
  • 現有方法:基于相似性的度量
    • 缺點:不能利用模型參數中的知識進行遷移
  • 提出基于模闆的方法
    • NER看作一種語言模型排序問題,seq2seq架構
    • 原始句子和模闆分别作為源序列和模闆序列,由候選實體span填充
    • 推理:根據相應的模闆分數對每個候選span分類
  • 資料集
    • CoNLL03 富資源
    • MIT Movie、MIT Restaurant、ATIS 低資源

1、介紹

  • NER:NLP基礎任務,識别提及span,并分類
  • 神經NER模型:需要大量标注資料,新聞領域很多,但其他領域很少
    • 理想情況:富資源 知識遷移到 低資源
    • 實際情況:不同領域實體類别不同
    • 訓練和測試:softmax層和crf層需要一緻的标簽
    • 新領域:輸出層必須再調整和訓練
  • 最近,小樣本NER采用距離度量:訓練相似性度量函數
    • 優:降低了領域适配
    • 缺:(1)啟發式最近鄰搜尋,查找最佳超參,未更新網絡參數,不能改善跨域執行個體的神經表示;(2)依賴源域和目标域相似的文本模式
    • 利用生成PLM的小樣本學習潛力,進行序列标注
    • BART由标注實體填充的預定義模闆微調
    • 實體模闆:<candidate_span> is a <entity_type> entity
    • 非實體模闆:<candidate_span> is not a named entity
  • 方法優點:
    • 可有效利用标注執行個體在新領域微調
    • 比基于距離的方法更魯棒,即使源域和目标域在寫作風格上有很大的差距
    • 可應用任意類别的NER,不改變輸出層,可持續學習
  • 第一個使用生成PLM解決小樣本序列标注問題
  • Prompt Learning(提示學習)

2、方法

論文解讀:ACL2021 NER | 基于模闆的BART命名實體識别

2.1、建立模闆

  • 将NER任務看作是seq2seq架構下的LM排序問題
  • 标簽集 entity_type:\mathbf{L}=\{l_1,...,l_{|L|}\}L={l1​,...,l∣L∣​},即{LOC, PER, ORG, …}
  • 自然詞:\mathbf{Y}=\{y_1,...,y_{|L|}\}Y={y1​,...,y∣L∣​},即{location, person, orgazation, …}
  • 實體模闆:\mathbf{T}^{+}_{y_k}=\text{<candidate\_span> is a location entity.}Tyk​+​=<candidate_span> is a location entity.
  • 非實體模闆:\mathbf{T}^{-}=\text{<candidate\_span> is not a named entity.}T−=<candidate_span> is not a named entity.
  • 模闆集合:\mathbf{T}=[\mathbf{T}^{+}_{y_1},...,\mathbf{T}^{+}_{y_{|L|}},\mathbf{T}^{-}]T=[Ty1​+​,...,Ty∣L∣​+​,T−]

2.2、推理

  • 枚舉所有的span,限制n-grams的數量1~8,每個句子有8n個模闆
  • 模闆打分:\mathbf{T}_{{y_k},x_{i:j}}=\{t_1,...,t_m\}Tyk​,xi:j​​={t1​,...,tm​}
論文解讀:ACL2021 NER | 基于模闆的BART命名實體識别
  • x_{i:j}xi:j​實體得分最高
  • 如果存在嵌套實體,選擇得分較高的一個

2.3、訓練

  • 金标實體用于建立模闆
    • 實體x_{i:j}xi:j​的類型為y_kyk​,其模闆為:\mathbf{T}^{+}_{y_k,x_{i:j}}Tyk​,xi:j​+​
    • 非實體x_{i:j}xi:j​,其模闆為:\mathbf{T}^{-}_{x_{i:j}}Txi:j​−​
  • 建構訓練集:
    • 正例:(\mathbf{X}, \mathbf{T}^+)(X,T+)
    • 負例:(\mathbf{X}, \mathbf{T}^-)(X,T−),随機采樣,數量是正例的1.5倍
  • 編碼:\mathbf{h}^{enc}=\text{ENCODER}(x_{1:n})henc=ENCODER(x1:n​)
  • 解碼:\mathbf{h}_c^{dec}=\text{DECODER}(h^{enc}, t_{1:c-1})hcdec​=DECODER(henc,t1:c−1​)
  • 詞t_ctc​的條件機率:p(t_c|t_{1:c-1},\mathbf{X})=\text{SOFTMAX}(\mathbf{h}_c^{dec}\mathbf{W}_{lm}+\mathbf{b}_{lm})p(tc​∣t1:c−1​,X)=SOFTMAX(hcdec​Wlm​+blm​)
    • \mathbf{W}_{lm} \in \mathbb{R}^{d_h\times |V|}Wlm​∈Rdh​×∣V∣
  • 交叉熵loss

3、結果

  • 不同模闆類型的測試結果
    • 選擇前三個模闆,分别訓練三個模型
論文解讀:ACL2021 NER | 基于模闆的BART命名實體識别
  • 實驗結果
    • 最後一行是三模型融合,實體級投票
論文解讀:ACL2021 NER | 基于模闆的BART命名實體識别

号外号外:想了解更多的AI技術幹貨,歡迎上華為雲的AI專區,目前有AI程式設計Python等六大實戰營供大家免費學習。

點選關注,第一時間了解華為雲新鮮技術~

繼續閱讀