天天看點

跟我讀論文丨ACL2021 NER 子產品化互動網絡用于命名實體識别

摘要:本文是對ACL2021 NER 子產品化互動網絡用于命名實體識别這一論文工作進行初步解讀。

本文分享自華為雲社群《ACL2021 NER | 子產品化互動網絡用于命名實體識别》,作者: JuTzungKuei 。

論文: Li Fei, Wang Zheng, Hui Siu Cheung, Liao Lejian, Song Dandan, Xu Jing, He Guoxiu, Jia Meihuizi. Modularized Interaction Network for Named Entity Recognition [A]. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) [C]. Online: Association for Computational Linguistics, 2021, 200–209.

連結:https://aclanthology.org/2021.acl-long.17.pdf

代碼:無

跟我讀論文丨ACL2021 NER 子產品化互動網絡用于命名實體識别

0、摘要

  • 現有NER模型缺點
    • 基于序列标注的NER模型:長實體識别不佳,隻關注詞級資訊
    • 基于分段的NER模型:處理分段,而非單個詞,不能捕獲分段中的詞級依賴關系
  • 邊界檢測和類型預測可以互相配合,兩個子任務可共享資訊,互相加強
  • 提出子產品化互動網絡模型MIN(Modularized Interaction Network)
    • 同時利用段級資訊和詞級依賴關系
    • 結合一種互動機制,支援邊界檢測和類型預測之間的資訊共享
  • 三份基準資料集上達到SOTA

1、介紹

  • NER:查找和分類命名實體,person (PER), location

    (LOC) or organization (ORG),下遊任務:關系抽取、實體連結、問題生成、共引解析

  • 兩類方法
    • 序列标注 sequence labeling:可捕獲詞級依賴關系
    • 分段 segment(a span of words):可處理長實體
  • NER:檢測實體邊界和命名實體的類型,
    • 分成兩個子任務:邊界檢測、類型預測
    • 兩個任務之間是相關的,可以共享資訊
  • 舉栗:xx來自紐約大學
    • 如果知道大學是實體邊界,更可能會預測類型是ORG
    • 如果知道實體有個ORG類型,更可能會預測到“大學”邊界
  • 上述兩個常用方法沒有在子任務之間共享資訊
    • 序列标注:隻把邊界和類型當做标簽
    • 分段:先檢測片段,再劃分類型
  • 本文提出MIN模型:NER子產品、邊界子產品、類型子產品、互動機制
    • 指針網絡作為邊界子產品的解碼器,捕捉每個詞的段級資訊
    • 段級資訊和詞級資訊結合輸入到序列标注模型
    • 将NER劃分成兩個任務:邊界檢測、類型預測,并使用不同的編碼器
    • 提出一個互相加強的互動機制,所有資訊融合到NER子產品
    • 三個子產品共享單詞表示,采用多任務訓練
  • 主要貢獻:
    • 新模型:MIN,同時利用段級資訊和詞級依賴
    • 邊界檢測和類型預測分成兩個子任務,結合互動機制,使兩個子任務資訊共享
    • 三份基準資料集達到SOTA

2、方法

跟我讀論文丨ACL2021 NER 子產品化互動網絡用于命名實體識别
  • NER子產品:RNN-BiLSTM-CRF,引用Neural architectures for named entity recognition
    • 詞表示:word(BERT) + char(BiLSTM)
    • BiLSTM編碼:雙向LSTM,互動機制代替直接級聯,門控函數動态控制
跟我讀論文丨ACL2021 NER 子產品化互動網絡用于命名實體識别

最終NER輸出:H^{NER}=W^T[H;H^B;H^T;H^S] + bHNER=WT[H;HB;HT;HS]+b

H^{Bdy}HBdy表示邊界子產品輸出,H^{Type}HType表示類型子產品輸出,H^{Seg}HSeg表示分段資訊

    • CRF解碼:轉移機率 + 發射機率
  • 邊界子產品:雙向LSTM編碼H^{Bdy}HBdy,單向LSTM解碼
    • 解碼:

      s_j=h_{j-1}^{Bdy}+h_{j}^{Bdy}+h_{j+1}^{Bdy}sj​=hj−1Bdy​+hjBdy​+hj+1Bdy​

      d_j=LSTM(s_j, d_{j-1})dj​=LSTM(sj​,dj−1​)

    • Biaffine Attention機制:
跟我讀論文丨ACL2021 NER 子產品化互動網絡用于命名實體識别
跟我讀論文丨ACL2021 NER 子產品化互動網絡用于命名實體識别
  • 類型子產品:BiLSTM + CRF
  • 互動機制:
    • self attention 得到标簽增強的邊界H^{B-E}HB−E,類型H^{T-E}HT−E
    • Biaffine Attention 計算得分 \alpha^{B-E}αB−E
    • 互動後的邊界:r_i^{B-E}=\sum_{j=1}^{n}\alpha_{i,j}^{B-E}h_j^{T-E}riB−E​=∑j=1n​αi,jB−E​hjT−E​
    • 更新後的邊界:\overline{h}_i^{Bdy}=[h_i^{B-E},r_i^{B-E}]hiBdy​=[hiB−E​,riB−E​]
    • 更新後的類型:\overline{h}_i^{Type}=[h_i^{T-E},r_i^{T-E}]hiType​=[hiT−E​,riT−E​]
  • 聯合訓練:多任務
    • 每個任務的損失函數
跟我讀論文丨ACL2021 NER 子產品化互動網絡用于命名實體識别
    • 最終損失函數:\mathcal{L}=\mathcal{L}^{NER}+\mathcal{L}^{Type}+\mathcal{L}^{Bdy}L=LNER+LType+LBdy

3、結果

  • Baseline (sequence labeling-based)
    • CNN-BiLSTM-CRF
    • RNN-BiLSTM-CRF
    • ELMo-BiLSTM-CRF
    • Flair (char-BiLSTM-CRF)
    • BERT-BiLSTM-CRF
    • HCRA (CNN-BiLSTM-CRF)
  • Baseline (segment-based)
    • BiLSTM-Pointer
    • HSCRF
    • MRC+BERT
    • Biaffine+BERT
跟我讀論文丨ACL2021 NER 子產品化互動網絡用于命名實體識别

号外号外:想了解更多的AI技術幹貨,歡迎上華為雲的AI專區,目前有AI程式設計Python等六大實戰營供大家免費學習。

點選關注,第一時間了解華為雲新鮮技術~

繼續閱讀