摘要:本文是對ACL2021 NER 子產品化互動網絡用于命名實體識别這一論文工作進行初步解讀。
本文分享自華為雲社群《ACL2021 NER | 子產品化互動網絡用于命名實體識别》,作者: JuTzungKuei 。
論文: Li Fei, Wang Zheng, Hui Siu Cheung, Liao Lejian, Song Dandan, Xu Jing, He Guoxiu, Jia Meihuizi. Modularized Interaction Network for Named Entity Recognition [A]. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) [C]. Online: Association for Computational Linguistics, 2021, 200–209.
連結:https://aclanthology.org/2021.acl-long.17.pdf
代碼:無
0、摘要
- 現有NER模型缺點
- 基于序列标注的NER模型:長實體識别不佳,隻關注詞級資訊
- 基于分段的NER模型:處理分段,而非單個詞,不能捕獲分段中的詞級依賴關系
- 邊界檢測和類型預測可以互相配合,兩個子任務可共享資訊,互相加強
- 提出子產品化互動網絡模型MIN(Modularized Interaction Network)
- 同時利用段級資訊和詞級依賴關系
- 結合一種互動機制,支援邊界檢測和類型預測之間的資訊共享
- 三份基準資料集上達到SOTA
1、介紹
-
NER:查找和分類命名實體,person (PER), location
(LOC) or organization (ORG),下遊任務:關系抽取、實體連結、問題生成、共引解析
- 兩類方法
- 序列标注 sequence labeling:可捕獲詞級依賴關系
- 分段 segment(a span of words):可處理長實體
- NER:檢測實體邊界和命名實體的類型,
- 分成兩個子任務:邊界檢測、類型預測
- 兩個任務之間是相關的,可以共享資訊
- 舉栗:xx來自紐約大學
- 如果知道大學是實體邊界,更可能會預測類型是ORG
- 如果知道實體有個ORG類型,更可能會預測到“大學”邊界
- 上述兩個常用方法沒有在子任務之間共享資訊
- 序列标注:隻把邊界和類型當做标簽
- 分段:先檢測片段,再劃分類型
- 本文提出MIN模型:NER子產品、邊界子產品、類型子產品、互動機制
- 指針網絡作為邊界子產品的解碼器,捕捉每個詞的段級資訊
- 段級資訊和詞級資訊結合輸入到序列标注模型
- 将NER劃分成兩個任務:邊界檢測、類型預測,并使用不同的編碼器
- 提出一個互相加強的互動機制,所有資訊融合到NER子產品
- 三個子產品共享單詞表示,采用多任務訓練
- 主要貢獻:
- 新模型:MIN,同時利用段級資訊和詞級依賴
- 邊界檢測和類型預測分成兩個子任務,結合互動機制,使兩個子任務資訊共享
- 三份基準資料集達到SOTA
2、方法
- NER子產品:RNN-BiLSTM-CRF,引用Neural architectures for named entity recognition
- 詞表示:word(BERT) + char(BiLSTM)
- BiLSTM編碼:雙向LSTM,互動機制代替直接級聯,門控函數動态控制
最終NER輸出:H^{NER}=W^T[H;H^B;H^T;H^S] + bHNER=WT[H;HB;HT;HS]+b
H^{Bdy}HBdy表示邊界子產品輸出,H^{Type}HType表示類型子產品輸出,H^{Seg}HSeg表示分段資訊
- CRF解碼:轉移機率 + 發射機率
- 邊界子產品:雙向LSTM編碼H^{Bdy}HBdy,單向LSTM解碼
-
解碼:
s_j=h_{j-1}^{Bdy}+h_{j}^{Bdy}+h_{j+1}^{Bdy}sj=hj−1Bdy+hjBdy+hj+1Bdy
d_j=LSTM(s_j, d_{j-1})dj=LSTM(sj,dj−1)
- Biaffine Attention機制:
- 類型子產品:BiLSTM + CRF
- 互動機制:
- self attention 得到标簽增強的邊界H^{B-E}HB−E,類型H^{T-E}HT−E
- Biaffine Attention 計算得分 \alpha^{B-E}αB−E
- 互動後的邊界:r_i^{B-E}=\sum_{j=1}^{n}\alpha_{i,j}^{B-E}h_j^{T-E}riB−E=∑j=1nαi,jB−EhjT−E
- 更新後的邊界:\overline{h}_i^{Bdy}=[h_i^{B-E},r_i^{B-E}]hiBdy=[hiB−E,riB−E]
- 更新後的類型:\overline{h}_i^{Type}=[h_i^{T-E},r_i^{T-E}]hiType=[hiT−E,riT−E]
- 聯合訓練:多任務
- 每個任務的損失函數
- 最終損失函數:\mathcal{L}=\mathcal{L}^{NER}+\mathcal{L}^{Type}+\mathcal{L}^{Bdy}L=LNER+LType+LBdy
3、結果
- Baseline (sequence labeling-based)
- CNN-BiLSTM-CRF
- RNN-BiLSTM-CRF
- ELMo-BiLSTM-CRF
- Flair (char-BiLSTM-CRF)
- BERT-BiLSTM-CRF
- HCRA (CNN-BiLSTM-CRF)
- Baseline (segment-based)
- BiLSTM-Pointer
- HSCRF
- MRC+BERT
- Biaffine+BERT
号外号外:想了解更多的AI技術幹貨,歡迎上華為雲的AI專區,目前有AI程式設計Python等六大實戰營供大家免費學習。
點選關注,第一時間了解華為雲新鮮技術~