天天看點

NAACL| 基于标簽感覺的雙遷移學習在醫學命名實體識别中的應用

本期給大家介紹上海交通大學APEX資料和知識管理實驗室俞勇教授課題組發表在NAACL的文章“Label-aware Double Transfer Learning for Cross-Specialty Medical Named Entity Recognition”。該文章提出了一種跨領域的實體識别方法——标簽感覺雙遷移學習架構(La-DTL),使得為某一領域設計的醫療命名實體識别(NER)系統能夠以最小的标注量遷移應用到另一領域。同時,該方法在非生物醫學領域的實體識别任務上也取得了很好的效果。

NAACL| 基于标簽感覺的雙遷移學習在醫學命名實體識别中的應用

1

主要思想

電子健康記錄(EHR)包含了關于患者和臨床實踐的詳細資訊,是最有價值和資訊量最大的資料之一。大多數電子病曆是以非結構化的形式記錄的,是以,利用NLP技術從電子病曆中提取結構化資訊是很重要的。本文關注的是來自EHRs醫療内科的實體識别任務。在實踐中,不同專業、不同醫院之間的醫學術語和表達方式多種多樣,且資料隐私問題阻礙不同專業或醫院共享資料,為這麼多專業單獨建立NER系統的成本很高。是以本文針對這些問題提出,能否建立一個通用的NER模型,使得不同專業的資料都能使用這一個NER模型。

本文提出了一種新的NER遷移學習架構,即标簽感覺雙遷移學習(La-DTL):(1)利用雙向長短期記憶網絡(Bi-LSTM)自動學習文本表示,并在此基礎上進行标簽感覺的特征表示遷移。同時提出了一種最大平均差異(MMD)的變體,即标簽感覺最大平均差異(La-MMD),以顯式地減少具有相同标簽的表征在兩個領域之間的差異。(2)基于從Bi-LSTM學習的特征表示,分别對源域和目标域執行兩種條件随機場(CRF)模型,并進行參數遷移學習。La-DTL模型架構如圖1:

NAACL| 基于标簽感覺的雙遷移學習在醫學命名實體識别中的應用

2

方法

文中提出的遷移學習架構的基礎主要由:Bi-LSTM、CRF和MMD這三個部分組成。La-DTL模型将每個輸入句子轉換為一系列嵌入向量,然後送入Bi-LSTM,依次将上下文資訊編碼成固定長度的隐向量。嵌入層和Bi-LSTM層在源/目标域之間共享。利用标簽感覺最大均值差異(La-MMD)來減小兩個域之間的特征表示差異,将隐藏向量直接饋送到源/目标域特定的CRF層來預測标簽序列,并使用域限制CRF層來提高目标域性能。

整個模型的學習目标是調整參數,進而最小化損失函數L。La-LSTM的損失函數是由CRF的損失函數LC,La-MMD的損失函數LLa-MMD,CRF層上的參數相似度損失Lp和正則化項Lr線性組合起來的:

NAACL| 基于标簽感覺的雙遷移學習在醫學命名實體識别中的應用

考慮到一個詞在不同标簽上的條件分布不均勻,可能會導緻來自不同領域的特征的區分性不同,這意味着接近的源樣本和目标樣本可能具有不同的标簽。是以,作者提出了标簽感覺的MMD(La-MMD),明确減少具有相同标簽的隐藏表示之間的差異。對于每個标簽分類y,計算具有相同标簽y的源/目标樣本的隐藏表示之間的平方總和。一旦将這個La-MMD應用到從Bi-LSTM學習的表示中,來自不同域的具有相同标簽的執行個體的表示分布應該是接近的。然後,具有簡單線性結構的标準CRF層将這些相似的表示作為輸入,對具有相同标簽的實體,可能會給出更具轉移性的标簽描述。

NAACL| 基于标簽感覺的雙遷移學習在醫學命名實體識别中的應用

圖2 La-MMD處理不同領域相同标簽的實體原理

當源/目标資料分散分布時,簡單地共享CRF層是不可能的。文章又提出了一種新的機率分解方法。為了在源/目标CRF層上傳輸,無論是減小目标域預測到源域機率的相對熵,還是直接還原源域機率到目标域都十分困難。是以作者傾向于降低它的上界,最小化CRF參數來進行傳遞。結果表明,具有相似參數的兩個CRF模型(在歐氏空間)産生相似的輸出分布。作者的方法保證了模型行為級别的可移植性,而以往的工作僅限于參數級别。

NAACL| 基于标簽感覺的雙遷移學習在醫學命名實體識别中的應用

圖3 CRF标簽感覺參數傳遞

作者用小批量AdaGrad以端到端的方式訓練La-DTL。一個小批量包含來自兩個領域的訓練樣本。在訓練期間,将微調單詞(和字元)嵌入以調整實際資料分布。在CRF層的訓練和解碼(測試)過程中,使用動态規劃來計算方程中的标準化,并推導出标簽序列。

3

實驗

作者基于真實資料集對La-DTL和其他基線方法:在12個跨專業NER問題上的性能進行了評估。實驗結果表明,La-DTL在所有任務中的性能穩定地優于其他基線模型。同時進行了進一步的消融研究和穩健性檢驗,并評估了La-DTL在另外兩個非醫療NER轉移任務上的有效性,以驗證其在廣泛應用中的普遍有效性。

3.1 資料集

文章收集了一個中國醫學語料庫(CM-NER)進行實驗。該語料庫收錄了該校附屬醫院四個科室的1600名未确認的EHR,分别來自四個科室:心内科(500名)、呼吸科(500名)、神經内科(300名)和消化科(300名)。命名圖元以BIOES格式(BEGIN、INTERNAL、OUTER、END和SINGLE)進行标注,共有30種類型。CM-NER的統計如表1所示

NAACL| 基于标簽感覺的雙遷移學習在醫學命名實體識别中的應用

3.2 基準線

為了進行公平的比較,作者使用相同的基本模型實施La-DTL和Baseline,但使用不同的傳輸技術。

Non-transfer:僅使用目标域标記資料。

Domain mask和Linear projection:屬于相同的架構,但在投影層有不同的實作,旨在通過線性變換産生不同領域之間的共享特征表示。

Re-training:一個人工神經網絡(ANNs),首先在源域上訓練,然後在目标域上重新訓練。

Joint-training:不同的任務資料聯合訓練。

CD-learning:一種跨域學習方法,其中每個源域訓練樣本的學習率都被重新權重。

3.3 實驗設定與結果

作者使用23,217份未标記的臨床記錄,使用Skipgram模型在128個次元上訓練單詞嵌入(Word2vec)(。對于字級Bi-LSTM,隐藏狀态大小被設定為200。使用CM-NER在12個遷移任務中評估了跨專業NER的La-DTL,結果如表2所示。對于每個任務,取整個源域訓練集和10%的目标域訓練集訓練資料。使用目标域中的開發集來搜尋包括訓練集在内的超參數。然後将模型在目标領域測試集上進行預測,并以F1-Score作為評價名額。

NAACL| 基于标簽感覺的雙遷移學習在醫學命名實體識别中的應用

圖2 C、R、N、G分别是心髒科、呼吸科、神經科和消化科的縮寫

為了更好地了解LaDTL的可移植性,作者評估了LaDTL的三個變體:LA-MMD、CRF-L2和MMD-CRF-L2。LA-MMD和CRF-L2與La-DTL具有相同的網絡和損失函數,但具有不同的建構塊:LA-MMD的β=0,而CRF-L2的α=0。在MMD-CRF-L2中,La-DTL中的LLa-MMD損失被替換為MMD損失。

3.4 消融研究和穩健性研究

文章進一步研究了C→R任務中La-DTL的稀疏性問題(目标域),并與聯合訓練和非遷移方法進行了比較。在目标領域訓練集上對不同資料量(采樣率分别為10%、25%、50%、100%)的La-DTL算法進行了評估。結果如圖4(A)所示。結果表面La-DTL在所有情況下都優于聯合訓練和非轉移結果,并且當采樣率較低時,LaDTL的改善更為顯著。

為了證明La-DTL的收斂性比聯合訓練更優,作者用10個随機種子重複了10次10%的抽樣率實驗。圖4(B)顯示了兩種具有95%置信區間的方法在目标領域開發集上的F1得分,其中La-DTL的表現明顯優于聯合訓練方法。

NAACL| 基于标簽感覺的雙遷移學習在醫學命名實體識别中的應用

作者還研究了La-DTL中的三個關鍵超參數:α,β和ε在目标域采樣率為10%的C-→R任務中的影響。然後固定兩個超參數對第三個參數進行細粒度測試,結果如圖5所示。從圖中可以看成,需要平衡源域和目标域的學習目标才能獲得更好的可移植性。

NAACL| 基于标簽感覺的雙遷移學習在醫學命名實體識别中的應用

此外,作者還在非醫療資料集上做了遷移實驗,最終實驗結果表明,La-DTL性能要明顯優于非遷移學習和聯合訓練模型。

4

總結

本文提出了一個标簽感覺的雙遷移學習架構La-DTL,用于跨專科醫療NER任務的Bi-LSTM特征表示遷移和帶标簽感覺限制的CRF參數遷移。這是醫學實體識别在跨專業情景下遷移學習的第一項工作。在12個跨專業NER任務上的實驗表明,La-DTL模型取得了很好的效果。作者進一步在不同的目标域資料大小、超參數學習等非醫學NER任務上進行了實驗,結果表明La-DTL算法具有很強的魯棒性和廣泛的有效性。在未來的工作中,可以計劃聯合進行NER和實體連結,以更好地提取跨專業的媒體結構資訊。

繼續閱讀