
為什麼需要實體識别
普通的工具如hanlp,htp,不能識别特定領域的專有名詞,是以需要實體識别的算法。下面就以醫療專業為例子來談一下醫療專業的命名實體識别。
标注
- 人工标注
- 機器标注bootstrapping,例如給文中的水果打标簽,給定“蘋果”,會自動把文中其他的“桃子”,“李子”等自動标注出來(百度)
- 醫療專業中标注比如:比如檢測手段“頭 ct”,“腔隙性腦梗死”是疾病,他們的關系是:檢測手段證明了疾病
- 先邊界識别 然後進行類别判定
例如醫療需要識别的命名實體的類型有疾病、疾病診斷分類、症狀、檢查、治療在這五類以及疾病和症狀的修飾資訊。;對應英文分别是(Disease)(Disease Type) (Symptom) (Test) (Treatment)
關系抽取研究主要關注這六類實體關系的抽取: 治療和疾病之間的關系, 比如治療施 加于疾病;
治療和症狀之間的關系, 比如為緩解症狀而施加的治療; 檢查和疾病之間的關系, 比如檢查證明疾 病;
檢查和症狀之間的關系, 比如檢查發現症狀; 疾病和症狀之間的關系, 比如疾病導緻症狀;
疾病和疾病診 斷分類之間的關系, 該關系表示疾病的進展程度。
關系抽取研究主要關注這六類實體關系的抽取: 治療和疾病之間的關系, 比如治療施 加于疾病;
治療和症狀之間的關系, 比如為緩解症狀而施加的治療; 檢查和疾病之間的關系, 比如檢查證明疾 病;
檢查和症狀之間的關系, 比如檢查發現症狀; 疾病和症狀之間的關系, 比如疾病導緻症狀;
疾病和疾病診 斷分類之間的關系, 該關系表示疾病的進展程度。
- 修飾
分别是否認(absent)、非患者本人(family)、目前的(present)、有條件的 (conditional)、可能的(possible)、待證明的(hypothetical)、偶有的(occasional)
中文電子病曆命名實體和實體關系标注體系及語料庫建構 9 在是否發生患者本人這個方面有兩個修飾:
(1)否認: 患者主動否認、或肯定不發生于患者身上。 比如: 各瓣膜區未聞及病理性雜音。 全腹無壓痛、反跳痛及肌緊張。 腹壁靜脈曲張: 無
(2)非患者本人: 發生于患者家屬, 該種修飾可能和“否認”重疊, 若發生此種情況, 選擇否認。 比如: 其父母均患有糖尿病 在發生于患者本人的确定程度這個方面有五個修飾:
(3)目前的: 肯定發生或正在發生于患者本人的疾病和症狀。 比如: 頭暈、嘔吐伴右下肢無力。 自訴有冠心病史。 頭CT示:雙側多發腔梗。
(4)有條件的: 目前不一定發生, 在某種條件具備的情況下, 才發生。 比如: 該患者于入院前3個月開始出現陣發性胸悶、心慌, 常于飲酒後出現。
(5)可能的: 不确定目前會發生, 需要進一步的證據才能确定。 比如: 不排除缺血性疾病。 右肺中下葉考慮創傷性濕肺。 臨床初步診斷: 腦梗死、高血壓病、糖尿病。
(6)待證明的: 目前不會發生, 但預期會發生。 比如: 手術一周後會有局部瘙癢 多在皮疹出現後1~4周左右出現血尿和 (或) 蛋白尿。
(7)偶有的: 指症狀或者疾病目前不經常出現, 或者出現的頻率較低。 比如: 病程中患者走路不穩, 偶有頭暈。 大便偶有一過性發白。 時有胸悶氣短。
3.1疾病 DIS,DISEASE
疾病必須是能夠治療的,其語義範圍包括:疾病或者綜合征、受傷或中毒、先天性畸形、病毒細菌、病理功能、細胞或分子功能障礙、獲得性異常、解剖異常、惡性良性腫瘤程序、精神或行為障礙等。
1。1。1 疾病診斷分型 DT, DISEASE TYPE
疾病的具體分類,表示疾病的進展程度,疾病診斷分類一般出現在診斷裡。如:
1)失代償期 DT
2)III期DT
3)II型 DT
3.2 症狀
症狀是能夠被改善或治愈的,并且能夠被否定詞修飾,為疾病的表現。包括患者向醫生陳述的不适感覺(症狀)和醫生觀察到的(體征)或者檢查結果,如:
3.2.1患者向醫生陳述的不适感覺(症狀) SYM,SYMPTOM
1)疼痛時伴有右下肢活動受限。(“疼痛“ 、”右下肢活動受限”);
2)伴活動後心慌氣短。(“心慌”、“氣短”)
3.2.2醫生觀察到的(體征)ST
1)雙肺聽診可聞及少量痰鳴音。(“痰鳴音”)
2)自帶胸片示左下肺症病變。(“左下肺症病變”)
3)雙肺聽診無著征。(“著征”)
3.3 檢查 TES,TEST
檢查是為了發現、證明疾病或症狀,找到更多關于疾病或症狀的資訊而施加給患者的檢查項目,包括:化驗過程,診斷過程等。如:
1)頭CT顯示腦實質内高密度竈。(“CT”)
2)血壓最高達到180/130mmHg。(“血壓”)
3)雙肺聽診無著征。(“聽診”)
4)自帶胸片示左下肺症病變。(“胸片”)
3.4 治療
治療是能夠治療疾病或者緩解症狀而施加給患者的手段,包括手術、藥品、措施等。本标注語義類型包括:藥物、手術。如:
3.4.1藥品 DRU,DRUG
1)奧紮格雪、腦蛋白水解物等靜點 (藥物“奧紮格雪”和“腦蛋白水解物”)。
3.4.2手術 SUR,SURGERY
1)4年前行膽囊切除術。(手術“膽囊切除術”)
2)鼻内鏡下行雙篩、雙上颌窦。(手術“鼻内鏡”)
3.4.3措施(非手術,非藥品的治療) PRE,precaution
3.5實體修飾詞标注
3.5.1 否認詞(AT,,absent)标注:
各瓣膜區未聞及病理性雜音
全腹無壓痛、反跳痛及肌緊張
3.5.2條件詞(CL,conditional)标注:
在某種條件具備的情況下才發生的詞。
比如:該患者于入院前3個月開始出現陣發性胸悶、心慌,常于飲酒後出現。
再如:吃蕃薯後血糖升高
3.5.3既往資訊詞(PT,past)
明确表示患者過去有過的治療史或疾病症狀,比如:
有多年心髒病史。
該患者于入院前3個月開始出現陣發性胸悶、心慌,常于飲酒後出現。
3.5.4時間标注統一标為TE
該患者于入院前3個月開始出現陣發性胸悶、心慌,常于飲酒後出現。
3.5.5!!可能性詞:
不确定目前會發生,需要進一步的證據确認的詞。如:
不排除缺血性疾病。/右肺中下葉考慮創傷性濕肺
待證明詞:目前不會發生,但預期會發生。比如:
手術一周後會有局部瘙癢
3.5.6程度詞标注(AM,AMOUNT),非量化的數量描述詞,如大小、多少、程度(明顯等)等
雙肺聽診可聞及少量痰鳴音。
3.5.7解剖位置
器官(REG,REGION)
部位詞(ORG,ORGEN)
3.5.8頻率詞 (FW,Frequency Word)
患者走路不穩,偶有頭暈。時有胸悶氣短。
反複胸悶,憋氣,持續時間長短不等。
标注格式: 突發 AM 頭暈 SYM 伴 O 惡心 SYM 嘔吐 SYM 3小時 TE
分類标簽id化
用BIESO來表示邊界,大緻可以分為如下标簽,分别表示(開始,中間,結束,單個,其他) 也可以用BIO進行邊界
對資料進行标注
分為訓練集和測試集
設定配置參數
{
"model_type": "idcnn",特征抽取的模型
"num_chars": 3538,語料庫的實體數目
"char_dim": 100,每個字的次元,embedding,把3538次元進行降維
"num_tags": 51,标記的種類數目
"seg_dim": 20,把邊界BIOES增維,變成20維,上采樣,是以每個字是120次元,使得邊界資訊更加豐富
"lstm_dim": 100,120次元,卷積之後的通道數
"batch_size": 20,
"emb_file": "/usr/zxy/NER_IDCNN_CRF/data/vec.txt",
"clip": 5,防止梯度爆炸
"dropout_keep": 0.5,
"optimizer": "adam",
"lr": 0.001,
"tag_schema": "iobes",
"pre_emb": true,預序列嵌入,embeding檔案
"zeros": true,
"lower": false字母小寫
}