天天看點

首個中文醫療NLP挑戰正式開榜啦!

各位開發者們,有沒有遇到過算法才思泉湧但無資料驗證的困境?或是論文方向确定但沒算力支援檢測模型得分的問題?别怕,天池資料集最新推出了打榜的功能,第一彈就聚集了8大優質醫療NLP資料集,讓我們一起來看看吧。

中文醫療資訊處理挑戰榜CBLUE(Chinese Biomedical Language Understanding Evaluation)是中國中文資訊學會醫療健康與生物資訊處理專業委員會在合法開放共享的理念下發起,由阿裡雲天池平台承辦,并由醫渡雲(北京)技術有限公司、平安醫療科技、誇克、北京大學、鄭州大學、鵬城實驗室、哈爾濱工業大學(深圳)、同濟大學等開展智慧醫療研究的機關共同協辦,旨在推動中文醫學NLP技術和社群的發展。

CBLUE自2021年4月1日起上線,排行榜每日8點統一更新排名。每個月定期評出王者、星耀和鑽石,以每月最後一天上午8點的排名結果為準(如2021年4月以4月30日上午8點排名結果為準)。其中王者有一隊,為第一名;星耀有兩隊,為第二名和第三名;鑽石有三隊,為第四名、第五名和第六名。以上排位獲得不同禮品。

作為首個中文醫療資訊處理挑戰,CBLUE覆寫了8大醫療NLP任務,在吸收往屆CHIP學術評測的同時也适當增加了業界資料集,業務資料集的特點是資料真實且有噪音,對模型的魯棒性提出了更高的要求。下面介紹下CBLUE榜單所包含的資料集。

CMeEE

資料集全稱是Chinese Medical Entity Extraction,由“北京大學”、“鄭州大學”、“鵬城實驗室”和“哈爾濱工業大學(深圳)”聯合提供,這是一個标準的NER識别任務,共包括9大類實體:疾病(dis),臨床表現(sym),藥物(dru),醫療裝置(equ),醫療程式(pro),身體(bod),醫學檢驗項目(ite),微生物類(mic),科室(dep)。和傳統NER略有不同的是,實體之間存在嵌套關系,嵌套實體是醫學文本中常見的現象,是以在模型處理上要比常用的NER模型複雜。

CMeIE

資料集全稱是Chinese Medical Information Extraction,與CMeEE的資料提供方一樣。這是一個關系抽取任務,共包括53類關系類型(具體類型參加官網介紹),從關系種類數量來看,這是一個比較難的任務。與傳統的關系抽取任務有兩處不同: 1. 預測階段并沒有事先給出要判定關系類型的實體,輸入就是原始的文本,是以選手需要同時處理實體識别和關系抽取,可以看作是一個端對端的關系抽取任務;2. 訓練資料中的實體并沒有給出具體的下标,如果一個實體在句子中多次出現,這個任務的難點是無法得知關系中的實體具體是指哪一個實體。

此外這個任務的标注資料還提供了一些額外的資訊,如“Combined”字段表示兩個實體是否出現在同一個句子中,true表示兩個實體分布在跨句子中,false表示分布在同一個實體中。跨句子的關系抽取一直是關系抽取中較難解決的問題。總體上這個任務的難度較大,特别希望看到刷榜選手有好的解決思路。

CHIP-CDN

資料集全稱是CHIP - Clinical Diagnosis Normalization dataset,是由醫渡雲(北京)技術有限公司提供的。字首CHIP[2]表示中國健康資訊處理會議,全稱是China Health Information Processing Conference,是由CBLUE榜單的發起機關中國中文資訊學會(CIPS)醫療健康與生物資訊處理專業委員會主辦的關于醫療、健康和生物資訊處理和資料挖掘等技術的年度會議,是中國健康資訊處理領域最重要的學術會議之一。這是一個标準的實體标準化/歸一化任務,将給定的實體映射到标準字典(ICD10)上,是一個非常真實的醫學臨床的任務。

這個任務的難點由于醫學表達過于多樣,要預測的詞彙可能會存在多個歸一詞條,如資料集例子中給出的“右肺結節轉移可能大” -> “肺占位性病變##肺繼發惡性惡性良性腫瘤##轉移性惡性良性腫瘤”,應該需要融入醫學知識才能更好的解決這個問題。

CHIP-CTC

資料集全稱是CHiP - Clinical Trial Criterion dataset,是由同濟大學生命科學與技術學院提供。是一個典型的端文本多分類問題,共有44個類别(具體類别請參照天池官網)。按照筆者的經驗,多分類問題最大的難點是要解決樣本分布不均勻的問題,刷榜選手需要關注下樣本分布比例問題。

CHIP-STS

資料集全稱是CHIP - Semantic Textual Similarity dataset,是由平安醫療科技提供。是一個典型的語義相似度判斷問題,共包含5大類疾病,0/1兩類标簽。這個任務應該不太難。

KUAKE-QIC

資料集全稱是KUAKE-Query Intention Classification,是由誇克公司提供。也是一個文本分類問題,共有11種分類(具體分類請檢視天池官網),這個任務的難點會是輸入均來自于真實的使用者query,存在一定的噪音。

KUAKE-QTR

資料集全稱是KUAKE-Query Title Relevance dataset,也是由誇克公司提供。和CHIP-STS類似,是一個典型的Query-Title match問題,隻不過是一個4分類問題(共0~3分 4檔)。筆者看了下例子,部分例子還是比較難,如“Q=大腿軟組織損傷怎麼辦,T=腿部軟組織損傷怎麼辦”,這對Q-T的相關性是2分而非3分,因為“大腿”是“腿部”的一個子集,這類任務應該要融入醫學知識來能做到更好的性能。

KUAKE-QQR

資料集全稱是KUAKE-Query Query Relevance dataset,也是由誇克公司提供。和KUAKE-QTR類似,是一個典型的Query-Query match問題,是一個3分類問題(共0~2分 3檔)。任務的難點同KUAKE-QTR,需要融入醫學知識和常識來能做到更好的性能,如這個例子“Q1=石榴上火麼, Q2=吃芭樂上火嗎”,相關度是0分,官方給的解釋是“石榴和芭樂”是兩種完全不同的水果。網際網路語料的豐富度是幾個KUAKE字首任務都要面臨的問題。

總體來看,8個任務覆寫了NLP領域大部分類型的問題,包括序列标注、文本分類和句子關系判定,因為這是一個LUE(Language Understanding)榜單,是以沒有出現文本生成的任務。任務類型豐富,均貼近實際應用,部分任務(如CMeIE關系抽取)很有難度。歡迎業界和學術界的同行們一起加入到CBLUE benchmark的建設中,一起來推動醫療行業标準資料集的發展。

詳情請參見

資料集專題頁

資料集詳情頁

。更多活動資訊和動态,請掃描下方二維碼加入官方釘群後獲得。也可以發送需求郵件到[email protected]。期待你的加入和建議!

首個中文醫療NLP挑戰正式開榜啦!

繼續閱讀