
胸部X光檢查是最常見而且最具成本效益的醫學影像檢查之一。但是,胸部X光檢查的臨床診斷很具挑戰性,有時被認為比胸部CT成像更難診斷。過去一些有前景的工作已經被報道過,特别是最近在結核病(TB)分類方面的深度學習工作。由于隻有幾千張圖像被用于學習,在現實世界的醫療中,在胸部X光片的所有資料設定上,實作臨床相關的計算機輔助檢測和診斷(CAD)仍然是非常困難的,甚至是不可能的。
Openi 是迄今最大的公共胸部X射線資料集,由于隻有4143張正面視圖的胸部X光片,用于胸部疾病識别的深度神經網絡的性能受到嚴重限制。
在這個資料庫中,NIH提供了近期工作中使用資料集的一個增強版本(增加了6個疾病類别和更多的圖像),規模大約是Openi的正面胸部X光片數量的27倍。所有資料集是從美國國家衛生臨床中心的臨床PACS資料庫中提取出來的,其中包含了醫院所有正面胸部X光片的約60%。
參與這項工作的NIH研究員呂樂博士告訴新智元,胸部X光圖像去除病人敏感資訊工作量非常大, 類比于在Google Street View裡找到人臉和汽車牌照并把它模糊化。
據悉,釋出這些資料前,NIH的研究人員通過人工和機器将其仔細審查了至少7遍,最後NIH内部還找了十幾位博士生和醫生,将11萬張圖像肉眼過了兩遍。這都是為了讓全世界的研究人員更好的工作,就像呂樂博士說的那樣,“希望大家能夠喜歡并enjoy!”
NIH研究人員預期這個資料集相比以前的胸部X光片資料集更能夠代表真實的患者群體分布和現實中的臨床診斷挑戰。這個資料集的規模,從圖像總數和胸腔疾病頻率來看,也将會更好地促進深度神經網絡的訓練。
ChestX-ray資料集包含30,805名患者的112,120張正面視圖的X射線圖像,以及利用NLP從相關放射學報告挖掘的14類疾病的圖像标簽(每個圖像可以有多個标簽)。
資料集含有14類常見的胸部病理,包括肺不張、變實、浸潤、氣胸、水腫、肺氣腫、纖維變性、積液、肺炎、胸膜增厚、心髒肥大、結節、腫塊和疝氣,這是王瀟崧博士和Yifan Peng、呂樂博士等人CVPR 2017論文中列出的8中常見疾病的擴充(詳見下面ArXiv論文)。
需要注意的是,由于許多原因,原始的放射學報告(與這些胸部X射線研究相關)并不公開分享。文本挖掘疾病标簽的準确率預計>90%。
内容:
112120張正面視圖的胸部X片圖像,PNG格式,分辨率為1024 * 1024(在images檔案夾)
所有圖像的中繼資料(Data_Entry_2016.csv):圖像索引,标簽查找,跟蹤#,患者ID,患者年齡,患者性别,以及圖像位置。
約1000張圖像的邊框(BBox_List_2016.csv):圖像索引,标簽查找,Bbox [x,y,w,h]。[x y]是每個box的左上角的坐标。[w h]表示每個box的寬和高。
局限:
圖像标簽是利用NLP提取的,是以會出現一些錯誤的标簽,但NLP标簽的準确度估計為>90%。
疾病區域的邊界框(bounding boxes)數量非常有限。
胸部X線放射學報告預計不會被公開分享。我們鼓勵使用這個公共資料集的研究者和研究機構在以後的研究中共享“更新”的圖像标簽和/或新的邊界盒,可能這些是通過人工注釋的。
A:14類疾病的共同發生統計資料:
A. 2 chest X-ray資料集中14種胸部疾病的共生矩陣(co-occurrence matrix)
B. 常見胸部疾病的8個可視化執行個體(略)
C.一個樣本條目(請注意,原始的胸部x射線放射學報告是不公開分享的)
D.使用弱監督深度神經網絡的兩個疾病定位樣本
以下是呂樂博士今年5月GTC演講《建構真正大規模醫學圖像資料集:深度标簽發現和開放端識别》的部分PPT,從中可以了解到本次NIH公布的大規模胸部X光資料集背後的具體工作。
在診斷中整合機器的決策對人類醫生而言很難,好的醫生不願意用,不好的醫生不知道怎麼用。是以,必須要有更好的人機協作診斷過程。尤其是在精準醫療中,需要新的成像生物标記來更好的協助人類醫生做出精準的判斷,還需要具體到患者級别的相似度抽取系統,讓個性化診療成為可能。
與此相關的有三大關鍵,一是計算機輔助檢測和診斷,二是在醫療圖像分析中的語義分割,三是在真正大規模資料集上的深度資訊挖掘(包括文本和圖像)。
在攻克放射醫學問題的道路上,可用醫學圖像資料集稀少成了一個重大問題。而研究人員也一直緻力于提供更好的解決方案。
王瀟崧博士、Yifan Peng、、Hoo-chang Shin、呂樂博士等人一直在從事相關的研究。
下面這篇CVPR-17論文就是本次NIH公布的X光圖像資料集的基礎。
在現有成果的基礎上,我們也能看到未來的挑戰和研究方向:提升圖像标記的精度,提升多标簽分類的精度,以及提升定位的精度。
挑戰雖多,成果更大,也歡迎你的加入!
原文釋出時間為:2017-10-01
本文作者: 聞菲
本文來自雲栖社群合作夥伴“新智元”,了解相關資訊可以關注“新智元”微信公衆号
<a href="https://mp.weixin.qq.com/s/fR8-zODLNp24nlR5dJ85Nw">原文連結</a>