哥倫比亞大學副教授翁春華：大量的醫療資料不正确、不完整并且不可用

雷鋒網(公衆号：雷鋒網)消息，近日，由hc3i中國數字醫療網、中關村移動網際網路産業聯盟移動醫療專委會主辦的《2017中美智能醫療大資料峰會》在北京召開，衆多專家出席探讨了智能醫療大資料存在的問題。

其中哥倫比亞大學醫療資訊學系副教授翁春華以“雲計算和大資料帶來了很好的機會，但擁抱的同時也應該知道資料可能存在的局限性”開始了她的演講，她指出醫療資料現狀令人擔憂。

據翁春華副教授介紹，醫療大資料存在的問題有資料品質不高、資料不完整、資訊不具體、資料重複、資料分布不均與、資訊不集中等。

以下是其演講内容，雷鋒網做了精簡編輯。

醫院常用的疾病分類标準是icd9/10，診斷資訊最常見的問題是粒度不夠。icd的資訊本來都是統計出來的，是以真正有意義的深度資訊和表型資訊應該來自于文本或者是其它更有意義的資料類型。另外，icd9/10有漏診和過渡診斷的問題。

如果生成的資料是醫生特别忙的時候，他們可能沒有時間把正确的代碼找出來，隻是找幾個特别有用的或可以代表病人疾病的資料，漏掉其它非主要的疾病。如果診斷資訊不是醫生生成，而是專門人員生成，他們可能會漏掉一些經濟價值不高的資訊。

我們有一次做研究尋找高血壓病人，讓他們參與有關高血壓的臨床測試，結果我們發現所有病人都沒有關于高血壓的icd9/10資料，醫生說因為所有人都有高血壓，是以懶得把資訊放在病例裡，病人患其它疾病時才會把資訊放在病例裡。可以看到，電子病例的很多資訊是否記錄是基于記錄人的需要，之後資訊會被用來重用或做其他研究分析，如果不知道當初記錄資訊時的篩選标準，有可能産生誤導。

還有就是過度診斷的問題，患者的情況不斷變化，有可能以前患有的病現在已經治好了，但這些資訊還繼續留在那裡，當你拿到電子病例的時候，可能以為這個病人還患有這種病。如果基于這些資訊分析的話，有可能會被誤導。

衡量資料是否完整有4個次元，分别是：有多少醫療事件會被記錄；資料類型有多少；同一資料類型是否有完整的資料收集結果；是否有具體的資料值。

長老醫院有450萬病人的電子病曆記錄，可以說資料是非常龐大的，但如果用這四個次元衡量一下，結果讓人大吃一驚。

我們的實驗中納入了390萬個病人資訊，隻有一半左右的病例滿足其中一種完整性标準；1/4滿足更嚴格的資料完整性要求，比如其文本資訊和來訪時間記錄吻合或有多個來訪記錄等；僅有小部分有充分資訊或有研究價值；隻有0.6%的病曆完全符合4種資料完整性定義。

在此之前，我們樂觀地認為有海量資料，可以做很多事情。但分析之後，我們才知道在用資料之前衡量一下資料能做什麼非常重要。

資料的重複性嚴重影響資料挖掘的算法結果解釋。病人疾病進展記錄中54%是重複的，出院記錄的30.7%和登記記錄完全一樣。電子病例中有很多沒有價值、不産生新資訊的資料，這些資料分析影響特别大，帶來偏見和噪音，降低資料的可用價值，其實其中很多資訊根本沒用。大家都繼續粘貼和複制，更加加大了資料的不一緻性。如果需要使用要尋找真實的資訊和資訊來源，但這個過程很困難。如果欲根據其中資料概念的頻率了解概念和疾病的相關性，不能直接用，因為頻率受重複性的影響，很多概念是通過拷貝生成的。

更多關于雷鋒網的人工智能更新傳統行業文章，請關注雷鋒網ai商業化垂直微信公衆号：ai掘金志（id：healthai）

本文作者：張利

哥倫比亞大學副教授翁春華：大量的醫療資料不正确、不完整并且不可用

繼續閱讀

疾病研究：重症肌無力

Nacos 2.0 更新前後性能對比壓測

人工智能如何有效地運用于自然語言處理

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

9.spark Core 進階2--Cashe

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

無人機--飛控科普

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark