天天看點

醫工結合之路:草木蔓發,春山可望 | 專訪清華統計中心俞聲

清華大學統計學研究中心助理教授俞聲,主要的研究方向是基于電子病曆的資料分析,他與資料科學研究院的合作始于資料院和清華大學臨床醫學院合作搭建清華臨床醫學科研資料平台(以下簡稱:醫學資料平台)。“我們自己去跟醫院談合作,不一定能引起人家的興趣,醫學資料平台的搭建促使我們能夠更好的使用醫療資料做研究。”和長庚醫院深度合作,俞聲認為醫學資料平台功不可沒。

俞聲有着豐富的國外醫療資料統計分析經驗,即使是回國後,在與資料院合作之前,他的研究對象依然以美國電子病例為主。相較于國外成熟的醫療資料體系,國内醫療資料的收集、開放、處理都面臨着諸多困難。“早期我主要研究美國的電子病曆,諸如榮民系統這類最優質的資料我們都能拿到,資料根據一套嚴格的管理規範允許我們使用。但是國内相關的環境和規定還不完善,醫院大都不敢提供資料,”他為我們分析道。“另外,中文病曆的分析難度也比英文更大。美國有非常完備的術語庫,類似字典,包括标準術語和各種常見變體、縮寫,可以用來輔助識别病曆中的各種醫學概念,将文字轉化為變量。中文沒有類似完整的術語庫,是以一方面我們需要開發額外的術語自動識别技術,另一方面也希望國家加大醫學資訊基礎設施建設的投入。”

除了醫療資料的使用和規範之外,國外的醫療資料研究團隊也有相對成熟的模式。俞聲跟我們介紹,美國研究醫學問題的團隊曆來都會配備生物統計學家,醫學背景的人提出研究問題,生物統計學家會幫助設計實驗、建立模型、排除幹擾變量,并對結果的解讀提供統計學指導。“但是在國内,醫生很少和統計學家合作科研。”俞聲說,“是以資料院和臨床醫學院搭建的醫學資料平台是非常有意義的。聯合醫學專家和資料科學領域專家,大家術業有專攻。像我個人是有統計和計算機交叉的知識背景,與醫學專家合作,我們可以發現許多新問題,從新的角度去解決問題,例如自然語言處理、深度學習這些技術都可以幫助有效處理醫療資料。”

通過醫學資料平台,俞聲團隊在肝癌、腦卒中自由文本資料的資訊提取、病曆文本挖掘等方面都與醫院展開了合作。醫院提出和臨床直接相關的醫學問題并提供資料支援,俞聲團隊則提供技術支援并進行統計分析,得出和臨床相關的結論。“為了資料安全,原始病曆資料不能離開醫院,是以實際上我們要處理什麼資料,都要往醫院跑,路上會比較辛苦。”提及與醫院合作的過程,俞聲有不少感慨:“資料院正在建立的醫學資料平台,可以實作資料脫敏,并允許清華IP遠端讀取存儲在醫院伺服器上的資料,遠端處理之後傳回結果。相當于資料還是留在醫院,但是我們遠端就可以實作處理和分析,就不用每次都奔波往返于醫院和學校之間了。”

平台還在不斷搭建和完善,國内醫療與大資料結合的工作還有許多困難需要克服。俞聲相信,資料院和長庚醫院的合作模式将會給全國帶一個好頭。在資料院的推動下,“醫工結合”這條路已然草木蔓發,春山終可望!

原文釋出時間為:2018-06-11

本文作者:資料派

本文來自雲栖社群合作夥伴“

資料派THU

”,了解相關資訊可以關注“

”。

繼續閱讀