天天看點

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

7月9日,在由中國計算機學會(ccf)主辦,雷鋒網、香港中文大學(深圳)聯合承辦的ccf-gair 全球人工智能與機器人峰會的第三天,在未來醫療專場上,田捷博士做了“基于醫療大資料和人工智能的影像組學及其應用”的主題演講。

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

田捷博士,是中國科學院自動化研究所研究員、fellow

of

ieee,spie,iambe,aimbe,iapr。其主要從事醫學影像分析與生物特征識别的研究和應用的工作。田捷博士的很多學術論文、研究成果,均可見自國内外的各學術雜志和學術會議上,學術論文達上百篇。

以下是田捷博士當日的演講全文,雷鋒網做了不改變原意的編輯:

田捷:今天我演講的題目是“基于醫療大資料和人工智能的影像組學及其應用”。切合主題,本次演講的重點将圍繞醫療大資料、大資料技術和人工智能、影像組學來展開。我們希望将這些技術應用在臨床上,因為不是基礎研究的,而是走向臨床的,是以我舉的都是臨床的例子。

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

以國内外臨床專家為主開發,說明影像組學和人工智能以及大資料,對風投和産業界來說都感興趣,這不是看哪個技術和算法,關鍵是看産生什麼樣的效果。下面我會着重從應用的角度來講它的進展,技術和方法和應用。

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

今天我的演講将主要圍繞以下四個大點來展開:

·  影像組學研究背景

·  影像組學研究進展

·  影像組學關鍵技術

·  影像組學發展方向

 一、影像組學研究背景

1、人工智能技術正突飛猛進

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

人工智能技術現在通過圍棋得到非常直覺的普及,但是計算機下圍棋并不意味着計算機就可以看病,是以醫療在這一塊仍舊充滿挑戰性問題。

2、人工智能技術在醫療領域得到應用

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

不過,計算機人工智能技術在醫療上也得到一些應用,像深度學習在疾病的診斷以及愈後等等,都有一些典型的應用。如:

·  2015年,北卡羅來納大學提出利用深度學習分割腦mr圖像的方法;

·  2016年,google釋出一項學術報告,稱人工智能糖網病診斷精度可用于臨床;

·  2017年,斯坦福大學在nature上釋出一項研究報告,表明人工智能皮膚癌診斷精度已達專家水準。

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

除此之外,國外大公司也紛紛介入ai醫療。

·  2014年,微軟利用intelligence engine剖析健康資料,為患者就診和意外急診做準備。

·  2015年,ibm分析醫學文獻和病患診療記錄,為患者提供高品質、循證行個體化的診療方案。

·  2016年,google下屬deepmind health建立健康風險警告系統,借助移動終端推送健康風險警告,并及時通知醫生。

3、醫療資料正急劇增長

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

無論是微軟、ibm還是谷歌,他們在ai以及醫療的深度介入,都為大家打開了另一扇大門——正是因為這些大企業的介入才使得ai和醫療在臨床上的應用取得突破和規模化的應用。

說到醫療大資料,大家最熟悉的可能是影像資料,因為其格式标準,容易擷取和使用。但是醫療大資料不僅限于影像,還包括病理、臨床治療資訊等,隻有将這些資訊融合在一起,我們才能模組化,并解決ai醫療的真正應用問題。

4、影像組學助力智能醫療

既然題目講影像組學,我先給大家解釋一下影像組學的概念。

影像組學的概念真正提出來是2012年。當時它剛提出來時隻是針對ct資料,把它用組學的方法進行分析。後續則将資料從ct擴充到磁共振、超聲等,涉及到多影像。

自2012年概念提出以後,影像祖學的概念到2014年得到進一步延伸,走向臨床。影像組學從研究走向臨床,典型代表就是2014年這篇文章。

從流程看,影像組學就是從醫療大資料中提取資料,利用ai方法挖掘惡性良性腫瘤資訊,實作臨床輔助決策。這個流程和日常醫生讀片的過程是一緻的,醫生讀片是先有影像資料,然後用人眼提取它的形狀特征,這個過程我們稱之為診斷意見。

這是一個典型的模式識别、圖象處理的機器讀取的過程,先由影像資料提取特征,分析模組化,給出分類決策。是以整個過程由計算機做影像識别,人在做診斷互相配合來完成。如果讓計算機讀取高維資訊,人讀機構資訊,毫無疑問,ai輔助醫生讀片,就能達到“1+1>2”的效果。

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

總結而言,大資料和ai和影像組學的結合,主要有以下三個方面的應用。

·  輔助診斷

·  療效評估

·  預後預測

目前,到底哪一種方法治療癌症的效果更好,其實就可以基于大資料和ai給出預測評估。這樣看病就能實作個性化、智能化,才能把過去望、聞、問、切,變成現在的智能醫療。就現階段而言,智能醫療主要是基于大資料、影像組學和人工智能技術達到輔助診斷、療效評估和預後預測的效果。

5、以惡性良性腫瘤為例——癌症診療面臨重大挑戰

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

今天以惡性良性腫瘤為例,我将借此來說明ai、大資料和影像組學在惡性良性腫瘤方面的三個應用。

惡性良性腫瘤的應用挑戰主要看如上這張圖,這是美國nih總結的。1960年-2012年,52年中有200多萬的樣本大資料。不同顔色的線代表不同的惡性良性腫瘤,縱坐标是5年生成。

52年來,盡管nih每年投入的研發經費是300億美元,美國人每年看病要花掉4萬億,但惡性良性腫瘤5年生存率依然時間是一條直線。什麼意思?就是人财兩空。

作為對比,這個nih資料特别有說服力。紅色這條線,指的是艾滋病的5年生存率,艾滋原先是号稱血液中的癌症,早期死亡率很高,但有了有效措施之後,其有效生存率直線上升。

但是對惡性良性腫瘤來說,還缺乏一些新技術和新方法,這個技術是有可能取得突破的。當然,目前隻是期望值,下面會舉一些例子。

6、癌症精準診療的新機遇

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

現在大家都在談ai熱、alphago熱,其實還是要看ai大資料在影像組學的診療過程中到底解決了什麼問題。事實上,現在的影像技術看到的都是5mm之上的惡性良性腫瘤,廠商可能忽悠能看到3mm,但臨床大夫知道隻能看到5mm以上。而這些都是惡性良性腫瘤的中晚期才會有的症狀。

這也是為什麼nih花上百億做研發,美國人花了4萬億,藥廠出了那麼多藥,不能說無效但是效果不明顯的原因。是以,現在也有在談精準醫學、基因檢測等概念。10年前,就有人開始談論基因檢測,在其貢獻下,雖然我們不能防止有病,但能保命。可是,從上張圖檔來看,五年生存率依然還很低。

在診療過程中我們發現,基因異常未必會形成惡性良性腫瘤,這中間有5-20年的潛伏期。如果能在診斷醫療的過程中,運用到新技術和新手段,可能會對惡性良性腫瘤診療起到關鍵作用。

現階段而言,基因異常其實已經有一系列的方法來檢測,但不意味着能看病。在這個空檔期,如果能用ai大資料、影像組學來研究、描述和量化,就很有可能大大提高五年生存率。

是以這也恰恰是影像組學的切入點——融合臨床基因影像大資料的資訊,把影像往前移,基因往後移,這樣就能更準确的觀察、診斷疾病的發生和發展。這不僅是影像組學的切入點,也是ai在臨床上的切入點。

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017
深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

現在的影像技術是從宏觀到微觀,先有結構影像再到功能影像、分子影像,它的精标準正好是基因病理。而從基礎研究來說,恰恰是從微端到宏觀,當在基因組、蛋白組、代謝組都搞不定的時候,又回到生物醫學,使用解剖結構。是以一個是從微觀到宏觀,另一個則是從宏觀到微觀,如果将二者結合到一起,就有可能進行惡性良性腫瘤的診療。這也是整個影像組學的切入點。

下面通過一些例子說明影像組學、大資料和人工智能,在療效評估、輔助診斷、預後預測方面,國内外的進展。在這塊我要很自豪的說,國内經過改革開放三十年,大量科研經費的投入,醫生的努力,醫工的結合,在技術上、方法上、效果上,跟國外是同步的,甚至某些方法比國外略有超前。從這點上說,也給vc和企業家帶來機遇。

二、影像組學進展概述

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

下面,我将從影像組學在國内外的具體應用案例,來談談其在輔助診斷、療效評估和預後預測的效果。

輔助診斷案例

案例一:膠質母細胞瘤亞型診斷

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

第一個例子,是膠質母細胞瘤亞型診斷。

一般來說,如果要做靶向治療,醫生需要通過穿刺、活檢等過程來得到病人的基因類型,但是這一過程由于涉及腦袋穿刺,風險很大。是以,醫療界大家就在探讨說能不能不用穿刺,拍片來解決。可能有人會覺得天方夜譚,但是斯坦福大學做到了。

他們根據ai技術将其分類為高風險、中風險、低風險,并将其和生存期挂鈎,通過美國tcci資料庫做檢索,就能知道基因類型是什麼,進而以此為依據決定用哪種靶向藥。這在臨床上非常有用,因為整個過程無需穿刺,隻是根據磁共振資料推斷基因類型來确定靶向治療。

案例二:術前結直腸癌淋巴結轉移診斷

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

剛才的案例大家可能會覺得太高大上,而國内醫生能不能做到這些工作呢?

下面我想介紹廣東省人民醫院劉教授團隊此前在權威醫學雜志《journal of clinical oncology》發表的文章。暫且不談這篇文章的學術成就,我們先來看它的臨床意義,非常重大。因為ai技術隻有跟臨床挂鈎才有價值,經過企業家的轉化才能變成生産力。

一般來說,醫生在治療結直腸癌的時候,會對淋巴進行盲目清掃,而清掃的結果會使70%的淋巴不會轉移。為什麼大夫要清掃呢?因為如果不清掃,淋巴轉移的會更快。事實上,國内外的醫生都會采取這種措施。

那麼,這個問題該如何解決?

如果看ct片,我們隻能看到機構資訊,其反映的資訊很小,隻能得到百分之二三十的機率,切掉以後70%是陰性,被誤切了。如果用人工智能的方法,根據500餘例的臨床病理和影像資料,提取特征,模組化分析後,前端資料預測的準确率可以達到正的70%。

換句話說,醫生在做手術之前可以有70%的把握告訴病人要不要選擇做淋巴清掃,可以把過去的誤清掃從70%降低到30%。是以這也是這篇文章能在頂級權威雜志上發表的原因。

案例三:皮膚癌類别精準診斷

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

再來看一個大資料的典型應用。大家應該也知道,現在皮膚癌發病率非常高。那麼,怎麼利用ai診斷正确的皮膚癌?

在此,該案例使用了13萬張皮膚癌的照片來做模組化,其中2000張是有病理且含精标準的。值得注意的是,這個模組化裡邊的大資料力量。

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

如上圖所示,該訓練模型使用了google的遷移學習技術,其對128萬張圖像進行了訓練,加上剛才13萬張皮膚癌的照片,以及醫生的經驗和其他醫療資訊的量化,可以解決兩個臨床問題:

·  粗分類做惡性良性腫瘤的良惡性

·  細分類做黑色素瘤篩查

然而,人腦是不可能記住這麼多張病理圖像的,但是計算機可以,進而能夠有效的輔助診斷。

療效評估案例

我們再來看療效評估的案例。美國每年花4萬億美元研究新技術、新方法,但惡性良性腫瘤的診斷并沒有取得很好的效果,是以我們需要對不同惡性良性腫瘤的療效進行評估。

案例:直腸癌新輔助放化療效果評估

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

這個案例還是結直腸癌。其實包括乳腺癌,很多人會做新輔助化療。但有的人做得有效,有的人做得無效。對醫院來說,有效無效都得交錢。但對病人來說,不光是錢,身體還要受到很大的傷害。是以,業界也在思考,能不能利用ai大資料進行分析,在病人做放化療之前就判斷,該治療對其有沒有效果。

在這個案例中,其實資料量并不大,隻有48例。在這些直腸癌患者經過新輔助放化療之後,經過多模态磁共振形成成像資料,在其基礎上提取多模态影像特征,利用人工神經網絡方法建立模型,最後結果表明,該方法效果很好,實作了直腸癌新輔助放化療效果的定量化精準評估。

預後預測,這個在國家越來越重視。什麼每一個看病的都會問這個問題,醫生隻是憑着經驗和人腦模組化,憑着有限的存儲量給出預測。像我們通常說回家該吃什麼吃什麼,大概三個月或者半年。這個經驗肯定是不能夠的。現在看用人工智能、機器學習能做到大資料,這個資料,一千個病人提取600多個特征進行定量分析。這個模組化的過程,跟日常圖檔和做圖檔處理的過程完成一緻。先分割、特征提取,給出預後預測。這個文章的主要作者就是代表,我們要真正做組學,包括做企業轉化、投資,還是要以臨床問題為主,要看看解決的臨床問題是什麼。這是一個典型預後預測的例子。

預後預測案例

現階段,預後預測在國内越來越受重視。每一個看病的病人也都會去問醫生這個問題,然而,醫生隻能憑借他人腦模組化的經驗,在有限的存儲量來給出預測。是以,如果用ai大資料、機器學習,能達到什麼樣的預後預測效果?

案例一:肺癌頭頸癌預後預測

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

該案例中,如圖所示,在1000餘例肺癌和頭頸癌患者中,我們提取了病理和影像資料,再根據強度形狀紋理小波等特征建立标簽,進行了定量分析。應用效果表明,影像組學标簽具有顯著的預後價值,并與基因顯著相關。

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

影像組學通過融合影像、基因和病理特征建立影像組學标簽,揭示了影像與患者的預後聯系。

案例二:肺癌無進展生存期預測

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

經過臨床經驗,我們還發現,傳統臨床方法對nsclc患者無病生存期的預測效果非常有限。于是,在此其中,利用ai大資料,我們在282例規範完整的早期非小細胞肺癌患者裡邊提取了ct資料,利用lasso cox回歸方法提取關鍵的影像特征,以此建構預測模型。

事實上,在該案例中,運用了前文提及的廣東省人民醫院劉教授與中科院自動化合作的研究成果——非小細胞肺癌生存預測。經過應用後,我們發現,影像組學特征相比傳統方法能夠更好地預測無病生存期。

案例三:晚期鼻咽癌的預後預測

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

此外,對病人來說可以給出精準預測的,還有鼻煙癌生存期預測。

針對臨床名額對晚期鼻咽癌的放療後預測精度低的現狀,我們對118例晚期鼻咽癌t1和dce mr圖像做了超過3年時間的随訪,并結合970個影像組學特征,和臨床病理資訊進行分析,在此有效預測該類患者的預後,準确度超臨床名額的10%。

三、影像組學的關鍵技術

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

剛才我講的是臨床效果在輔助診斷、療效評估和預後預測的案例工作,然而如果要談人工智能和影像組學就必定離不開技術。是以我把技術簡單梳理一下。

面對系列臨床問題,影像組學采用深度機器學習等方法進行分析研究以實作臨床輔助決策。而人工智能在醫療層面的技術應用,主要是圖像分割、惡性良性腫瘤分割,然後提取特征,特征越多越好,提取特征之後再進行篩選。用計算機的話說就是降維,用影像組學的話說就是選擇關鍵特征。在此基礎上再選擇影像學的标簽來達到效果。比如惡性良性腫瘤分析或者預後分析或者輔助診斷。降維、特征提取、分割,都可以用時髦的人工智能新技術。但個人認為,在此過程中不是技術驅動而是問題驅動。

精準惡性良性腫瘤分割技術

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

分割,一般可能需要醫生先進行勾畫,然後可以用機器學習的方法進行半自動或者全自動的分工,這個分工效果也可以達到主治醫生的水準,一系列方法不展開說,其他還包括肺癌等等。

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

對計算機處理來說,以高位特征為主,很多數量化的不适合人眼加工,但适合計算機加工,計算機加工才能産生效果,達到輔助診斷的效果。

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

特征降維技術

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

對惡性良性腫瘤來說,往往展現數千個特征,然後再利用機器對其進行降維。在這其中,共有四類主要特征降維方法:

·  稀疏選擇

·  空間映射

·  神經網絡

·  遞歸排除

模型建構技術

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

與此同時,針對具體臨床問題,業界還采用建立計算機定量影像特征與所研究臨床研究問題标簽之間的分類模型。主要運用了兩類模型:

·  svm模型:從影像大資料原始像素出發,提取高維手工設計特征并進行特征選擇,建構影像特征與臨床問題的分類模型。

·  cnn模型:在影像大資料的原始像素的基礎上,該模型可自主挖掘與臨床問題相關的影像組學特征,建構影像特征與臨床問題的分類模型。

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

這些模型建構的選擇,跟我們的問題相關。如果問題提煉到位、具體模型才能起作用。其在包括分類的方法,像良性分類,也能取得好的效果,并且産生有商業意義的效果。

模型的可視化技術

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

此外,還有一個重要的過程,也是臨床上的需求需要的,叫模型的可視化。對醫生來說,特别是外科大夫和内科大夫很忙,影像師可以給他們看片子。不能說我們算出來什麼結果給他舉證或者數字,要把模型變成可視化統計分析的直覺圖。這樣對大夫來說看圖識字,就知道病人到什麼期,該吃什麼藥換什麼藥,更簡潔直覺。如圖所示,這四個步驟是影像學技術發展最主要的環節。

四、影像組學的發展方向

深度丨中科院田捷博士:基于醫療大資料和AI技術的影像組學及其應用丨CCF-GAIR 2017

最後來看影像組學關鍵技術的發展趨勢,資源平台、輔助診斷系統、共享平台。真正要實作臨床應用,要多病種、多模态、多中心、多參數的資料融合。這裡面有一個沖突,資料收集和清晰都具有挑戰性。我們對病理資訊、治療資訊、預後資訊的收集還是有挑戰性的。在跟醫院合作過程中,以及這四五年收集的資料,如乳腺癌、肝癌、胃癌、肺癌超過美國tcga資料庫,我們也積累了很多的經驗。

總的來說,有了資料還不行,得有算法平台,像剛才講的分割部分,在後面還有介紹算法平台和內建平台。目前我們正在跟廣東省人民醫院劉教授建立影像組學共享平台,希望大家把用過的影像和模型、軟體上傳,建立大家開發共享的平台,可以擷取資料、模型,可以使用免費的軟體,然後開展這方面的研究。當然,隻是為研究服務。我建議公司也可以放上去,先讓他們用起來。這四個環節融合在一起才有意義,包括資料上傳、模型上傳、軟體測試。

現在我們需要更多人工智能和大資料在醫療問題上的典型應用,來拉動産業,拉動人工智能進一步深度應用。這是相輔相成的,空喊方法,不形成規模化、典型應用,是解決不了問題的。隻有得到外科、内科大夫承認的技術和臨床應用,才能更加有意義。

(注:雷鋒網(公衆号:雷鋒網)原創)

本文作者:李秀琴

繼續閱讀