天天看點

大話腦影像:淺談影像組學

大話腦影像:淺談影像組學

提筆寫下淺談影像組學幾個字,我略微有點忐忑以及不安,史詩般的宏大題目,怕自己HOLD不住,但在這個滿世界人工智能的時代,不做點嚴肅文學科普工作,不是我的風格,畢竟,我下樓吃碗面,老闆都跟我說,根據他潛心研究搭建的“基于環境、氣候、人群活動等名額的無監督多參數自我學習本店客流量預測模型”顯示的結果,我今天會成為他第123個客戶,我略帶深沉的問他“那你的模型預測準确度有多少?”,老闆謙虛的說道“我的模型一直在自我進化,目前大概徘徊在50.9%”,我說兄弟,是時代埋沒了你,你應該去BAT做進階算法工程師或者去買彩票,面館老闆雖然嘴上沒說,但我知道他心裡一定一陣竊喜,因為今天他給我的牛肉面裡多放了半塊牛肉。    

影像組學的概念最早由荷蘭學者範尼斯特魯伊(我瞎說的,荷蘭人中我大概隻認識他,因為我從小就喜歡看他打籃球,還有個伊布)在2012年提出,其強調的深層次含義是指從影像(CT、MRI、PET等)中高通量地提取大量影像資訊,實作惡性良性腫瘤分割、特征提取與模型建立,憑借對海量影像資料資訊進行更深層次的挖掘、預測和分析來輔助醫師做出最準确的診斷。

So,從概念可以知道最基本的資訊:

1)影像組學的基礎是影像資料;

2)影像組學是針對惡性良性腫瘤的;

3)影像組學研究依靠大量潛在影像資訊;

4)影像組學研究絕大部分包含統計方面的資料挖掘工作;

5)輔助臨床醫師進行診斷。

針對以上幾個資訊點,也就了解了影像組學研究的一個簡單流程:

1) 影像資料擷取—>2)惡性良性腫瘤的标定、分割—>3)影像特征的提取—>4)資料挖掘分析[Radiomics: Images Are Morethan Pictures, They Are Data]一文中,将組學研究流程總結為5步:

大話腦影像:淺談影像組學

1 影像資料擷取

       影像資料包括CT、MRI、PET、超聲影像等,實驗講究控制變量,是以在一個影像組學研究中,影像資料的客觀采集方式是恒定的:同一機器、同一序列、同一參數,如果掃描技師也是同一個人(最好長得還比較帥的那種),并在掃描時保持同一種狀态,就完美了。但想要完全控制變量,是不可能的。尤其是資料收集那麼困難,而且還得排除好多不能入組病人,好多影像品質(比如機器抽風)不行的情況下。但有一點知道:CT、MRI、PET等資料沒有混合分析的先例。(我感覺自己的機會來了,諾獎在向我招手,我準備下樓和面館老闆探讨下混合分析模型的可行性)

2 惡性良性腫瘤分割

       惡性良性腫瘤分割是必須要做的,因為第三步提取的影像特征,不是病人整張影像的所有特征,而是影像中惡性良性腫瘤所在位置的特征。(就像ikun們愛的是他的盛世顔值和肌肉怪獸,而不是愛他的籃球技術,雖然他護球像亨利,并且曾經教過歐文運球)

       惡性良性腫瘤分割算法很多,本文總結列舉如下(未一一詳盡,但各個方面皆有涵蓋)。

大話腦影像:淺談影像組學

轉存失敗重新上傳取消

大話腦影像:淺談影像組學
大話腦影像:淺談影像組學

轉存失敗重新上傳取消

參考文獻:A Review of Image Segmentation Methodologies in Medical Image

分割形式有自動分割,半自動分割,和人工分割。其中,人工分割通常被用來作為為标準,衡量分割算法的優劣。實際操作中,各種分割算法,都有其自适應的場景、範圍、條件,特别受制于客觀條件。現在也沒有哪種算法敢站出來,說自己适應力強,準确性高(我又一次看見諾獎向我微笑),是以,最可靠的,還是臨床醫生們自己手動勾畫ROI(Region of Interest),實際科研中,臨床用得最多的,還是純手工(我們行業内稱頂級智慧型生物智能勾畫法)。         【https://zhuanlan.zhihu.com/p/70758906】(對,你沒看錯,是人均百萬年薪,藤校畢業的知乎)裡面從傳統分割算法一直到深度學習分割算法都進行了較為細緻的講解。

3 影像特征的提取

關于特征提取,傳統放射科醫師僅通過肉眼閱片方式,依賴直覺長久的臨床經驗對惡性良性腫瘤進行診斷,進而為惡性良性腫瘤的治療決策提供方向建議。但是,病人在放射科掃描留下的MRI,CT等影像資料,包含大量的潛在影像資訊,比如,惡性良性腫瘤塊的惡性良性腫瘤圖像的灰階值範圍、強度、細胞内部變化的特征等。而這些潛在資訊,僅憑影像醫師的臨床經驗及其肉眼能力,無法準确獲得。是以,傳統的惡性良性腫瘤治療方案的決策,浪費了本該用起來的寶藏。       

影像組學方法,簡單來說,其實就是大資料技術和醫學影像輔助診斷的有機融合。概念中提到“高通量地提取大量影像資訊”,所謂高通量(計算),指在用最少的資源、最快的速度、大量計算體系的各種性質,進而達到探究、預測物質性質的一種科學研究手法。影像組學運用高通量計算,在勾畫好ROI的影像資料中,能夠快速提取成百上千個影像特征。特征類别及其數量總結如下:

大話腦影像:淺談影像組學
大話腦影像:淺談影像組學

轉存失敗重新上傳取消

大話腦影像:淺談影像組學

現在有很多平台可以實作影像特征提取的功能,比如Artificial Intelligent Kit(A.K.)、3D Slicer等。

4 資料挖掘分析

4.1 特征篩選(降維,讓我想到了劉慈欣老師三體中的二向箔降維打擊)

特征篩選是影像組學必須做的一步:成百上千個影像學特征(自變量)【現在大部分組學分析還會加入臨床特征、基因特征等】放到某個模型中進行訓練,會累死計算機不說,模型效果通常還很差。

舉個例子,實際生活中,把主要沖突解決了(缺錢),大部分次要沖突就随之消失了(可以買衣服了,可以吃火鍋了),生活開始變得美好。特征選擇是一樣的道理,成千上百個特征,對因變量(Y,自己要研究的東西)有重要影響的,可能就幾個幾十個。做了特征選擇,消除備援資訊,避免多重共線性,簡化模型,使得模型更具有泛化能力(模型的通用性,說明模型不止是在訓練資料上表現得好,随便拿一批資料來,該模型一樣能正常發揮作用),這就是特征工程存在的意義!

特征選擇方法有很多:

1)過濾式:卡方檢驗、資訊增益、相關系數(初步使用,但通常會篩掉大部分特征);

2)包裹式:遞歸特征消除(反複的構模組化型,然後選出最好的特征);

3)嵌入式:嶺回歸、lasso回歸(使用頻率很高,思影的機器學習課程用一天專門教這個);

4)機器學習模型:支援向量機(SVM,思影科技課程涵蓋)、決策樹(DT)、随機森林(RF)等(雖然這些機器學習模型自帶了特征選擇功能,能自動對特征的重要度進行排序,但實際操作中,不建議得到所有特征就用模型。通常會死的很慘烈,特異性、敏感度,想要的AUC值不會理想)。一般講特征降維,都會說主成分分析(PCA,思影的機器學習課程也會有此内容),但在樣本量小于特征量時,該方法是失效的【原因是參數與非參數的差別,在此不贅述,見下節】,是以以上沒有列出。

4.2 模型建立:分類、預測

前面做了很多重複、耗時的工作,都是為了實作最終目标:建立一個優良模型,使得研究對象不管是分類也好,預測也罷,都有一個非常好看的ROC曲線,AUC值。       

模型從參數角度考慮,可以分為參數模型和非參數模型。參數模型的條件較為苛刻,對資料分布和參數大小都有要求。早期統計學分析,由于資料量小,特征量少,是以一直是參數模型的天下。但大資料時代,傳統的參數方法無法克服現存的次元災難(樣本量小于特征個數,再次想到三體),是以非參數方法,非參數模型應運而生。非參數模型對資料的分布條件不做限制,也不需要規定特征的次元,自己能夠在訓練過程中找到規律,形成自己的預測“函數”。(比如面館老闆的顧客預測模型,在他和我熱烈的探讨中,略微透露了一點他的模型就是非參數模型)       

現在,大部分機器學習都屬于非參數方法,尤其是在影像組學的應用中。影像資料收集較慢樣本量小,但影像特征卻成百上千。經過特征選擇,可能還會存在幾十個上百個特征用于模型訓練,用于分類,預測。       

組學分析中常用的機器學習模型大多既可以做分類也可以做預測,如SVM,KNN,DT(RF,GBDT,XGBOOST:都是在DT基礎上的內建算法),NB(樸素貝葉斯,有很強的前提條件),神經網絡等。這些模型的算法都很優美,值得一推。實際操作中,SVM和RF(随機森林,我知道三體裡的黑暗森林法則)兩個模型表現都很穩定,其中,RF相較于SVM來說,由于參數穩定,不必特别調整且更友善。神經網絡雖然特别火,但樣本量小(不超過1000)時,不建議使用,樣本量不足夠大時,機器學習算法比神經網絡表現更好【不然深度學習就不用等到大資料時代才出頭了】。

非參數模型有三好(索8,k5,邁銳寶):

1)可變性:可以拟合許多不同的函數形式;

2)表現良好:對于預測表現可以非常好;

3)模型強大:對于目标函數不作假設或者作微小的假設。     

同時,局限性一樣存在:

1)需要更多資料:對于拟合目标函數需要更多的訓練資料;

2)過拟合:有更高的風險發生過拟合,對于預測也比較難以解釋;

3)速度慢:因為需要訓練更多的參數,訓練過程通常比較慢。     

如果特征選擇工作做的到位,參數模型可以用起來的話,自然更好,因為他也有三好:

1)簡潔:理論容易了解和解釋結果;

2)快速:參數模型學習和訓練的速度都很快;

3)資料更少:通常不需要大量的資料,在對資料的拟合不很好時表現也不錯。       

Tips:

1)訓練模型時,注意訓練集和測試集的劃分,通常情況是7:3,也可以自定義。但不要隻留幾個樣本來做測試。樣本量隻有小幾十個的時候,不建議X-folds cross validation

2)保持資料的平衡,如果研究目标有100個樣本值,但90個都是陰性表現,這個名額就沒什麼分類、預測的價值了。因為從一開始,你的模型就是錯的。舉個例子:面館老闆的店,第一天開張的時候,前122個客人都說要加香菜,久而久之老闆的預測模型就形成了客人吃面都要加香菜的模型,但第123個客人(也就是我)不僅不吃香菜,并且感到很憤怒,把面館老闆毒打了一頓,那他的客戶模型就是錯的。敏感度為0。

5 輔助診斷

影像組學的終極目标是複診臨床醫生進行診斷工作,其分析結果可以從兩個次元進行呈現:

1)橫向角度:影像特征集合基因特征,臨床特征進行資料挖掘分析,實作惡性良性腫瘤的篩查,診斷,分級及分期的預測。也可進行惡性良性腫瘤的分子生物學特征分析,為其靶向治療方案提供科學依據。

2)縱向角度:結合随訪資訊,影像組學通過治療前後的圖像分析,可以做治療效果預測,患者生存期預測,治療有效性預測等,為臨床制定個體化、精準化的治療方案提供幫助。

今天就先聊到這裡,本篇文章完全是我用頂級智慧型生物人工智能完成,什麼叫真正的國際頂級代碼高手?(戰術後仰),我去找Tony老師做人工智能量子燙了,他的模型也預測了我今天會去,并且會選擇他們店裡最雍容華貴的造型,我們下期再會。

大話腦影像:淺談影像組學
大話腦影像:淺談影像組學

掃描二維碼關注思影科技公衆号,了解更多腦科學相關咨詢

繼續閱讀