前言
醫療健康産業目前呈高速發展狀态,處在網際網路對醫療行業賦能的關鍵階段,由于醫療行業資料的隐私性較強,通過傳統方式很難擷取公開的醫療健康資料進行研究,根據阿裡雲天池比賽賽題設定研究及提供的脫敏資料集着手進行分析是比較理想的手段。本文的目的在于對醫院的資訊系統流程進行思考,結合公開資料集對于醫療健康資料特征進行分析,進而得出未來醫療健康産業資料架構模式的發展方向。
醫療健康資料特征
首先看一下天池比賽近期的兩場比賽,都是針對醫療資料進行研究并進行挖掘的,采用脫敏資料,資料來源于實際病例是以參考價值較高:

分析兩個比賽提供的資料集形式,可以明顯感到醫療資料集的特征為資料異構,即因為醫療檢測手段的關系,資料圖像化比例較高,但是因為訓練資料集需要根據患者其他特征包括性别、年齡、身高、體重等進行統籌分析,是以也包含了一部分結構化資料,是以醫療資料集是典型的非結構化資料和結構化資料并存的異構資料集。
常用預測算法分析
醫療資料所需要的預測結果一般為分類,由于結果的主要目的并非直接作出定性結論而更多的是為醫生提供參考是以二分類(即是或不是)和多分類(分為幾類)都有實際價值。
從宮頸癌風險智能診斷比賽要求結果看,初賽惡性細胞檢測算法屬于二分類問題,而複賽宮頸癌惡性細胞檢測分類算法屬于多分類問題即需要将檢測結果分類成5類典型宮頸癌。
資料處理方面,需要結合訓練集圖像輸入和醫生的手工标注資訊和患者特征資訊,是以深度學習算法的普遍使用成為必然,由于單張CT圖檔和标注資訊隻能屬于一個患者是以JSON檔案被采用作為記錄檔案形式是非常合适的,單張CT檔案對應單個JSON檔案相比結構化表單能夠更好的記錄資料。
從資料量大小分析,數千份宮頸癌細胞學圖檔和對應異常鱗狀上皮細胞位置标注,每張資料在20倍數字掃描器下擷取,大小300~400M。是以以訓練集包含800張圖檔計算訓練資料集大小約為273G,非結構化資料占了絕大部分。
從心電人機智能大賽比賽要求結果看,心電異常事件分類屬于多分類問題即需要将檢測結果分類成訓練集中的異常事件種類。4萬個醫療心電樣本。每個樣本有8個導聯,分别是I,II,V1,V2,V3,V4,V5和V6。單個樣本采樣頻率為500 HZ,長度為10秒,機關電壓為4.88微伏(microvolts)。是以在檢測裝置輸出時已經将資料結構化,相比CT圖檔的特征提取和資料處理并不需要采用深度學習算法,正常資料預處理手段即能滿足需求。
從算法角度進行分析,針對圖檔進行計算需要用到深度學習算法,各類神經網絡中RNN即卷積神經網絡被使用頻率較高,也是目前圖像識别的主流算法。對兩個比賽中選手公開的算法進行統計,宮頸癌風險智能診斷比賽所采用的算法幾乎全部為基于神經網絡的深度學習算法,差異無非是所采用的深度學習架構不同和基于神經網絡衍生的算法采用不同。代表資料科學界對于未來非結構化醫療資料所采用的算法大方向上是統一的。心電人機智能大賽采用算法為機器學習分類算法,目前基于決策樹的分類算法占據絕對主導地位,在決策樹的基礎上衍生的機器學習算法如RF即随機森林算法、GBDT算法和LIGHTLGBM算法又占了多數,LIGHTLGBM算法最普遍被使用。
從交叉驗證集調參和測試集驗證效果評估來說,面向癌症算法和其他如心髒異常情況算法需要關注的角度不一樣,癌症因為檢測結果對于病員包括家屬心理沖擊很大,是以對于測準率和召回率的平衡問題需要非常關注,防止算法過拟合而造成的草木皆兵情況,同時也加大了醫生複核的工作量。而心髒異常算法或是其他普通生化名額資料,則過拟合的問題沒有那麼嚴重,因為資料的體量到了一定的程度根據大數定理即使過拟合也會逐漸的傾向于往較為準确的趨勢發展。特别對于心髒異常情況判斷,高測準率極其重要,因為資料的實時性強并且随時間變化價值下降速度較快,即使過拟合而誤報,能讓病員或家屬重視總是沒有錯的。
醫療資料處理架構方案
根據以上對于醫療健康資料特征、所采用的資料挖掘算法分析結果,對于醫療資料處理所用的架構方案進行研究。
醫療資料結構化和非結構化并存的特征造成需要使用CPU和GPU結合的異構計算。從醫院現實條件來說,非結構化資料的來源主要為放射性檢查裝置等産生的圖像,如CT每張圖檔的大小就約為350M,而生化名額包括心電名額能夠以結構化資料呈現。非結構化資料的處理需要消耗大量GPU計算力,無法在現實情況下要求醫院對于本地IDC機房進行大規模擴容并增加GPU叢集。是以從架構上來說雲-霧-邊協同會是比較理想的架構方式。
1 邊緣計算節點
各類檢測裝置附近的計算節點(包括裝置自帶的和醫生檢視結果的PC機)構成協同體系内邊緣計算節點,但是現有技術條件下邊緣計算的計算力相對偏弱,無法要求邊緣節點進行大規模圖像識别計算,是以邊緣計算節點的主要任務是資料清洗并負責向霧端傳送,由于醫院的檢查種類較多,各種報告和圖像資訊資料格式并不統一,是以預先在邊緣端進行資料清洗有助于霧端和雲端降低計算壓力并幫助醫院未來實作統一資料中台可能。
2 霧計算節點
醫院現有本地IDC機房可以考慮作為霧計算節點,霧計算節點目前對于醫療行業尤其重要,雖然5G技術在時延上和傳輸速度上都滿足大規模資料傳輸要求但是由于醫院的環境較為複雜,如果邊緣計算節點的資料需要直接傳送到雲端則在網絡層會極其依賴無線通信手段,而無線通信特别是5G較高的頻率在全方位全覆寫性的邊緣計算節點與雲端通信過程中是否會對醫療裝置産生幹擾和其他預料之外的問題需要在實際應用中再研究,短期内,邊緣計算節點資料通過有線通信手段傳送到霧計算節點是最合适的方法。
霧計算節點的現實作用非常多,如集中邊緣計算節點資料和區分應用場景并進行計算,特别如果個别醫院本地IDC伺服器叢集配置較強則可以就地對于結構化資料進行挖掘、訓練模型并進行預測工作而不必傳送到雲端。此外從通信角度,霧端作為統一資料出口向雲端無線傳輸資料可以最大可能避免無線信号對于醫療裝置可能的幹擾作用。短期5G未普及情況或者費用較高的情況下可以采用本地IDC與雲端專線通信方式作為過渡手段。
在具有多個院區的醫院中,不同地域的本地IDC作為霧端能夠進行異地容災建設。多個本地IDC機房在不同地域互為災備,確定單一節點故障能夠及時遷移確定業務不中斷及存儲資料的可用性和完整性。
3 雲端
雲計算平台能夠很好的解決醫院異構資料計算需求大但又短時間無法配置大規模GPU叢集的現實情況,CT等放射性檢查設施産生的高清圖像檔案及其他需要采用深度學習算法的資料可以統一通過霧端傳輸到雲端進行計算,雲計算彈性伸縮的優勢在面對醫院計算力需求随患者數量呈時間性波動的情況時也可以最大可能的減小醫院異構計算成本,GPU叢集的配置通過彈性伸縮在醫院計算力需求大時自動擴充計算節點,而需求小時自動減小叢集内虛拟機規模。