醫學不斷産生新的影像資料，包括來自基礎研究、臨床研究和流行病學的資料，來自衛生行政和保險機構、公共衛生服務以及社交媒體、網際網路應用等非正常資料源的資料。從多方面整合大資料可以獲得用于決策支援的新工具、改進的臨床研究方法、個性化護理等。

健康領域的大資料

由于在患者護理方面不斷增加的記錄儲存需求，衛生部門一直在生成大量資料。許多可用且特别有價值的資料都處于半結構化或非結構化形式。此外，其多樣性和動态性使得通過使用傳統分析方法提取有價值的見解具有挑戰性。

是以，健康領域的大資料是一個重要問題，不僅因為其龐大的資料量，還因為它的多樣性和管理速度。處理這些資料的人的能力是有限的，是以需要有效的決策支援。是以，大資料分析必須融入健康産業。

大資料分析能夠檢查各種複雜的資料，并生成，否則無法獲得的有價值的資訊。在醫療保健領域，它不僅可以發現新興趨勢，還可以提高醫療保健品質、降低成本并促進及時決策。

正如麥肯錫國際研究所報告所述，如果大資料得到有效利用和使用，美國醫療保健系統的價值将節省超過100億美元。每年3000億美元，其中約三分之二來自醫療保健成本降低約8%。

通過利用大資料技術和結果的自動分析，有可能出現直到最近還鮮為人知的有用資訊。大資料分析可以通過分析和連接配接來自多個來源的資訊，将大量連續資料轉化為可操作的見解。

這種提供這種洞察力的能力尤其重要，尤其是在緊急醫療情況下，因為它可以極大地決定患者生死的結果。我們在冠狀病毒大流行期間看到了醫療資料的有用性，以及此類資訊如何有助于大流行期間的健康危機管理。

衛生組織必須認真考慮整合處理這些有可能挽救生命的海量資料所需的技術工具。自計算機系統及其潛力發展以來，醫療保健系統中臨床檢查和病曆的數字化已成為廣泛接受的規範。

大資料通常被視為一組太大或太異構且結構複雜的資料，傳統資料處理軟體無法處理。大資料挑戰包括收集、存儲、分析、傳輸、共享和可視化其中包含的資訊。

科學家、企業家和醫療專業人員通常需要使用來自各種來源的資料，包括來自國際文獻、網際網路、醫療記錄、患者登記，甚至“智能”裝置的大資料。

在數字健康領域，資料量的增加是現有資料數字化和新資料格式建立的結果。

可用資料量包括個人醫療記錄、放射學和透視圖像、臨床試驗、調查、人口統計資料、人類基因組、基因序列等。醫療行業資料的指數級增長是由于新型資料的整合大資料，包括三維圖像、生物資料和來自傳感器技術的資料。

傳統上，醫療保健中可用的絕大多數資料都是非結構化資料，例如病曆和醫護人員描述症狀、适應症、行為、醫學圖像等的手寫筆記。

當然，結構化資料也出現了熱潮近年來，諸如電子化的藥品處方資訊、儀器上的定量資料和測試測量、通用資料等都試圖記錄在一個單一的結構中，以便作為資料分析的基礎。

在醫療保健領域，大多數資料傳統上來自靜态來源，例如X射線、醫院檔案、患者記錄、健康日志等。然而，在某些應用程式中，需要實時處理和使用資料。

金融交易和醫療保健中的資料可靠性研究有幾個相似之處：患者資料的準确性、正确填寫醫院或診所字段、患者保險、與銀行賬戶的關聯、支付金額的記錄等。

當然，在健康領域，有一些其他領域沒有觀察到的資料，比如診斷、治療、用藥、護理等資訊，以及任何其他認為有必要記錄的資訊。無論如何，這些資料的有效性與上述資料一樣重要。

醫療保健的成本是不可持續的，而且還在不斷上升。然而，在醫療保健中使用和開發大資料所帶來的多重好處要多得多。圖1為醫療保健領域的大資料特征。

圖1 醫療保健領域的大資料特征

醫療領域人工智能

在醫學研究中使用人工智能有可能導緻極其複雜的電子健康。機器學習(ML)被認為是最重要的科學領域之一，可以借助臨床決策支援系統将其整合到疾病的診斷、預後甚至治療過程中。

在醫療保健中使用機器學習技術的另一點是在某種程度上消除了人類的參與，進而降低了人為錯誤的可能性。這在處理自動化任務時尤為重要；繁瑣的日常工作是人類犯錯誤最多的地方。

可以将k最近鄰(k-NN)技術定義為非參數算法，這意味着資料集決定了模型的結構。這就是它被廣泛使用的原因。

它不依賴于理論數學假設。它也屬于所謂的“惰性”算法，即不需要學習或訓練預測階段使用的所有資料，所有資料都可以用于“測試”階段。是以，資料學習速度更快，預測速度更慢且成本更高，是以更耗時和記憶體。

支援向量機或SVM是一組用于分類和回歸的技術。它們屬于廣義線性分類器家族。SVM是一種實用的資料分類方法。通常，分類任務的訓練和測試資料包含某些資料執行個體。訓練集中的每個執行個體都包含一個目标值和許多其他屬性。

SVM分類是完全監督學習的一個例子。已知标簽有助于确定系統是否在正确的軌道上。SVM分類器與其他基于機器學習的分類器相比具有優越的性能。圖2描述了二維的支援向量機(SVM)模型。

圖2 二維SVM模型

資料聚類是一種用于識别醫學資料集中結構的有用技術。k均值劃分算法是最流行和使用最廣泛的聚類算法之一，它屬于不需要無監督學習的更大一類學習技術。

使用k-means對資料集進行聚類很簡單。基本思想是找到k個質心，每個簇一個，并将每個元素連結到最近的質心，隻要預先确定要形成的簇（組）的數量（k）即可。

人工神經網絡簡化了生物大腦的表征，尤其是人類。它們的功能和生物神經網絡的結構與大腦中的生物神經元相似。他們試圖将人腦的功能與嚴格抽象的數學思維方式結合起來，進而将人工智能與生物學和計算機的經典功能區分開來。圖3描述了該算法的基本結構。

圖3 神經網絡的基本結構

科學家們從生物神經元的結構中獲得靈感，成功地建立了所謂的人工神經元的等效模型。生物神經元在其樹突中以電脈沖的形式接收輸入信号，對其進行處理，然後通過軸和突觸将它們傳輸到相鄰的神經元。

使用人工神經網絡的主要目标是解決特定問題或在某些過程中自主工作，例如圖像識别。人工神經網絡中的不透明問題是一個關鍵問題，尤其是在了解和解釋決策的能力至關重要的安全關鍵型應用中。

由于神經網絡的黑盒性質，識别潛在的錯誤或偏差來源可能具有挑戰性，阻礙我們了解決策背後的潛在機制。雖然已提出生成解釋或使用更多可解釋模型來解決此問題，但它們可能會降低準确性或增加複雜性。

是以，研究人員和從業者必須權衡在安全關鍵環境中使用神經網絡所涉及的權衡，并確定其使用合理且經過适當評估。

機器學習方法可用于多種應用，例如疾病診斷、患者風險分層、藥物發現和資源優化。算法的選擇取決于具體的用例和所分析的資料類型。一些算法，如邏輯回歸和決策樹，非常适合二進制分類任務，而其他算法，如聚類和神經網絡，可用于無監督學習和更複雜的任務。

雖然機器學習算法可以成為醫療保健分析的強大工具，但重要的是要考慮它們的局限性和潛在的偏見。機器學習算法應該經過驗證和測試，以確定它們在現實世界的醫療環境中的準确性和可靠性。

開放擷取衛生部門的流行病學、管理和臨床資料極大地促進了研究人員的能力，這應有助于增加資料量和提高科學研究品質，以及機構和研究的科學影響力社群。事實上，有望帶來最重大創新的醫療保健領域的主導趨勢是資料驅動的患者護理。

記錄和整理患者的所有資訊可以更準确地了解正在執行的護理，以及一般情況下的人口健康管理。它還可以減少不适當的藥物處方，并在許多情況下挽救生命。

醫療保健大資料的技術和挑戰

盡管已經有報道稱可用的健康資料呈指數級增長，但其中大部分資料都在單獨的存儲庫中：這種現象被稱為“資料孤島”。這些本質上是儲存在組織内部甚至組織的各個部分内并且外部世界無法通路的資料存儲庫。

組織之間和内部不同部門之間缺乏共同的協作精神不可避免地阻礙了資料共享。是以，相關機構有責任通過在員工中培養正确的精神來確定避免這種風險，這通常不是标準程式。

資料品質是指描述大資料的所有關鍵特征，為了有效利用資料，必須確定管理和存儲資料量以及确定其大小的能力。幾乎總是需要可擴充性，因為需求在不斷增加，要利用的數量也在不斷增加。

任何組織都必須考慮其存儲、處理和使用可用資料的速度，并不斷提高其性能，尤其是在資料到達速度很快的情況下。確定資料的有效性對項目的需求至關重要，并且是一個要求很高的過程。

識别所有資料源、每個資料源帶來的技術挑戰并有效管理它們是任何大資料分析工作不可或缺的一部分，也是一項重大挑戰。

定期資料重新整理是一個純粹的技術問題，但如果不遵守，就會造成困難。它本質上是關于資料管理的。在某些情況下，需要定期删除或更新資料，并且可用的系統具有特定的功能。是以，需要確定可以執行動态資料管理。

通過新的研究、觀察、科學文章等，衛生部門的需求不斷增加。然而，與此同時，有助于滿足需求的技術能力也在不斷增加。是以，必須了解技術發展并在必要時進行幹預，以克服固有的困難并擴充系統的功能。

大資料分析的一個關鍵領域是生成估計和預測各種情況的模型。具體來說，在醫療保健行業，需要對資料進行持續研究和對預期事件的估計，以最大限度地發揮資料的效益和價值。

需要開發工具和方法來解決醫療保健組織中使用大資料引起的所有問題，這需要集體、有組織和嚴格定義的努力。圖4說明了醫療保健行業在使用大資料方面面臨的主要挑戰。

圖4 醫療保健行業在大資料使用方面的主要挑戰

在智慧城市概念的背景下，大資料分析在醫療保健中的整合可以在改善整體生活品質方面發揮關鍵作用。

醫療保健提供者可以通過利用可穿戴裝置、電子健康記錄和社交媒體平台等各種來源生成的海量資料，更全面地了解社群的健康需求。

這可以導緻更有效和更有針對性的幹預措施來解決健康問題，以及制定積極的醫療保健政策來首先避免疾病。

此外，大資料分析的使用可以幫助優化醫療資源配置設定、降低成本和提高效率。圖5總結了在醫療保健行業實施大資料的建議政策。

圖5 醫療保健行業實施大資料的建議政策

毫無疑問，在不久的将來，将投入财力和人力資源，通過大資料分析來改善醫療服務。通過使用它們解決的問題數量巨大，目前似乎還沒有具有可比潛力的替代技術。

出于這個原因，可以肯定的是，未來大規模使用資料不僅會涉及“大型”機構群組織，而且每個診所和醫生都必須使用他們可用的技術工具來提供健康服務。因為大量資金被不必要地浪費了，要麼是由于處理不當導緻的管理效率低下，要麼是治療和診斷不正确。

更重要的是，人的因素，即健康服務的根本更新，可以開創一個新時代，是打消任何人對未來大資料分析泛濫的疑慮的最重要原因。

參考文獻：

Berros, N.; El Mendili, F.; Filaly, Y.; El Bouzekri El Idrissi, Y. Enhancing Digital Health Services with Big Data Analytics. Big Data Cogn. Comput. 2023, 7, 64. https://doi.org/10.3390/bdcc7020064

通過大資料分析增強數字健康服務

健康領域的大資料

醫療領域人工智能

醫療保健大資料的技術和挑戰

繼續閱讀

機器學習 day7 kmeans 聚類算法

GPS資料類型格式 NMEA協定

推薦系統-資源整理一、綜合性文章四、算法詳解：

别輕易轉資料分析了！太卷了

python中哪些函數可以進行清單排序？

This application failed to start because it could not find or load the Qt platform plugin "

R語言| 中介效應分析，Mediation包和BruceR包，循環Process函數

一套完整實用的IT規劃方法論

miRNA與轉錄組聯合分析

進階資料分析師憑什麼月薪三萬？一文解答你所有困惑

SparkSQL項目練習1 準備資料2 需求：各區域熱門商品Top3

SQL常見計算方法總結

一篇文章帶你使用模組化的思路解決泰迪杯-智慧政務問題（答複意見評價含代碼）

資料分析實戰20絕技

從大資料看技術，為什麼天貓雙11是史上最大數字經濟節日

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開