天天看点

通过大数据分析增强数字健康服务

医学不断产生新的影像数据,包括来自基础研究、临床研究和流行病学的数据,来自卫生行政和保险机构、公共卫生服务以及社交媒体、互联网应用等非常规数据源的数据。从多方面整合大数据可以获得用于决策支持的新工具、改进的临床研究方法、个性化护理等。

健康领域的大数据

由于在患者护理方面不断增加的记录保存需求,卫生部门一直在生成大量数据。许多可用且特别有价值的数据都处于半结构化或非结构化形式。此外,其多样性和动态性使得通过使用传统分析方法提取有价值的见解具有挑战性。

因此,健康领域的大数据是一个重要问题,不仅因为其庞大的数据量,还因为它的多样性和管理速度。处理这些数据的人的能力是有限的,因此需要有效的决策支持。因此,大数据分析必须融入健康产业。

大数据分析能够检查各种复杂的数据,并生成,否则无法获得的有价值的信息。在医疗保健领域,它不仅可以发现新兴趋势,还可以提高医疗保健质量、降低成本并促进及时决策。

正如麦肯锡国际研究所报告所述,如果大数据得到有效利用和使用,美国医疗保健系统的价值将节省超过100亿美元。每年3000亿美元,其中约三分之二来自医疗保健成本降低约8%。

通过利用大数据技术和结果的自动分析,有可能出现直到最近还鲜为人知的有用信息。大数据分析可以通过分析和连接来自多个来源的信息,将大量连续数据转化为可操作的见解。

这种提供这种洞察力的能力尤其重要,尤其是在紧急医疗情况下,因为它可以极大地决定患者生死的结果。我们在冠状病毒大流行期间看到了医疗数据的有用性,以及此类信息如何有助于大流行期间的健康危机管理。

卫生组织必须认真考虑整合处理这些有可能挽救生命的海量数据所需的技术工具。自计算机系统及其潜力发展以来,医疗保健系统中临床检查和病历的数字化已成为广泛接受的规范。

大数据通常被视为一组太大或太异构且结构复杂的数据,传统数据处理软件无法处理。大数据挑战包括收集、存储、分析、传输、共享和可视化其中包含的信息。

科学家、企业家和医疗专业人员通常需要使用来自各种来源的数据,包括来自国际文献、互联网、医疗记录、患者登记,甚至“智能”设备的大数据。

在数字健康领域,数据量的增加是现有数据数字化和新数据格式创建的结果。

可用数据量包括个人医疗记录、放射学和透视图像、临床试验、调查、人口统计数据、人类基因组、基因序列等。医疗行业数据的指数级增长是由于新型数据的整合大数据,包括三维图像、生物数据和来自传感器技术的数据。

传统上,医疗保健中可用的绝大多数数据都是非结构化数据,例如病历和医护人员描述症状、适应症、行为、医学图像等的手写笔记。

当然,结构化数据也出现了热潮近年来,诸如电子化的药品处方信息、仪器上的定量数据和测试测量、通用数据等都试图记录在一个单一的结构中,以便作为数据分析的基础。

在医疗保健领域,大多数数据传统上来自静态来源,例如X射线、医院文件、患者记录、健康日志等。然而,在某些应用程序中,需要实时处理和使用数据。

金融交易和医疗保健中的数据可靠性研究有几个相似之处:患者数据的准确性、正确填写医院或诊所字段、患者保险、与银行账户的关联、支付金额的记录等。

当然,在健康领域,有一些其他领域没有观察到的数据,比如诊断、治疗、用药、护理等信息,以及任何其他认为有必要记录的信息。无论如何,这些数据的有效性与上述数据一样重要。

医疗保健的成本是不可持续的,而且还在不断上升。然而,在医疗保健中使用和开发大数据所带来的多重好处要多得多。图1为医疗保健领域的大数据特征。

通过大数据分析增强数字健康服务

图1 医疗保健领域的大数据特征

医疗领域人工智能

在医学研究中使用人工智能有可能导致极其复杂的电子健康。机器学习(ML)被认为是最重要的科学领域之一,可以借助临床决策支持系统将其整合到疾病的诊断、预后甚至治疗过程中。

在医疗保健中使用机器学习技术的另一点是在某种程度上消除了人类的参与,从而降低了人为错误的可能性。这在处理自动化任务时尤为重要;繁琐的日常工作是人类犯错误最多的地方。

可以将k最近邻(k-NN)技术定义为非参数算法,这意味着数据集决定了模型的结构。这就是它被广泛使用的原因。

它不依赖于理论数学假设。它也属于所谓的“惰性”算法,即不需要学习或训练预测阶段使用的所有数据,所有数据都可以用于“测试”阶段。因此,数据学习速度更快,预测速度更慢且成本更高,因此更耗时和内存。

支持向量机或SVM是一组用于分类和回归的技术。它们属于广义线性分类器家族。SVM是一种实用的数据分类方法。通常,分类任务的训练和测试数据包含某些数据实例。训练集中的每个实例都包含一个目标值和许多其他属性。

SVM分类是完全监督学习的一个例子。已知标签有助于确定系统是否在正确的轨道上。SVM分类器与其他基于机器学习的分类器相比具有优越的性能。图2描述了二维的支持向量机(SVM)模型。

通过大数据分析增强数字健康服务

图2 二维SVM模型

数据聚类是一种用于识别医学数据集中结构的有用技术。k均值划分算法是最流行和使用最广泛的聚类算法之一,它属于不需要无监督学习的更大一类学习技术。

使用k-means对数据集进行聚类很简单。基本思想是找到k个质心,每个簇一个,并将每个元素链接到最近的质心,只要预先确定要形成的簇(组)的数量(k)即可。

人工神经网络简化了生物大脑的表征,尤其是人类。它们的功能和生物神经网络的结构与大脑中的生物神经元相似。他们试图将人脑的功能与严格抽象的数学思维方式结合起来,从而将人工智能与生物学和计算机的经典功能区分开来。图3描述了该算法的基本结构。

通过大数据分析增强数字健康服务

图3 神经网络的基本结构

科学家们从生物神经元的结构中获得灵感,成功地创建了所谓的人工神经元的等效模型。生物神经元在其树突中以电脉冲的形式接收输入信号,对其进行处理,然后通过轴和突触将它们传输到相邻的神经元。

使用人工神经网络的主要目标是解决特定问题或在某些过程中自主工作,例如图像识别。人工神经网络中的不透明问题是一个关键问题,尤其是在理解和解释决策的能力至关重要的安全关键型应用中。

由于神经网络的黑盒性质,识别潜在的错误或偏差来源可能具有挑战性,阻碍我们理解决策背后的潜在机制。虽然已提出生成解释或使用更多可解释模型来解决此问题,但它们可能会降低准确性或增加复杂性。

因此,研究人员和从业者必须权衡在安全关键环境中使用神经网络所涉及的权衡,并确保其使用合理且经过适当评估。

机器学习方法可用于多种应用,例如疾病诊断、患者风险分层、药物发现和资源优化。算法的选择取决于具体的用例和所分析的数据类型。一些算法,如逻辑回归和决策树,非常适合二元分类任务,而其他算法,如聚类和神经网络,可用于无监督学习和更复杂的任务。

虽然机器学习算法可以成为医疗保健分析的强大工具,但重要的是要考虑它们的局限性和潜在的偏见。机器学习算法应该经过验证和测试,以确保它们在现实世界的医疗环境中的准确性和可靠性。

开放获取卫生部门的流行病学、管理和临床数据极大地促进了研究人员的能力,这应有助于增加数据量和提高科学研究质量,以及机构和研究的科学影响力社区。事实上,有望带来最重大创新的医疗保健领域的主导趋势是数据驱动的患者护理。

记录和整理患者的所有信息可以更准确地了解正在执行的护理,以及一般情况下的人口健康管理。它还可以减少不适当的药物处方,并在许多情况下挽救生命。

医疗保健大数据的技术和挑战

尽管已经有报道称可用的健康数据呈指数级增长,但其中大部分数据都在单独的存储库中:这种现象被称为“数据孤岛”。这些本质上是保存在组织内部甚至组织的各个部分内并且外部世界无法访问的数据存储库。

组织之间和内部不同部门之间缺乏共同的协作精神不可避免地阻碍了数据共享。因此,相关机构有责任通过在员工中培养正确的精神来确保避免这种风险,这通常不是标准程序。

数据质量是指描述大数据的所有关键特征,为了有效利用数据,必须确保管理和存储数据量以及确定其大小的能力。几乎总是需要可扩展性,因为需求在不断增加,要利用的数量也在不断增加。

任何组织都必须考虑其存储、处理和使用可用数据的速度,并不断提高其性能,尤其是在数据到达速度很快的情况下。确保数据的有效性对项目的需求至关重要,并且是一个要求很高的过程。

识别所有数据源、每个数据源带来的技术挑战并有效管理它们是任何大数据分析工作不可或缺的一部分,也是一项重大挑战。

定期数据刷新是一个纯粹的技术问题,但如果不遵守,就会造成困难。它本质上是关于数据管理的。在某些情况下,需要定期删除或更新数据,并且可用的系统具有特定的功能。因此,需要确保可以执行动态数据管理。

通过新的研究、观察、科学文章等,卫生部门的需求不断增加。然而,与此同时,有助于满足需求的技术能力也在不断增加。因此,必须了解技术发展并在必要时进行干预,以克服固有的困难并扩展系统的功能。

大数据分析的一个关键领域是生成估计和预测各种情况的模型。具体来说,在医疗保健行业,需要对数据进行持续研究和对预期事件的估计,以最大限度地发挥数据的效益和价值。

需要开发工具和方法来解决医疗保健组织中使用大数据引起的所有问题,这需要集体、有组织和严格定义的努力。图4说明了医疗保健行业在使用大数据方面面临的主要挑战。

通过大数据分析增强数字健康服务

图4 医疗保健行业在大数据使用方面的主要挑战

在智慧城市概念的背景下,大数据分析在医疗保健中的整合可以在改善整体生活质量方面发挥关键作用。

医疗保健提供者可以通过利用可穿戴设备、电子健康记录和社交媒体平台等各种来源生成的海量数据,更全面地了解社区的健康需求。

这可以导致更有效和更有针对性的干预措施来解决健康问题,以及制定积极的医疗保健策略来首先避免疾病。

此外,大数据分析的使用可以帮助优化医疗资源分配、降低成本和提高效率。图5总结了在医疗保健行业实施大数据的建议策略。

通过大数据分析增强数字健康服务

图5 医疗保健行业实施大数据的建议策略

毫无疑问,在不久的将来,将投入财力和人力资源,通过大数据分析来改善医疗服务。通过使用它们解决的问题数量巨大,目前似乎还没有具有可比潜力的替代技术。

出于这个原因,可以肯定的是,未来大规模使用数据不仅会涉及“大型”机构和组织,而且每个诊所和医生都必须使用他们可用的技术工具来提供健康服务。因为大量资金被不必要地浪费了,要么是由于处理不当导致的管理效率低下,要么是治疗和诊断不正确。

更重要的是,人的因素,即健康服务的根本升级,可以开创一个新时代,是打消任何人对未来大数据分析泛滥的疑虑的最重要原因。

参考文献:

Berros, N.; El Mendili, F.; Filaly, Y.; El Bouzekri El Idrissi, Y. Enhancing Digital Health Services with Big Data Analytics. Big Data Cogn. Comput. 2023, 7, 64. https://doi.org/10.3390/bdcc7020064

继续阅读