天天看点

Science:当大数据遇上公共卫生

导语:通过大规模降低噪声,大数据可以造福全人类

1854年,一场霍乱席卷了整个伦敦。有个叫john snow的流行病学家(现代流行病学的创始人),一心要找出霍乱爆发的源头。他历尽千辛万苦,记录了所有受到霍乱影响的房屋位置。经过了漫长且费力地调查,他终于确定了broad street上的水泵是这次霍乱爆发的源头,即使那时候他还不知道霍乱是某种vibro病菌引起的情况下。“如果换做现在,snow就可以充分利用全球定位系统和流行病规律数据,在短短数小时内解决了问题。” 这是“大数据”在公共卫生领域的潜在影响。

但是大数据的前景也伴随着这样的说法“这一科学方法本身正在变得过时”,随着下一代的计算机的诞生,比如ibm的watson,基于大规模数据的筛选而提供预测模型。从海量的噪声中分离出真实信号绝非易事,但如果要让信息转化成社会福利。这个挑战必须克服。

术语“大数据”解释为大量的、复杂的、有关联的信息。除了基因和其他“omic”领域,大数据也包括了医疗,环境,金融,地理和社会媒体等领域的信息。大部分数据信息在10年前是不存在的。数据来源持续增加,数据膨胀也将继续升温。大数据通过洞悉疾病的因果来改善公共健康,为精准医疗提供更好的药物靶标,从而改善疾病预测和预防。不仅如此,科学家们将加大该信息的使用去改善他们自己的健康。大数据能够改善我们对健康相关行为的理解(吸烟,酗酒等),同时加速知识扩散的良性循环。

但是“大误差”会扰乱大数据。在2013年,当流感过早地袭击美国的时候,流感相关互联网搜索引擎数据分析过度估计了流感峰值,还没有传统公共卫生监测分析来的准确。更严重的问题是潜在的错误警报,由大规模“疾病结果的推断性关联分析”所引发。自相矛盾的是,当我们能测量更多参数的时候,新“发现”中的错误预测比例也会上升。伪相关和生态谬误也相伴而生。有很多诸如此类的例子,比如“蜜蜂的群落数量和未成年人大麻逮捕率呈负相关”。

通过要求复制研究结果和提高信号的统计显著性,基因组学领域早已着手解决信号与噪声的问题。这就是为什么要运用大规模协作的流行病学研究。对于非基因关联研究,即使使用大规模研究,大量地复制实验和超强信号,由于变量复杂性或者其他偏差所导致的错误预测也有可能发生。大数据的优势是找到关联,而不是解释这些关联的意义。找到关联信号仅仅是第一步。

就连john snow也要先设定一个有理有据的假设,要弄清楚从何处着手,比如,选什么样的数据进行检验。如果他所用的只是一大堆乱糟糟的数据,他也许会找到类似蜜峰群落和大麻逮捕率间的伪关联而告终。关键在于,snow“做了实验”。他移除了水泵的手柄,明显地降低了霍乱的传播,也因此从关联转移到因果关系和有效性的寻找验证。

如何能让大数据在提升健康和预防疾病方面发挥更大的作用?答案是:必须有更强的流行病学研究基础。大数据分析目前主要是基于网络上随机的人群样本或信息。当用完美的测量数据(如基因序列)和低质量的测量数据(如行政发布的健康数据)来寻找关联性,研究的准确性将会因为最弱的关联而降低。大数据是自然观察的数据,充斥着许多偏差,如选择性偏差、混杂因素和缺乏代表性数据。大数据分析应该使用具有良好流行病学特征和代表性的人群。这种流行病学方法已经很好地应用于基因组学领域,也可以推广到其他类型的大数据研究。

大数据研究需要有一个很好的知识整合方法,可以整合包括在某个学科或跨学科领域中的反复证明过的已知的和未知的知识。需要进行知识管理、知识整合和知识转化。数据注释还可以通过机器学习算法来辅助。例如clingen项目,建立集中的临床注释的基因资源用于更好地解释基因组的多态性和优化基因组在实践中应用。还有新基金,如nih资助的biomedical data to knowledge基金,将研发这个领域新的工具。

另一个需要解决的重要问题是大数据是一个假设产生(hypothesis-generating)机器,即使在建立了强关联后,评估健康相关效用的证据仍然是必须的(如评估健康益处和害处的平衡)。利用基因组和大数据信息做研究必须使用随机临床试验和其他试验设计。急救医学中是否可以应用大数据关联分析,仍然需要进一步的干预性研究进行论证。是否可以作为预测工具也需要进一步论证。换个说法,我们应该拥抱(不是逃离)循证医学原则。我们应该从临床多样性(证明大数据和疾病之间的强关联)转向临床有效性(回答“谁在乎who cares”健康影响问题)。

与基因组学研究领域一样,基于大数据的扩展性转化医学研究计划将会使研究比原来更深入。在基因组学研究领域,大多数发表的研究既包括基础医学研究也包括健康相关检测和干预的临床前研究。在这些研究之后,需要实现从实验室到临床的转化。但目前在现实世界中进行验证、评估、实施、政策、沟通和预后研究的只占公开发表研究的 1%不到。要从大数据中获益需要“大局(big data)”视角。

将大数据引入到公共卫生领域的事业才刚刚起步。如果我们能够整合较强的流行病学研究基础、有力的知识整合方法、遵循循证医学的原则,扩展转换医学的规模和计划,会将大数据带到正确的道路上来。

原文发布时间为:2015-05-07

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“bigdatadigest”微信公众号

继续阅读