天天看點

Science:當大資料遇上公共衛生

導語:通過大規模降低噪聲,大資料可以造福全人類

1854年,一場霍亂席卷了整個倫敦。有個叫john snow的流行病學家(現代流行病學的創始人),一心要找出霍亂爆發的源頭。他曆盡千辛萬苦,記錄了所有受到霍亂影響的房屋位置。經過了漫長且費力地調查,他終于确定了broad street上的水泵是這次霍亂爆發的源頭,即使那時候他還不知道霍亂是某種vibro病菌引起的情況下。“如果換做現在,snow就可以充分利用全球定位系統和流行病規律資料,在短短數小時内解決了問題。” 這是“大資料”在公共衛生領域的潛在影響。

但是大資料的前景也伴随着這樣的說法“這一科學方法本身正在變得過時”,随着下一代的計算機的誕生,比如ibm的watson,基于大規模資料的篩選而提供預測模型。從海量的噪聲中分離出真實信号絕非易事,但如果要讓資訊轉化成社會福利。這個挑戰必須克服。

術語“大資料”解釋為大量的、複雜的、有關聯的資訊。除了基因和其他“omic”領域,大資料也包括了醫療,環境,金融,地理和社會媒體等領域的資訊。大部分資料資訊在10年前是不存在的。資料來源持續增加,資料膨脹也将繼續升溫。大資料通過洞悉疾病的因果來改善公共健康,為精準醫療提供更好的藥物靶标,進而改善疾病預測和預防。不僅如此,科學家們将加大該資訊的使用去改善他們自己的健康。大資料能夠改善我們對健康相關行為的了解(吸煙,酗酒等),同時加速知識擴散的良性循環。

但是“大誤差”會擾亂大資料。在2013年,當流感過早地襲擊美國的時候,流感相關網際網路搜尋引擎資料分析過度估計了流感峰值,還沒有傳統公共衛生監測分析來的準确。更嚴重的問題是潛在的錯誤警報,由大規模“疾病結果的推斷性關聯分析”所引發。自相沖突的是,當我們能測量更多參數的時候,新“發現”中的錯誤預測比例也會上升。僞相關和生态謬誤也相伴而生。有很多諸如此類的例子,比如“蜜蜂的群落數量和未成年人大麻逮捕率呈負相關”。

通過要求複制研究結果和提高信号的統計顯著性,基因組學領域早已着手解決信号與噪聲的問題。這就是為什麼要運用大規模協作的流行病學研究。對于非基因關聯研究,即使使用大規模研究,大量地複制實驗和超強信号,由于變量複雜性或者其他偏差所導緻的錯誤預測也有可能發生。大資料的優勢是找到關聯,而不是解釋這些關聯的意義。找到關聯信号僅僅是第一步。

就連john snow也要先設定一個有理有據的假設,要弄清楚從何處着手,比如,選什麼樣的資料進行檢驗。如果他所用的隻是一大堆亂糟糟的資料,他也許會找到類似蜜峰群落和大麻逮捕率間的僞關聯而告終。關鍵在于,snow“做了實驗”。他移除了水泵的搖桿,明顯地降低了霍亂的傳播,也是以從關聯轉移到因果關系和有效性的尋找驗證。

如何能讓大資料在提升健康和預防疾病方面發揮更大的作用?答案是:必須有更強的流行病學研究基礎。大資料分析目前主要是基于網絡上随機的人群樣本或資訊。當用完美的測量資料(如基因序列)和低品質的測量資料(如行政釋出的健康資料)來尋找關聯性,研究的準确性将會因為最弱的關聯而降低。大資料是自然觀察的資料,充斥着許多偏差,如選擇性偏差、混雜因素和缺乏代表性資料。大資料分析應該使用具有良好流行病學特征和代表性的人群。這種流行病學方法已經很好地應用于基因組學領域,也可以推廣到其他類型的大資料研究。

大資料研究需要有一個很好的知識整合方法,可以整合包括在某個學科或跨學科領域中的反複證明過的已知的和未知的知識。需要進行知識管理、知識整合和知識轉化。資料注釋還可以通過機器學習算法來輔助。例如clingen項目,建立集中的臨床注釋的基因資源用于更好地解釋基因組的多态性和優化基因組在實踐中應用。還有新基金,如nih資助的biomedical data to knowledge基金,将研發這個領域新的工具。

另一個需要解決的重要問題是大資料是一個假設産生(hypothesis-generating)機器,即使在建立了強關聯後,評估健康相關效用的證據仍然是必須的(如評估健康益處和害處的平衡)。利用基因組和大資料資訊做研究必須使用随機臨床試驗和其他試驗設計。急救醫學中是否可以應用大資料關聯分析,仍然需要進一步的幹預性研究進行論證。是否可以作為預測工具也需要進一步論證。換個說法,我們應該擁抱(不是逃離)循證醫學原則。我們應該從臨床多樣性(證明大資料和疾病之間的強關聯)轉向臨床有效性(回答“誰在乎who cares”健康影響問題)。

與基因組學研究領域一樣,基于大資料的擴充性轉化醫學研究計劃将會使研究比原來更深入。在基因組學研究領域,大多數發表的研究既包括基礎醫學研究也包括健康相關檢測和幹預的臨床前研究。在這些研究之後,需要實作從實驗室到臨床的轉化。但目前在現實世界中進行驗證、評估、實施、政策、溝通和預後研究的隻占公開發表研究的 1%不到。要從大資料中獲益需要“大局(big data)”視角。

将大資料引入到公共衛生領域的事業才剛剛起步。如果我們能夠整合較強的流行病學研究基礎、有力的知識整合方法、遵循循證醫學的原則,擴充轉換醫學的規模和計劃,會将大資料帶到正确的道路上來。

原文釋出時間為:2015-05-07

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号

繼續閱讀