天天看點

[Google] Baseline工程把基因大資料化

[Google] Baseline工程把基因大資料化

google 在下一盤大棋。

縱觀幾年,谷歌蘋果三星微軟幾家巨頭在健康領域投入越來越大,勢頭愈加生猛。據華爾街日報報道,緊接無人駕駛汽車,隐形眼鏡式血糖儀,高原氣球網絡服務,google俨然開始了一項自公司成立以來最具野心,最為困難的科學項目,一個“登月”工程。google x 實驗室開始了 baseline“基線”項目,大量收集人類基因組标本并利用大資料合成一份完美的健康人類基因圖譜,為多種疾病的提早發現及治療提供前提。

基線工程的第一步是采集175個參與者的匿名基因和分子資訊,取樣包括基因排序,血液,唾液,眼淚,尿液,以及參與者的食物及藥物代謝資訊,心率,家族病史等,第一波測量過後,參與者将佩戴可穿戴測量裝置,持續提供體征資訊。google将通過第三方的隐私過濾得到匿名的基因組資訊。下一步将把實驗群體擴大到數千人,獲得更多更廣的基因資料。

項目上司者分子生物學家安德魯·康拉德(andrew conrad)2013年3月加盟google,現在已經建立起了一支70-100人的隊伍,包括生理,生物化學,成像和細胞生物學的專家。康拉德認為基線工程處在剛剛起步階段,基因圖譜的制作和分析是一項極其艱難的工作,我們對于dna,蛋白,酶類間的互相關系和外界的影響知之甚少,但随着掌握的資料量增多,依賴google 強大的大資料計算能力,研究者們可以從海量的基因組資料中獲得生物标記(biomarker)的規律,而這些生物标記将對預防,治療,制藥領域産生強大的引領和促進作用。

舉例來說,每個人對于食物脂肪的代謝功能都是不一樣的,部分人的基因組中缺乏幫助人體代謝多餘食物脂肪的生物标記,進而導緻早年的心血管疾病,通過資料收集,研究者們可以準确的定位生物标記在基因中的位置,确定新病人是否缺乏這段标記,及時做出準确的治療和飲食推薦。大量減少心血管疾病的發生。

[Google] Baseline工程把基因大資料化

既然基因組的作用如此強大,在google之前為什麼沒有人開始同樣的收集工作呢?原因很簡單,沒錢沒時間。人類的基因組及其龐大,一個基因組由十萬以上的基因分段組成,每個基因段又由成百上千個核苷酸配對組成,放在幾十年前,受集一份整套的基因組的工作量是不可想象的。2001年,第一份基因組才被排序成功,而在十年前,單單一份基因排序需要一億美金,随着排序技術的發展,如今隻需要1000美金就可以完成。但一般的公司和個人還是支付不起系統性收集基因組的。記着之前在學校學起dna排序時,十分激動的問生物老師我們要是收集幾萬人的dna後通過大資料豈不是可以把人體的秘密通通展現出來,老師淡然一笑:好想法,你有錢嗎?

我沒有,但是google财大氣出,魄力十足。

有人可能會好奇當今基因排序技術的準确度,老實說,不是很高,emory大學的神經學系主任allan levey在講座中勸告聽衆不要盲目花錢做基因排序,提到一位老友的故事:50歲後這位仁兄去做了一個基因排序以防基因病來得錯手不急,結果發現他的app基因突變了,這個基因突變理論上必然導緻老年癡呆症(alzheimer’sdisease),結果老兄喪氣地找到levey 教授尋求解釋,經過一番測試後發現他已經過了開始發病年齡卻一點症狀沒有,後來發現是基因排序出了差錯。這類事件時有發生,但是終歸是針對個人案例的。大資料的絕對優點就是海量資料彌補個别差錯。或許基線工程的第一波實驗結果會出現不準确的風險,但是幾年後,當實驗群擴張到千人甚至萬人的時候,通過計算足以剔除dna中的大量無用分段和錯誤資訊,将研究者的目光直接導向緻病的基因段。人類的健康基因圖譜将得到越來越多的完善,接近完美。

那麼關于老生常談的隐私問題呢?google 已經建立起當今世界上最為強大的電腦和資訊網絡來支撐搜尋引擎和youtube這樣強勁的資料捕獲手段,今年年底又要利用安卓涉足穿戴式裝置領域,資料的掌控量之恐怖,自然會讓我們不放心google獲得大量的基因組資料。康拉德在采訪中提到google将與斯坦福和杜克大學的醫學院合作,兩個大學将把基線工程參與者的身份資訊抹掉,把匿名資料交給google,聽起來讓人稍稍安心一些,但仔細想想,那些被抹掉的也隻是參與者的資訊,google獲得的卻是人類身體中最為珍貴的秘密,如果google不将這些計算後的結果公開,而單獨和幾家制藥公司分享,我們作為普通老百姓可能一點辦法沒有,任由巨頭們把我們的弱點和需求看個透。

google創始人之一拉裡佩奇(larry page) 多次提到大資料在健康和醫藥領域的巨大潛能,常常不忿隐私法律對于人體資料擷取的制約,現在來看,google可能在建立一個獨立的龐大資料池,僅供自己所用,直接繞過隐私法獲得資料,為其資料計算能力找到了新的用武之地。我們隻能寄希望于斯坦福和杜克為大衆把好隐私關,制約google的資料用法和走向。

google在讓我們更清晰的了解自己身體秘密的同時,是否正在将我們趨向一個沒有隐私的時代,我們不得而知,隻能猜想和等待。

原文釋出時間為:2014-07-28

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号

繼續閱讀