CMU副教授馬堅：精準基因組資料和智能醫療最新進展

個人簡介：馬堅，現任美國卡内基梅隆大學（CMU）計算機科學學院副教授。大學畢業于複旦大學計算機系，先後在美國賓夕法尼亞州立大學計算機科學與工程系師從計算生物學先驅 Webb Miller 從事博士研究，在加州大學聖克魯斯分校的美國科學院院士 David Haussler 實驗室進行博士後研究。2009年至2015年在伊利諾伊大學香槟分校任助理教授和副教授（并獲終身教授），于2016年1月加入卡内基梅隆大學計算機科學學院，是 CMU 計算機學院計算生物系和機器學習系的 Faculty。他的實驗室主要從事針對基因組結構和功能的機器學習算法開發并應用于了解疾病的分子機理。他的實驗室長期得到美國國家科學基金會（NSF）和美國國家衛生署（NIH）的支援。他曾獲美國國家科學基金會（NSF）CAREER 獎，Genome Technology 雜志評選的未來 PI 稱号，入選伊利諾伊大學高等研究中心 Fellow 和美國國家超級計算應用中心 Fellow。他也是中國聲谷人工智能專家委員會成員。網頁：http://www.cs.cmu.edu/~jianma/

馬堅：謝謝大家！感謝新智元邀請。我講的内容跟之前演講的康奈爾大學醫學院的王飛教授提到的問題大方向非常一緻，但是我想分享一下我自己的實驗室最近的一些工作，圍繞着怎麼用基因組資料在智能醫療和智能健康發展中起到一些作用。

首先，我們先介紹一下概況，智能醫療的過去、現在和将來。回想一下小時候生病就是去醫院，通常醫生通過一些儀器檢驗提出治療建議。而現在出現了各種各樣的大規模資料、可穿戴裝置、輔助醫療的工具和平台等跟計算機有關的解決方案，使醫生的工作可以更加簡便有效。

将來會怎麼樣？有很多高通量生物技術現在正在發展中，比如基因組測序，還有基因編輯，可以修改我們基因組中的一些資訊。就像你打字打錯了，可以把它改過來一樣。最終目标是實作高解析度、高精準度的個性化建議和治療。可以通過資料驅動，用高通量技術和計算機模組化提高整個社會的醫療效率。

我們比較一下就能看出智能醫療确實存在一些挑戰。現在很火的阿爾法狗以及自動駕駛，它們存在一些規律：首先要建一個模型，接下來要看這個模型是否可行，然後需要做真實實驗，并得到資料化的回報進而提高模型。

圍棋的規則很明确，資料模型很容易建構，真實實驗基本無成本，瞬間回報，實驗高效。無人駕駛要難一些，規律相對明确，資料情況相對複雜，真實實驗有一定的風險，回饋基本是瞬間回報，資料量很大。我們再看一下癌症這個例子。我們是不是了解癌症這個問題的規則了呢？就目前來說，它發生的規律還不是很明确，大家還沒有從基礎研究角度在分子機理上完全了解癌症是怎樣被引發的。資料模拟比較困難，因為不知道它的成因，是以模拟耗時長，成本高，資料量不足。次元很高，特點很多，但是資料量并不是很大，這些都是挑戰。

但是我覺得這些問題是可以解決的。這張圖是基因組資料的增長，而我剛才提到的那些挑戰，我覺得基因組的研究中能起到很大的推動作用，因為它是從分子層面去了解我們身體細胞的運作機理。從這個圖能看出，2001年在人類基因組計劃剛剛結束的時候，測一個人的基因組的30億個堿基對，需要花費約1億美元的成本。現在測一個全基因組可能隻需花費不到1千美元，将來還會越來越便宜。圖中有一個拐點，是由于2007年時候高通量技術快速發展使得測序成本大大降低。

最近有科學家做了預測，認為大概到2025年時，基因組資料量會超過Youtube、天文資料、還有Twitter的資料量之和。這其中最大的推動力就是測序成本的降低。現在測序儀可以做到比手機還小，通過這種可移動測序方式，可以預見今後幾年内資料會呈指數級增長。

人類的基因組有30億個堿基對，如果把23對染色體連起來，有約 6英尺這麼長，而細胞核直徑就5微米左右，6英尺的DNA就繞在5微米的細胞核内。基因組上的基因産生蛋白質，蛋白質完成了人體細胞内不同的功能。編碼區是指DNA産生蛋白質的區域，而這部分在基因組裡面不到2%，還有98%的部分被稱為非編碼區，它的具體功能是什麼？到底怎麼運作？現在我們隻有一些片面了解。基因組的大部分區域的主要功能是什麼？這是現在的一個研究熱點。

我們身體上有不同的細胞，基因組在不同細胞中就DNA序列而言是基本一樣的。但是我們身體上有各種各樣的細胞類型，皮膚細胞、肝髒細胞、肌肉細胞等等，這些不同細胞有不同的細胞形态。幾乎相同的基因組可以産生不同的細胞，主要原因是不同細胞的基因表達和表觀基因組不一樣。我們一直在探索同一個基因組，在不同細胞中，對不同的疾病、對整個人的身體運作到底起什麼作用？你想了解不同的疾病，那麼從怎麼根本上了解細胞系為什麼不同是非常關鍵的問題，因為某類疾病通常在某一個細胞系上，尤其像癌症。

當然你僅僅把基因組資料拿到是遠遠不夠的。要真正的實作智能醫療，真正了解不同的疾病的關鍵成分，需要了解分子的機理。在這本喬布斯傳中寫到他當時花了10萬美元去分别檢測它的正常基因組和胰腺癌惡性良性腫瘤的基因組。他想通過DNA測序知道他的癌症如何治療更有效，但結果并沒有給治療帶來太多幫助。這隻是一個例子，關鍵是如果技術不是問題，可以測得基因組全部資訊，下一步就要去了解對一個病人來說，比如說對喬布斯的胰腺癌來說，最有效的治療手段是什麼？怎樣控制癌症？如何進行有效的治療。

我們來看一下，像計算機算法、機器學習、人工智能在這個過程中能起到什麼作用？與圍棋，自動駕駛相比，基因組層面要實作對智能醫療的貢獻有什麼挑戰？首先是目前對基因組分子水準的認識還是相當有限，我們對大部分複雜疾病的分子機理了解甚少，盡管目前通過各種資料積累和技術手段認識有了一定的加深。我們至今對各類疾病的異構性缺乏了解，剛才也提到了，即使同樣一種癌症，不同的病人，他們的緻病機理可能非常不同，需要對每一個病人提供個性化的研究和治療。

其中我們對各種模态的資料之間的關系還不是很了解，基因組隻是一類資訊，即使在基因組上也有各種各樣的模态資料，有基因組序列，有基因表達資料，有表觀基因組的資料，還有蛋白組資料。這些資料之間到底是什麼關系，我們不太了解，如果确實需要最有效整合，需要了解不同模态資料之間的關系。

我舉幾個例子，這是過去一兩年中我自己的幾個研究所學生做的項目，我們想開發一些機器學習的方法從比較基礎層面了解剛才我提到一些問題。第一個例子，左圖是乳腺癌癌細胞，正常人的細胞有23對染色體，而癌症基因組染色體會産生極大的變化。正常的話會看到同顔色并排兩條染色體，但是現在能看到有的顔色譬如有4、5條，還有的染色體在癌細胞中有不同的顔色，說明它在癌細胞中産生了很多拷貝數變化以及重排。這是我兩年前畢業的學生做的博士論文課題，他建構了Probabilistic Graphical Model。因為在研究過程當中會發現有很多潛變量，但你想預測這些潛變量會比較困難。測序後你隻能在基因組上看到它測序後read數，但是你想知道的是，對于每一條染色體來說，它的拷貝數在每一個位點上是什麼樣的，這是一個潛變量。這是第一個例子。

第二個例子，假設你已經能夠把每一個癌症基因組裡面産生的突變全部找出，怎麼判斷哪個突變對于某一個病人來說最重要。這個巨大的挑戰就是異構性。但在這種情況下我們可以設計一些方法，對于這些突變做一些個性化的預測。

這個又稱為長尾現象，X軸指不同的基因，不同的位點，Y軸指病人的數量，可以看到大部分的位點，基因突變次數其實很少，那怎樣知道對某一個病人來說這個突變就會很重要呢？這個是我的一個MD/PhD學生做的課題，他研究了不同的突變在單個病人基因組裡面到底起什麼作用，并建構了一些模型。通過這種網絡圖直覺了解基因間不同調控的關系并做一些預測

接下來這個例子，可能跟表觀基因組更相關，剛才提到6英尺染色體可以繞在5微米細胞核裡面，這個過程極其有規律。如果産生一些不應有的變化，就會導緻各種各樣的問題。比如說右圖的例子是早衰症，綠色的部分這是一個正常的細胞的核纖層蛋白，這個細胞核形狀應該是圓形的。但是這個早衰症小孩的細胞呈不規律的形狀。這種變化導緻染色體在細胞核内部空間上的組成産生變化，這是一個主要的緻病問題。在癌症等其他的疾病裡面，也存在這種變化。也就是說染色體并不是一個你看到的線性序列，實際上是一個立體的空間結構。也就是說兩段序列在一維空間可能離得很遠，但是三維空間就很近，中間這個例子就是這種繞圈關系。

最近我們感興趣的是，兩段序列在某一個細胞系裡在空間上是不是離的很近？因為這些距離關系對于基因調控有很大影響。這是一個特定的基因組問題利用機器學習方法，如果我給你兩段序列，一種叫enhancer一種叫promoter，我能不能預測他們空間上是否離的很近。我們借用了一些自然語言進行中的模型，比如機器翻譯，嘗試了一些深度學習的結構，來做距離關系的預測，效果不錯。有了這樣的模型，就可以擴充工具，有了預測工具看到突變我們就知道這個突變是不是打斷了原來應有的空間互動。我們嘗試了在皮膚癌樣本裡找相關一個例子，原來應該有一個繞圈關系，由于一個突變這個繞圈關系被打斷了。

現在我們開始做不少多模态資料的整合方面的工作。我們發現現在很多做影像隻是做影像，與基因組資訊結合不足。我們最近做了一個小項目，我們用乳腺癌的H&E染色圖像，通過影像分析細胞空間上的組成，建立一個預測模型，能不能通過這個影像的一些結構預測是乳腺癌的哪個亞種？或者基因表達應該是什麼樣？除此之外我們還想嘗試怎樣了解基因組層面資訊，和可以看到的疾病類型還有可以從影像當中看到的細胞形态空間上的組合，這兩者之間的關系。在對這些不同模态資訊了解的基礎上可以更加有效的整合不同的資料。

我剛才講，基因組給了我們很多資訊以及不同模态資料。但是每個人情況都不同，每個人對于不同的疾病基線也不同，生活的環境、飲食、活動、情況這些都不太一樣。根據每個人的基線做一些預測，根據個人化的資訊做出醫療建議。這就是高解析度，你可以知道你做的每一步對這個人來說，基線在什麼地方，高精準的根據個人化的資訊做一些建議。

最後一個圖是一些展望。我們到目前為止主要研究的基因組資料隻是專業化資料中的一部分，基因組不能解決一切。可能我們現在知道的不多，資料量有限，需要資料采集。但是可以與其他的資訊做結合，比如說跟影像、醫療記錄結合，也可以在各種各樣的移動裝置上采集資訊，這兩者資訊之間怎麼更好結合？這個是大家所關心的問題。要實作我們的展望：今後你不隻是活得還不錯，還要活得開心，隻靠醫療資料是不夠的，醫生不隻是治病，也能對你平時的生活習慣提出建議，通過資料驅動，以及模組化來使你生活方式、整個社會醫療都能夠提高效率。

學術界以及工業界需要更多創新性的合作，因為學術界或許有一些新的算法，但可能資料的質和量都不是特别好。這時就需要業界的一些支援，甚至政府的一些幫助，包括剛才說到跟隐私相關的等等，需要各個環節在一起合作。健康不僅僅是醫生的，也不僅僅是人工智能的，健康是每一個人的、可以行動和改變的。我們所要做的，是基于資料，為這樣的行動和改變，提出建議。講到這裡，謝謝大家！

原文釋出時間為：2017-11-29

本文作者：AI WORLD 2017

本文來自雲栖社群合作夥伴新智元，了解相關資訊可以關注“AI_era”微信公衆号

CMU副教授馬堅：精準基因組資料和智能醫療最新進展

繼續閱讀

開源低帶寬語音編解碼器

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希