天天看點

MIT“神谕”模型登Nature封面!破譯DNA的前世今生和未來

MIT“神谕”模型登Nature封面!破譯DNA的前世今生和未來

新智元報道

編輯:好困 拉燕

【新智元導讀】一個模型即可破譯非編碼DNA的進化曆史和未來?

今天,機器學習再次登上Nature的封面!

這次,來自麻省理工學院和英屬哥倫比亞大學等機構的研究人員建構了一個深度學習神經網絡模型——「神谕」。

利用數億次實驗觀測結果進行訓練之後,「神谕」可以預測酵母中的非編碼DNA序列的突變會如何影響基因表達。

MIT“神谕”模型登Nature封面!破譯DNA的前世今生和未來

此外,研究人員還提出了一種獨特的方法,可以在兩個次元表示适應度地形,進而讓了解酵母之外的生物體更加輕松。甚至還能設計出一種通用的基因表達模式,用于推進基因治療和工業化應用。

非編碼DNA是什麼?

雖然我們每個人體細胞都包含大量基因,但是所謂的「編碼DNA」僅僅占我們所有基因的1%。而剩下的99%,都不是具備編碼能力的DNA,不能通過這些DNA生成蛋白質。

這種非編碼DNA(戲稱垃圾DNA),有一個重要功能。即,控制基因的「開或關」,以及生成的蛋白質的數量。

随着時間的推移,細胞會複制DNA以生長和分裂。在這些非編碼區,突變時常會發生,包括功能上的微調,或是改變控制基因表達的方式。

很多突變都是不值一提的,甚至還有一些突變是有好處的。然而,這些突變偶爾也會增加一些常見疾病(比如2型糖尿病)的患病幾率,或者更嚴重的一些疾病(比如癌症)的患病幾率。

MIT“神谕”模型登Nature封面!破譯DNA的前世今生和未來

基因表達在進化中的可塑性

為更好的了解這種突變帶來的影響,研究人員一直在進行對數學圖譜的研究,進而觀察生物體的基因組,預測哪些基因會被表達,并确定該種表達會如何影響生物體可觀察的特征。

這些圖譜被稱作「适應度地形」,大約一個世紀以前,「适應度地形」被提出,目的是了解基因組成如何影響生物體的适應型,尤其是繁殖成功率。早期的圖譜比較簡單,隻關注少量的突變。

MIT“神谕”模型登Nature封面!破譯DNA的前世今生和未來

适應度地形

如今,研究人員擁有更為豐富的資料庫,但他們仍然需要額外的工具來描述這些複雜的資料,并實作資料的可視化。

這種能力一方面可以讓研究人員更好地了解一個單獨的基因是如何随着時間的推移進化,另一方面還可以幫助預測未來可能出現的基因序列和基因表達的變化。

AI在生物學領域的又一次突破

麻省理工學院的研究所學生Eeshit Dhaval Vaishnav、共同一作Carl de Boer,還有他們的同僚們,為了實作這一目标,建構了一個神經網絡模型來預測基因表達。

他們通過在酵母中輸入上百萬個完全随機的非編碼DNA序列組成的資料集訓練模型,來觀察每一個随機序列是如何影響基因表達的。

MIT“神谕”模型登Nature封面!破譯DNA的前世今生和未來

首先,研究人員在一大群酵母細胞中測量了編碼黃色熒光蛋白(YFP)基因的表達情況。

其中,不同的細胞會攜帶不同的啟動子。這些啟動子位于一小塊環狀DNA上靠近YFP基因的地方,作為蛋白質的結合位點,啟動子可以控制附近基因的表達。

具體來說,研究人員使用了3000多萬個不同的啟動子,每個啟動子的長度是80個堿基對,并對每個含有這些啟動子之一的細胞産生的YFP進行量化。

MIT“神谕”模型登Nature封面!破譯DNA的前世今生和未來

基因調控DNA的進化、可進化性和工程化

随後,研究人員将得到的表達資料輸入到卷積神經網絡之中,并訓練該網絡從資料中預測基因表達。

為了驗證其有效性,研究人員合成了數千個未用于訓練的啟動子序列,并測量了它們驅動基因表達的能力。

結果表明,神經網絡非常準确地預測了每個啟動子序列驅動基因表達的程度。

此外,研究人員還向該網絡提供了随機的起始序列,結果同樣證明了,AI從序列中預測基因表達的能力可以用于将這些起始序列轉化為極端YFP表達的啟動子序列。

最後,研究人員又合成了500個這些序列,并測量了它們驅動YFP表達的能力。結果表明計算機模拟的序列确實可以驅動非常高和非常低的表達。

MIT“神谕”模型登Nature封面!破譯DNA的前世今生和未來

為了搞清楚最基礎的進化問題,Vaishnav和他的同僚們查閱了各類論文,甚至還把一個現有的研究中所有的資料集全放到了模型裡進行嘗試。

而想建構一個強大到可以探測任何基因的工具,還需要找到一種辦法來預測非編碼序列的進化模式,哪怕沒有完整的資料集。

為了實作這個目标,他們設計出了一種計算技巧,可以把預測從架構裡插到二維圖像上。

如此一來便可以使用簡單的方式,了解任何一個非編碼的DNA蓄力了是如何影響基因表達和基因的适應性的,且無需在實驗室耗時耗力的做任何實驗。

有什麼意義?

50多年來,生物學家們都在試圖通過非編碼DNA序列來準确預測基因表達的強度。然而基因表達的生化機制是非常複雜的,即便是學界盡了最大的努力也沒有實作這一目标。

在這項研究發表以前,研究人員大多隻能使用已知的突變來訓練模型(充其量有些微小的變化)。

然而,Regev的小組邁出了更大的一步。他們建構的無偏模型,能夠預測生物體的适應性和基因表達,這基于任何可能的DNA序列,哪怕有些基因序列從來沒有見到過。

實驗證明,對于大多數起始序列,3、4個突變足以使序列演化出非常高或非常低的表達。而大約70%的酵母基因在其表達上為穩定選擇(有利于不會導緻表達發生巨大變化的突變的選擇)。

此外,受穩定選擇影響的基因對非編碼DNA突變的抵抗力更強。也就是說,其啟動子的突變在較小程度上改變了基因的表達。

MIT“神谕”模型登Nature封面!破譯DNA的前世今生和未來

「神谕」的出現和其他諸如預測蛋白質折疊的深度學習應用一樣,為科學家們探索和解釋更加廣泛的領域來帶了一種新的方法。

此外,「神谕」也能讓研究人員出于制藥目的控制細胞,這包括最新的治療癌症和自身免疫失調的疾病。

麻省理工學院的生物學博士,同時也是哈佛大學和麻省理工學院博德研究所的核心成員的Aviv Regev說:「現在,我們有一個『神谕』,我們可以向它請教很多問題,比如,如果我們把序列裡所有的突變全部嘗試一遍會怎樣、或是我們應該設計出什麼樣的新序列才能得到我們想要的基因表達。」

她表示,科學家們現在可以使用模型來解決各自的生物進化課題,和為了預期的基因表達設計基因序列的相關問題等等。

愛丁堡大學醫學研究委員會人類遺傳學部門的教授Martin Taylor表示,該研究充分說明了,人工智能不僅可以預測非編碼DNA的變化,還能揭示數百萬年生物進化的底層邏輯。

研究的局限性

盡管如此,在蘇黎世大學從事進化生物學和環境研究的Andreas Wagner表示,「神谕」也有其明顯的局限性。

其一,研究人員隻改變了啟動子--隻是可能影響基因表達的幾種類型的序列中的一種。它沒有考慮到周圍DNA變化的影響,包括可能影響基因表達的蛋白質編碼區的變化。

其二,它是為酵母而開發的,在酵母中,基因調控的複雜性遠低于人類。例如,酵母的調控DNA通常位于被調控基因的幾百個堿基對内,而動物的調控DNA可能位于數百萬個堿基對之外。是以,目前還不清楚這個方法是否能擴充到更複雜的基因調控。

最後,就像神話中的神谕一樣,這個模型可以進行預測但無法解釋。

它沒有告訴我們為什麼一個啟動子有高表達或低表達,哪些轉錄因子在啟動子上結合,或者它們如何互相作用。

換句話說,它在闡明基因表達的調控邏輯方面作用不是很大。

不過,我們依然可以保持謹慎的樂觀。

盡管用于訓練的3000萬個序列隻是DNA的4個核苷酸可能形成的所有4^80種序列的一小部分(約2×10^-41),但該方法還是非常成功的。

由此也可以推斷出,即便是在序列空間進行稀疏采樣,也大機率不會成為模型的障礙。

作者介紹

麻省理工學院的博士生Eeshit Dhaval Vaishnav是這項研究的第一作者。

他共發表過8篇頂刊論文。分别是「Nature」3篇,子刊「Nature Medicine」、「Nature Biotechnology」、「Nature Communications」各1篇,以及「Cell」1篇。

此前在印度理工學院獲得計算機科學與工程和生物科學與生物工程雙學位。

MIT“神谕”模型登Nature封面!破譯DNA的前世今生和未來

英屬哥倫比亞大學生物醫學工程學院助理教授Carl de Boer博士是共同一作。

他于2008獲得滑鐵盧大學計算機科學和生物資訊學學士學位,并于2014年獲得多倫多大學分子遺傳學博士學位,此後便一直從事博士後研究。2020年進入英屬哥倫比亞大學成為助理教授。

MIT“神谕”模型登Nature封面!破譯DNA的前世今生和未來

麻省理工學院的生物學教授Aviv Regev博士是這項研究的資深研究員。

她分别于1997年和2003年在特拉維夫大學獲得碩士和博士學位,是麻省理工學院和哈佛大學Broad研究所的核心成員以及麻省理工學院生物系的教授,也是Genentech Research和Early Development的負責人。曾與Sarah Teichmann一起創立并上司了人類細胞圖譜項目。

她的研究方向是生物網絡、基因調控和進化。工作重點是剖析複雜的分子網絡,以确定它們在面對遺傳和環境變化時,以及在分化、進化和疾病期間是如何運作和演變的。

MIT“神谕”模型登Nature封面!破譯DNA的前世今生和未來

參考資料:

https://news.mit.edu/2022/oracle-predicting-evolution-gene-regulation-0311

繼續閱讀