天天看點

AI成功改寫人類DNA,全球首個基因編輯器震撼開源!

作者:新智元

編輯:編輯部

【新智元導讀】剛剛,分子生物學界引爆核彈級消息:人類的DNA,已經能由AI重新改寫了!初創公司Profluent宣布開源了世界首個AI設計基因編輯器,成功編輯了人類細胞中的DNA。這可太科幻了,如果有機會,你會選擇「改造」自己的DNA嗎?

AI,能夠重寫人類基因組了?

就在剛剛,初創公司Profluent宣布,完全由AI設計的基因編輯器,已經成功編輯了人類細胞中的DNA。

也就是說,世界上首個使用AI從頭設計的分子級精确基因編輯器誕生了。

AI成功改寫人類DNA,全球首個基因編輯器震撼開源!

就像ChatGPT能生成詩歌一樣,Profluent這個全新的AI系統,可以讓我們編輯自己DNA的微觀機制生成藍圖。

在迄今最廣泛的基于CRISPR的基因編輯系統資料集上,研究者訓練了LLM。這些LLM産生的蛋白質,将幾乎所有天然存在的CRISPR-Cas家族的多樣性,擴大了4.8倍!

并且,基因編輯器在人類細胞中顯示出了與SpCas9(一個示例基因編輯器)相當或更好的活性和特異性,同時距離超過400個突變。

這也就意味着,我們掌握了自己的基因組密碼。未來的科學家,會比今天更精确、更快速地對抗疾病。

而且,公司還決定,會在OpenCRISPR協定下,自由釋放這些DNA分子。

AI成功改寫人類DNA,全球首個基因編輯器震撼開源!

OpenCRISPR-1的實體結構,OpenCRISPR-1即是由Profluent的AI技術建立的基因編輯器

Profluent聯創Ali Madani表示,「嘗試用AI設計的生物系統,編輯人類DNA是一次科學登月之旅」。

「我們的成功表明,在未來,AI可精準設計出一系列定制的疾病治療方案」。

有網友表示,「是時候重新程式設計人類了嗎?AI驅動的CRISPR技術進步,正挑戰着基因倫理的邊界」。

AI成功改寫人類DNA,全球首個基因編輯器震撼開源!

如果你可以改變自己的DNA,你會這麼做嗎?

AI成功改寫人類DNA,全球首個基因編輯器震撼開源!

貧血、失明疾病的基因,由我們自己修改

初創公司Profluent在剛剛發表的這篇論文中,較長的描述了這項技術。

AI成功改寫人類DNA,全球首個基因編輯器震撼開源!

論文位址:https://www.biorxiv.org/content/10.1101/2024.04.22.590591v1.full.pdf

論文預計将于下月,在美國基因與細胞治療學會年會上發表。

這項技術和驅動ChatGPT的方法是一樣的,它在分析大量生物資料後,創造了新的基因編輯器,包括科學家已經用于編輯人類DNA的微觀機制。

這些基因編輯器基于的是諾獎的獲獎方法,涉及一種名叫CRISPR的生物機制。

AI成功改寫人類DNA,全球首個基因編輯器震撼開源!

基于CRISPR的技術誕生後,即在業界引起轟動。它改變了科學家研究疾病的方式。

在以前,如果我們不幸得了鐮狀細胞性貧血和失明這樣的遺傳性疾病,往往束手無策,而現在,CRISPR技術可以直接讓我們修改導緻這些疾病的基因了!

AI成功改寫人類DNA,全球首個基因編輯器震撼開源!

CRISPR方法使用的是我們在自然界中發現的機制:從細菌中收集的生物材料,竟然神奇地賦予了這些微生物抵抗細菌的能力。

加州大學舊金山分校生物工程和治療科學系教授兼系主任James Fraser介紹說,這些生物材料從未在地球上存在過,而Profluent的AI系統,正是從大自然中學習如何創造這些全新的東西。

如果這些技術繼續發展,所産生的基因編輯器,或許會比我們人類經過數十億年進化磨練的基因編輯器更靈活、更強大。

現在,Profluent表示正在開源OpenCRISPR-1編輯器,這也就意味着,個人、學術實驗室和公司都能免費使用這些技術。

AI界常見的開源,可以加速新技術的産生。不過,對于生物實驗室和制藥公司來說,像OpenCRISPR-1這樣的開源并不常見。

當然,Profluent也隻是開源了其AI技術生成的基因編輯器,并沒有開源AI技術本身。

AI成功改寫人類DNA,全球首個基因編輯器震撼開源!

由OpenCRISPR-1編輯的人類細胞延時攝影

AI編輯蛋白質,為何意義重大

目前,蛋白質工程界想要複制功能性蛋白質,或者用「定向進化」來疊代修飾,通常還是需要從自然界中複制。

許多對人類有重大意義的蛋白質,都是我們偶然發現的,比如狗的胰島素、酸奶設施中的Cas9和經常造成食物中毒的肉毒杆菌毒素。

大型生成蛋白質語言模型的作用,就是可以捕獲使天然蛋白質發揮作用的基本藍圖。它們勾勒出一條捷徑,可以繞過進化的随機過程,推動人類有意識地為特定目的設計蛋白質。

Cas9蛋白,是CRISPR-Cas9基因編輯系統的核心組成部分,它是一種RNA引導的核酸酶,可以搜尋人類基因組中的所有30億個核苷酸,并在一個特定位點進行切割。

AI成功改寫人類DNA,全球首個基因編輯器震撼開源!

這種核酸酶與單導RNA(sgRNA)複合在一起,sgRNA由一個在結構上與蛋白質互相作用的支架和一個間隔序列組成,後者可通過程式設計靶向基因組中的任何位點。

AI成功改寫人類DNA,全球首個基因編輯器震撼開源!

棘手的是,大多數Cas9蛋白的長度超過1000個氨基酸,整個設計空間包含20^1000種可能的序列,比起可觀測宇宙中的原子數量,它都要高出幾個數量級!

AI成功改寫人類DNA,全球首個基因編輯器震撼開源!

而且,由于這些蛋白質必須以精确的順序協調許多互相作用,才能實作精确切割,是以即使是單個錯位突變,也可能完全消除蛋白質的功能。

如果通過實驗窮盡所有可能的序列變異,許多科學家幾輩子時間都做不完。

然而,AI系統卻能很輕松地探索整個搜尋空間,發現功能性的基因編輯器。而且,隻需要花幾個小時!

全球首個開源基因編輯器,改寫人類DNA

基因編輯器OpenCRISPR-1,由一個Cas9樣蛋白質,和引導RNA(guide RNA)構成。

正如之前所述,它是完全由Profluent的AI大模型開發的。

在具體實作過程中,研究人員對26TB組裝的「基因組」和「元基因組」資料庫系統進行挖掘,整理出超100萬個CRISPR操縱子(operon)的資料集。

通過訓練OpenCRISPR,AI從大規模序列和生物背景中學習,生成了自然界不存在的數百萬種CRISPR樣蛋白。

AI成功改寫人類DNA,全球首個基因編輯器震撼開源!

研究人員稱,AI生成了自然界中已發現的「CRISPR-Cas家族」的4.8倍的蛋白質叢集,完全實作了指數級擴充!

而且,語言模型還為類Cas9效應蛋白定制了單引導RNA序列。

與原型基因編輯效應器SpCas9相比,幾個生成的基因編輯器顯示出,可比或改進的活性和特異性,同時在序列上相差400個突變。

最後,研究人員還證明了AI生成的基因編輯OpenCRISPR-1與堿基編輯的相容性。

這項研究中的關鍵結果,具體如下。

AI生成4.8倍「CRISPR-Cas」蛋白質宇宙

生成蛋白質語言模型通常是在,大型涵蓋多種系統發育和功能的天然蛋白序列的資料集上,進行預訓練 。

這些模型能夠生成,反映天然蛋白質分布和特性的真實蛋白質序列。

然而,對于特定的應用,例如新型基因編輯器的生成,有必要将生成過程導向特定的感興趣的蛋白家族子集。

AI成功改寫人類DNA,全球首個基因編輯器震撼開源!

對此,研究人員進行了詳盡的資料挖掘來建構資料庫。

他們搜尋了26.2TB的組裝微生物基因組和宏基因組,發現了1,246,163個CRISPR-Cas操縱子。

AI成功改寫人類DNA,全球首個基因編輯器震撼開源!

與CRISPRCasDB和CasPDB等精選資料庫,以及世界上最大的蛋白質資源UniProt相比,最新建立的資料庫顯示出更大的多樣性。

通過總結共性,研究人員發現了所有CRISPR-Cas蛋白的單一模型,能夠生成跨家族的不同序列。

為了生成新型CRISPR-Cas蛋白,作者在CRISPR-Cas Atlas上微調了基于ProGen2的語言模型,由此平衡了蛋白家族的表示和序列簇大小。

從這個模型中,研究者生成了400萬個序列。

其中一半是直接從模型生成的,另一半是由天然蛋白質N或C末端的最多50個殘基提示,以引導向特定蛋白的生成。

為了評估其新穎性和多樣性,作者使用MMseqs2對每個家族的生成序列和天然序列按70%的同一性進行了聚類。

結果發現,與CRISPR-Cas圖譜中的天然蛋白相比,生成序列實作了4.8倍的多樣性擴充。

對于天然蛋白質很少的家族,比如Cas13和Cas12a,生成序列的多樣性分别增加了8.4倍和6.2倍。

另外,隻需要極少的上下文,即提供50個或更少的殘基,就能針對某一特定科引導序列生成與感興趣的科保持一緻。

AI成功改寫人類DNA,全球首個基因編輯器震撼開源!

100萬個類Cas9蛋白全部生成

雖然許多CRISPR-Cas蛋白已被用于基因組編輯 ,但Cas9仍是應用最廣泛的一種。

為了生成類Cas9的新序列,研究人員從CRISPR-Cas圖譜中采樣,Cas9的N端或C端50個殘基,對CRISPR-Cas模型進行了提示。

這裡,作者使用了CRISPR-Cas Atlas中238917條Cas9序列,對另一個語言模型進行了微調。

這一模型生成可行的類Cas9序列的速度是CRISPR-Cas模型的2倍(54.2%),而且需要任何提示。

AI成功改寫人類DNA,全球首個基因編輯器震撼開源!

為了探索II型效應器的潛在序列分布,研究人員使用Cas9模型生成了100萬個Cas9蛋白。

生成的可存活代(n=542,042)與同一性為40%的天然Cas9聚類在一起,并用作建構最大似然系統發育樹的輸入(圖2a)。

引人注目的是,生成的蛋白質主導了系統發育的格局,占系統發育總多樣性的94.1%。

與整個CRISPR-Cas圖譜相比,多樣性增加了10.3倍(圖2b)。

新的系統發生群分布在整個樹中,這表明該模型捕捉到了Cas9的全部多樣性,并沒有過度拟合任何特定系。

生成的序列與CRISPR-Cas圖譜的差異很大,與任何自然序列的平均同一性隻有56.8%(圖2c)。

總體而言,生成的序列與同一蛋白質簇中天然蛋白質的長度密切比對,皮爾遜相關性為0.97(圖2d)。

此外,圖2e顯示了,天然Cas9、祖先序列重建和48個生成蛋白的靶上和脫靶的編輯效率。圖2f展示了自然Cas9、祖先序列重建,以及生成蛋白在靶向編輯效率和特異性方面的對比。

AI成功改寫人類DNA,全球首個基因編輯器震撼開源!

生成的基因編輯器,在人類細胞中發揮作用

然後,研究者進一步将關注範圍縮小到CRISPR-Cas9系統,并在CRISPR-Cas圖譜中的238,917個Cas9蛋白上,訓練了蛋白質語言模型。

使用這些模型,研究者生成了可與SpCas9互操作的Cas9樣蛋白。也就是說,它們與基因組的相同部分(PAM)結合,并與相同的sgRNA相容,是以,它們可用于相同的應用。

研究者選擇了其中48個生成的序列,用于在人類細胞中進行嚴格的功能表征。

最熱門的OpenCRISPR-1,在靶向位點的活性與SpCas9相當(OpenCRISPR-1的編輯率為55.7%,SpCas9的編輯率為48.3%),但令人驚訝的是,在脫靶位點的編輯減少了95%(OpenCRISPR-1的編輯率為0.32%,SpCas9為6.1%)。

此外,作為一種非常新的蛋白質,OpenCRISPR-1與SpCas9相距403個突變,與 CRISPR-Cas圖譜中的任何天然蛋白質相距182個突變。

AI成功改寫人類DNA,全球首個基因編輯器震撼開源!

多種生成的核酸酶(綠色),包括OpenCRISPR-1(深綠色),具有與SpCas9(藍色)相當或更高的靶向活性,但脫靶活性要低得多

研究者們還發現,當與脫氨酶配對時,OpenCRISPR-1和SpCas9在精确編輯靶基因組中的單個堿基時,具有相似的活性和特異性。

他們還能保持堿基編輯活性,同時通過用由另一種Profluent訓練的蛋白質語言模型生成的脫氨酶,來提高特異性。

AI成功改寫人類DNA,全球首個基因編輯器震撼開源!

使用ABE8.20(一種高活性工程脫氨酶)以及生成的脫氨酶PF-DEAM-1和PF-DEAM-2進行堿基編輯時,OpenCRISPR-1的功能與SpCas9非常相似

最後,為了進一步優化所生成的核酸酶的活性,研究者還訓練了一個模型來為任何給定的Cas9樣蛋白生成相容的sgRNA。

與SpCas9的sgRNA相比,這些生成的sgRNA可以提高所測試的五種蛋白質中四種産生的核酸酶的活性。

AI成功改寫人類DNA,全球首個基因編輯器震撼開源!

對于測試的5種生成的核酸酶中的4種,使用模型生成的sgRNA提高了編輯效率

AI,正在改善醫療保健

現在,全世界都有很多項目,在用AI技術改善醫療保健。

比如,華盛頓大學的科學家們正在用ChatGPT和Midjourney背後的方法來,創造全新的蛋白質,并且正在努力加速新疫苗和藥物的開發。

AI成功改寫人類DNA,全球首個基因編輯器震撼開源!

如今大火的許多生成式AI,背後都是由神經網絡驅動的。通過分析大量資料,神經網絡就習得了某些技能。

比如,Midjourney以神經網絡為基礎,分析了數百萬張數字圖像,以及描述每張圖像的标題。這樣,系統就學會了識别圖像和文字之間的聯系,可以畫出「犀牛從金門大橋上跳下來」這樣的畫。

AI成功改寫人類DNA,全球首個基因編輯器震撼開源!

Profluent的技術,也是由一個類似的AI模型驅動的。

這個模型從氨基酸和核酸序列中學習,正是這些化合物,定義了科學家用來編輯基因的微觀生物學機制。

本質而言,它就是分析了從自然界中提取的CRISPR基因編輯器的行為,學習了如何生成全新的基因編輯器。

Profluent的CEO Ali Madani介紹道,這些AI模型都是從序列中學習的,無論是字元、單詞、計算機代碼,還是氨基酸的序列。

AI成功改寫人類DNA,全球首個基因編輯器震撼開源!

Madani先生在加州伯克利Profluent實驗室内,此前他曾在軟體巨頭Salesforce的人工智能實驗室工作

人類編輯基因,還會有多遠

目前,Profluent尚未對這些合成基因編輯器進行臨床試驗,是以尚不清楚它們是否能與CRISPR的性能相媲美,甚至超過CRISPR。

但他們的研究表明了,AI模型可以産生能夠編輯人類基因組的東西。

盡管如此,這項成果還不太可能在短期内影響醫療保健。

AI成功改寫人類DNA,全球首個基因編輯器震撼開源!

UC伯克利創新基因組學研究所的基因編輯先驅兼科學主任費Fyodor Urnov表示,科學家們并不缺乏天然存在的基因編輯器,用來對抗疾病。

真正的瓶頸在于,這項編輯器在用于臨床治療之前,還會因安全性、制造、監管審查産生極高的成本。

但是,随着學習越來越多的資料,生成式AI系統的潛力不可小觑。

如果Profluent的技術繼續改進,終有一天,科學家們可以用更精确的方式編輯基因。

到那時,我們可能身處這樣一個世界——許多藥物和治療方法,都能快速為個人量身定制。這是今天的人們所不敢想的。

「我夢想着這樣一個世界,我們可以在幾周内按需提供CRISPR,」 Urnov博士說。

AI成功改寫人類DNA,全球首個基因編輯器震撼開源!

還有一個重大的問題就是,CRIPSR有風險嗎?

長期以來,科學家們一直在警告:不要使用CRISPR進行人類增強!

因為,這是一項相對較新的技術,很可能會産生不良的副作用,比如引發癌症。而且還有些人會用于非道德的用途,比如轉基因人類胚胎。

合成基因編輯器,也面臨着這項問題。而如今,科學家們已經掌握了編輯胚胎所需的一切技術。

但Fraser博士表示,如果真的有人想用它們做壞事,也隻會使用現有的東西,而非AI建立的編輯器。