天天看點

Trends in Genetics 綜述 | 利用機制模型預測基因組結構和功能

作者:植物科學最前沿
Trends in Genetics 綜述 | 利用機制模型預測基因組結構和功能

2021年11月29日,來自愛丁堡大學實體與天文學學院的Michael Chiang等在Trends in Genetics上發表了題為“Predicting genome organisation and function with mechanistic modelling”的綜述文章,從染色質模組化方法、機制模型的基礎原理、機制模型優化等方面總結了機制模型在空間基因組中的最新研究進展。

https://doi.org/10.1016/j.tig.2021.11.001

實驗技術的快速發展使我們能夠收集有關基因組結構的豐富資訊,而理論模組化是增強我們了解的一個強大補充工具。現在,越來越多的研究将基于聚合物模拟的非拟合機制模型與研究真核細胞染色體空間組織的實驗項結合,因為模組化對于可視化和解釋實驗産生的日益複雜的資料非常重要,更重要的是它可以提供關于調控基因組折疊機制的可測試假設,進而推動進一步的實驗工作。此外,機制模組化有助于協調不同實驗技術的結果。例如,許多基于3C的方法提供總體平均資訊,而超分辨率顯微鏡提供單個細胞的資料。研究者可以利用機制模組化技術将所有的資料合成一組,以解釋單細胞和基于群體的實驗中發現的特征。在這篇綜述中,作者讨論了染色質折疊理論模組化中的主要概念,其中主要介紹了機制模型,并總結了這類模型在基因組空間結構方面取得的最新進展。

基因組的空間結構

真核生物基因組的三維結構很複雜,因為染色體在折疊時不僅要适應細胞核的大小,還要保證能夠執行轉錄和複制等基本任務。染色質位點之間的空間互相作用可以通過測序(例如染色體構象捕獲3C)和基于顯微鏡的技術(例如熒光原位雜交FISH)進行研究,這些方法表明,基因組以分層方式組裝,而且不同染色體細胞核内占據不同的區域。早期的Hi-C實驗表明,在一個區域内,在數十個兆堿基對(Mbp)水準上,基因組被分為兩個主要部分:一個與轉錄活性區(A部分)相關,另一個與非活性區(B部分)。更高分辨率的Hi-C資料表明,在隔間中,還存在着一類有更小的跨越了數百個千堿基對(kbp)的染色質區域,被稱為拓撲結合域(TAD)。基因組學領域的一個長期挑戰是揭示染色質三維折疊的原理,以及确定三維折疊與基因組功能間的關系。

染色質的聚合物模拟

利用基于聚合物實體結構的架構來模拟染色質的三維折疊結構是一個可行的方法,因為染色質是一種長纖維,由數億個DNA堿基對包裹在組蛋白複合物周圍形成的一系列核小體組成。

染色質的粗粒度模組化:建立聚合物模型的一個關鍵部分是為染色質選擇适當的描述水準。這在很大程度上取決于研究問題和可用的實驗資料。如果人們對單個核苷酸或核小體結構的影響感興趣,可能需要一種涵蓋所有堿基對、組蛋白和其他蛋白質以及溶劑分子的原子論方法。這樣的高分辨率模拟可能是精确的,但它們在計算上非常昂貴,而且隻适用于短時間内的一小部分染色質。是以,為了研究染色質的大規模排列,去除一些細節更為實用,這一過程被稱為粗粒化(圖1A)。

逆模組化:在過去十年中,染色質的粗粒化模組化主要有兩個方向。一個方向被稱為逆向(或“自上而下”或資料驅動)法,該方法利用基于3C的資料(例如5C或Hi-C)作為輸入來重建染色質的空間結構(圖1B)。

機制模組化:染色質模組化的另一個方向,即機制(或“自下而上”或第一原理)法,側重于了解導緻基因組結構顯著特征的實體和分子機制。從根本上說,這種方法從染色質的最小表示開始,探索可能的微觀機制來解釋折疊特征。在實踐中,模型輸入是一組基于已知生物實體過程或從經驗觀察中得出的假設的“規則”(圖1C)。

圖 1.染色質模組化中的各種方案。(A)染色質可以進行原子模組化,并考慮所有組分(DNA群組蛋白複合物),但為了模拟更大的染色質區域,通常通過去除一些結構細節來執行"粗粒化"(CG)。一種流行的CG方案是珠和彈簧聚合物模型,其中每個珠子代表一定量的染色質(或核小體數量)。(B)在逆模組化法中,将基于3C的資料用作拟合或訓練模型參數(例如,染色質位點之間的互相作用強度)的輸入。該模型輸出的是總體平均結構或結構集合,以及模拟的互動作用矩陣。(C)在機制模組化法中,輸入是一組微觀機制或"規則",假設它們在調節基因組組織中很重要。然後使用分子動力學(MD)模拟或實作這些規則的蒙特卡羅算法對可能的構象進行采樣。與逆模組化法一樣,輸出是一組3D結構和一個模拟的互動矩陣。

機制模型在幾個方面都很強大。首先,由于這些模型不依賴于來自實驗的結構資料,是以它們具有真正的預測性:生成的三維構象完全基于指定的規則。第二,這些模型很節省時間,因為模拟可以相對較快地完成。這使得研究者可以通過這種方法來迅速評估一系列潛在的有趣假設:它們可以首先通過機制模拟進行研究,并僅對有前途的假設進行實驗驗證,因為實驗往往需要花費更長的時間。第三,這些模型通常隻包含少數幾個參數。這樣可以更全面地掃描參數空間,進而更精确地将參數值映射到生物條件。

逆模組化法和機制模組化法在不同的研究環境中具有不同的優勢(表1)。逆模組化适用于資料豐富的情況,而機制模組化可以在實驗資源有限或實驗難以進行(例如,罕見的細胞類型)時提供預測。同時,這兩種方法也不是互相排斥的。事實上,已有研究者開發了結合這兩種方法的模型,例如,用于檢查不同基因組位點的結構變異的模型。

表1.不同基因組結構模組化方法的比較

機制模型的優化改進

在自下而上的架構内,通常從基本模型開始,逐漸引入更多成分來解釋額外的實驗結果(圖2【關鍵圖】)。通常,當模型結果系統地偏離理論或實驗時,人們将獲得有關調節基因組結構的機制的新知識。這種情況表明模型中缺少某些資訊或規則;然後提出新的假設,然後通過進一步的模拟和實驗進行測試。最終,可以解釋差異的新模型成分被納入模型中,并且它們成為關于染色體折疊的新原理。

圖2. 機械模型的不斷完善為揭示調節基因組折疊的機制提供了一種系統的方法。這個循環模型的開發過程如下:首先,從一個簡單的機制模型開始,該模型具有基于塑造基因組結構的已知機制的規則。其次,根據定義的模型執行模拟。第三,将模拟的預測結構與現有的實驗資料進行比較。注意到兩組結果之間的系統差異,然後設計新的假設或規則來調和差異。可以将成功解釋模拟和實驗結果之間差異的規則納入模型中,進而産生有關基礎機制的新知識。

總結

在染色質生物學研究中,因為有越來越多需要解釋實驗結果和越來越多需要确定的特定機制,聚合物機制模型正變得越來越重要。因為這種模組化具有預測性,它僅需輸入少量必須的實驗資料,就可以輸出可以直接與現有的資料進行比較的新資料,用以驗證或否定模型所基于的理論假設。在不斷疊代的細化比較過程中,模型還會以子產品化的方式引入額外的成分,以解釋無法解釋的觀察結果(圖2),而這一旦成功,就意味着産生了有關染色體結構基礎機制的新知識。

雖然聚合物機制模型通常被應用在染色質結構上,但其實它們也能夠預測三維染色質的核内動态。作者還預計,未來可能會使用機制模型來探究了解基因激活後對應的三維染色質結構的局部變化或由于分化和重新程式設計引起的三維染色質結構整體變化。為此,可能需要對文中描述的模型進行修改,以描述局部動态染色質的狀态,使得構成聚合物的珠子可以随着區域内的表觀遺傳标記或轉錄激活的變化而改變性質。

此外,還有一些未來令人興奮的挑戰亟待解決,如:我們知道三維染色質折疊的所有主要生物實體機制嗎,還是還有更多有待發現?現有的染色質結構模型在多大程度上預測了人類和哺乳動物細胞核的全基因組三維基因結構?目前的聚合物機制模型主要集中在Hi-C和染色質的結構特性上。他們能準确預測其核内動态嗎?我們能用機制模型來完善我們對三維染色質結構和轉錄活性之間難以捉摸的聯系的了解嗎?基因激活如何影響染色質結構?我們是否可以擴充現有的染色質聚合物模型,以解釋由于轉錄激活等原因引起的動态局部結構變化?在細胞分化過程中觀察到的轉錄和結構染色質變化是什麼?這些變化是如何聯系在一起的?我們能用機制模型預測它們嗎?

植物科學最前沿,專注于植物科學前沿進展、資訊、招聘資訊的釋出及方法軟體共享等。投稿及招聘請背景回複“投稿”,均為無償;商務合作請聯系微信ID:zwkxqy;

繼續閱讀