天天看點

利用正交内含子資料庫,分析哺乳動物中外顯子-内含子基因的敏感性前言:本研究可以将“正交内含子”定義為相對于編碼序列具有相

作者:優雅山丘8k6

利用正交内含子資料庫,分析哺乳動物中外顯子-内含子基因的敏感性

前言:本研究可以将“正交内含子”定義為相對于編碼序列具有相同位置的正交基因中的内含子,正交内含子在比較研究哺乳動物内含子時是寶貴的工具,是以,本研究建立了一個包括人類、牛、狗、小鼠和大鼠物種的正交内含子資料庫。

現有的哺乳動物正交資料庫(MOID)包括人類、大鼠和小鼠的内含子,但本研究使用每個五個哺乳動物基因組的最新版本建立了一個新的資料庫(GRCH37,bosTau5,canFam2,mm9和rn4)。将牛和狗納入資料庫中,有助于在比較研究所有哺乳動物共同祖先的情況下提高正交内含子的鑒定敏感性,與MOID資料庫進行比較。

建構DOIMINO5的第一步是識别人類與其他物種之間的所有同源蛋白質,使用BLAST-2分析 并從外顯子-内含子資料庫(EID)中擷取每個生物體的蛋白質資料庫,進行了這一步驟。為了确定每個非人類物種與人類之間的同源蛋白質,需要進行多次BLAST循環,以人類蛋白質作為查詢,針對每個非人類蛋白質資料庫進行搜尋。

一系列的BLAST搜尋将生成五個檔案,每個檔案包含人類與其中一個非人類物種之間的同源蛋白質。排除BLAST搜尋中的假陽性結果,本研究隻保留具有80或更高位分值的BLAST命中結果,有幾種情況,一個蛋白質可能有多個強擊中點,這很可能是同一基因在其他物種中的幾個同源基因中的擊中點,這會導緻備援。

為了過濾掉這種情況,對其他物種的蛋白質進行了反向BLAST,針對人類蛋白質資料庫使用BLAST-2進行搜尋。然後交叉引用人類與其他物種之間的兩個BLAST搜尋結果,生成最終集合,僅保留在每個蛋白質或其同源基因在人類中最多有一個對應的蛋白質或同源基因的情況。

最終的BLAST結果被組織成四個檔案,每個檔案包含人類與其他物種之間同源蛋白質的比對,這四個檔案進一步處理以擷取每對物種之間的正交内含子。

兩個物種之間同源異構體關聯的識别,通過從人類蛋白質資料庫中查詢人類蛋白質,然後從非人類蛋白質資料庫中查詢非人類蛋白質,可以揭示兩個物種中蛋白質異構體的真實關聯。

而同源内含子是指物種間同源基因中的内含子,在閱讀架構中占據相同的位置,需要注意的是,該定義排除了内含子長度或序列資訊作為同源性的決定因素,而僅以其位置和相位作為唯一的标準。

為了在物種間同源蛋白質中定義所有這樣的執行個體,本研究将使用一個Perl程式,該程式将在BLAST-2蛋白質比對中映射所有内含子的位置和相位。

利用蛋白質比對中的内含子映射,另一個Perl程式将僅選擇那些在兩個物種中共享相同位置和相位的内含子執行個體。人類與其他四個物種之間的同源蛋白質生成了五個結果集,将這些結果集進行交叉參考,僅保留在所有物種之間共有的内含子,建立一個沒有備援的五路表格,其中包含物種間唯一的同源内含子執行個體。

該過程最終将生成一個單個檔案,每一行以制表符分隔,包含五個物種中對應的同源内含子的辨別符,以五路表格的形式呈現。使用Perl程式處理BLAST輸出,該輸出将包含同源蛋白質的比對結果,在這裡,本研究将在蛋白質序列上方和下方以數字形式表示所有物種中的内含子位置,紅色數字表示内含子的相位。

當内含子在物種之間共享位置和相位時,被定義為同源内含子,而不滿足此條件的執行個體将從DOMINO5中排除。非備援同源内含子的五方表将用于從外顯子-内含子資料庫中提取每個内含子的核苷酸序列資訊,并按照内含子的組進行分組,每個組由五個物種的同源内含子組成,這些組将按照它們在人類基因組中的位置順序排列。

結論:在外顯子-内含子資料庫的20萬個人類内含子中,如果其中一半都在所有五個物種中具有共同的同源物,則比對過程将需要數周的計算處理時間。為了加快處理過程,本研究将開發一個程式,将内含子組分為15個相等的組,并依次将每個組送出到叢集中的15個CPU節點上進行處理,并檢索結果并整合到一個檔案中,該檔案包含所有同源内含子組的多個比對。

利用正交内含子資料庫,分析哺乳動物中外顯子-内含子基因的敏感性前言:本研究可以将“正交内含子”定義為相對于編碼序列具有相
利用正交内含子資料庫,分析哺乳動物中外顯子-内含子基因的敏感性前言:本研究可以将“正交内含子”定義為相對于編碼序列具有相
利用正交内含子資料庫,分析哺乳動物中外顯子-内含子基因的敏感性前言:本研究可以将“正交内含子”定義為相對于編碼序列具有相
利用正交内含子資料庫,分析哺乳動物中外顯子-内含子基因的敏感性前言:本研究可以将“正交内含子”定義為相對于編碼序列具有相
利用正交内含子資料庫,分析哺乳動物中外顯子-内含子基因的敏感性前言:本研究可以将“正交内含子”定義為相對于編碼序列具有相
利用正交内含子資料庫,分析哺乳動物中外顯子-内含子基因的敏感性前言:本研究可以将“正交内含子”定義為相對于編碼序列具有相

繼續閱讀