聚合物序列的複雜性,為何會導緻氨基酸的成分出現偏差?
蛋白質中的低複雜性結構域 (LCD) 是僅富含一部分可能氨基酸的區域,LCD 可由單個氨基酸的均聚重複序列、僅由少數不同氨基酸組成的短串聯重複序列或具有極少氨基酸多樣性的非周期性延伸組成。
含有 LCD 的蛋白質在生命各個領域的生物體中相對常見,在真核生物中尤為常見,例如,釀酒酵母基因組中大約 70% 的基因至少擁有一個經典定義的 LCD。
此外,LCD 的總數遠遠超過酵母基因的總數(LCD 比基因多 2 倍),表明許多基因包含多個不同的 LCD。
已經開發了多種方法來評估生物聚合物序列的複雜性,定義 LCD 最常用的方法之一是 SEG 算法,它使用短滑動視窗掃描蛋白質(或核酸)序列,并計算每個視窗的局部香農熵。
香農熵值低于預定“觸發”門檻值的子序列被歸類為 LCD,随後通過合并重疊的 LCD 和計算組合序列機率來擴充和細化 LCD 邊界。
另一個常用于評估相對序列複雜性的名額是成分偏差,它涉及在給定單個氨基酸的全蛋白質組頻率的情況下确定序列的統計機率,這些方法(或密切相關的方法)已被廣泛用于在蛋白質組範圍内檢查 LCD。
含有 LCD 的蛋白質與多種正常和病理性細胞過程有關,例如,富含 Q/N 的酵母蛋白通常在轉錄調控、内吞作用和細胞周期調控等方面發揮作用。
許多含有富含 Q/N 的 LCD 或相關類型的 LCD蛋白質與朊病毒或朊病毒相關過程有關,此外,許多類似朊病毒的 LCD,通常由低複雜性的短串聯重複組成,與真核生物中的應激顆粒和加工體。
這些 LCD 的氨基酸組成賦予這些結構域不同尋常的生物實體特性,這可能與它們在體外和體内的獨特行為有關。
然而,這些不尋常的特征似乎也與病理過程密不可分,例如,編碼同聚谷氨酰胺重複序列(最簡單的 LCD 類型)的區域在各種蛋白質中,此外,應激顆粒蛋白 LCD中的突變可以改變應激顆粒動力學。
LCD的重要性遠遠超出 Q/N 豐富的 LCD,因為其他成分的 LCD也與正常和病理細胞過程有關。
盡管 LCD 可以明顯影響蛋白質調節和功能,但迄今為止,許多挑戰限制了對這些關系的蛋白質組規模的了解,一項主要挑戰在于定義 LCD,目前的方法使用統計定義的門檻值來衡量序列複雜性或成分偏差,或者為具有均聚重複的蛋白質任意選擇重複長度。
盡管 LCD、成分偏向序列(本文稱為“統計偏向域”以避免以後混淆)或均聚重複序列的這些定義促進了重要發現,但這些門檻值的生物學相關性尚未得到嚴格檢查,此外,這些蛋白質通常被歸為一類,盡管它們的組成和實體特性可能存在顯着差異。
通過關注氨基酸組成,這是序列複雜性和統計氨基酸偏差的基本特征,還檢查了局部組成富集與蛋白質調節和功能各個方面之間的聯系,而不訴諸預定義的序列複雜性或統計偏差門檻值。
局部成分富集與蛋白質在細胞中存在的幾乎所有核心方面的差異相關,包括翻譯效率、豐度、半衰期、蛋白質-蛋白質互相作用混雜、亞細胞定位和功能。
然而,不同氨基酸的富集與不同的效果相關,即使對于通常根據實體化學相似性進行分組的殘留物,也突出了區分不同類型 LCD 的重要性。
這些關系在成分低于分類為低複雜性或統計偏差所需的成分時是可辨識的,這表明傳統方法中的門檻值可能未在生物學上得到優化。
最後,對應激顆粒和 P 體的實驗定義的蛋白質成分的分析揭示了與這些細胞器相關的共有和不同的組成特征,這表明傳統方法中的門檻值可能無法進行生物學優化。
蛋白質序列中的低複雜性結構域是僅由蛋白質“字母表”中的幾個氨基酸組成的區域,這些域通常具有獨特的化學特性,并在正常和疾病相關過程中發揮重要的生物學作用。
雖然已經開發了許多方法來定義低複雜度域,但這些方法各自具有概念上的局限性,是以,開發了一種側重于局部氨基酸組成(即蛋白質小區域内的氨基酸組成)的互補方法。
還發現單個氨基酸的高局部組成與蛋白質代謝、亞細胞定位和蛋白質組範圍内的分子功能的普遍影響有關,重要的,效果的性質取決于檢查域中富含的氨基酸類型,并且在沒有經典定義的低複雜性(和相關)域的情況下可以觀察到。
為此局部氨基酸富集對蛋白質生物學的影響提供了連貫的觀點和前所未有的解決方案。