天天看点

微生物基因组绝不是基因的随机聚集。除了操纵子聚类功能相关基因外,还可以检测到指示结构的其他信号:碱基组成例如可以特异性地

作者:小三科普官

微生物基因组绝不是基因的随机聚集。除了操纵子聚类功能相关基因外,还可以检测到指示结构的其他信号:碱基组成例如可以特异性地改变链,或者序列的GC含量可能与其与复制起源的距离相关。

密码子的使用可以多样化,具体取决于翻译效率等效应。这些参数以及噬菌体或巨质粒的整合负责在基因组水平上可感知的结构。

此外,基因组岛可能由水平基因转移(HGT)引起,HGT被认为是生化或环境适应的另一种进化手段。微生物基因组包含不同部分的基因,这些基因可能通过HGT获得。

据称,在某些基因组中,这部分超过了基因组内容的20%。为了研究HGT,开发了基于密码子或氨基酸序列分析或系统发育树构建的各种方法;例如在中进行了审查。每种方法都有其各自的缺点,可能是每种方法都识别出在不同基因组进化时期获得的一类单独的基因。

由于机制含义,通过HGT捕获的DNA片段通常具有相当大的长度。因此,必须预期很大一部分外来基因以簇的形式出现。这一假设得到了生物学证据的支持:负责致病性的基因通常聚集在岛屿中。

在非致病物种中也可以发现扩展进化适应性的巨大基因簇。一个例子是洛蒂分枝杆菌基因组中大小为611 kb的共生岛。

对基因组岛的详尽分析有几个方面:它包括簇的鉴定和基因功能的解释。对于假定的外来基因(pA,通过HGT获得),必须预测其可能的起源。应对后一项任务的最可靠方法(如果应用正确)依赖于系统发育树的构建和评估。

然而,每个这样的分析都需要推断基因家族内的关系。由于一些原因,如适当分支数量不足,仍然难以将这些系统发育研究扩展到完整基因组的每个基因。因此,开发了旨在鉴定pA基因的方法,而无需计算系统发育树。

这些内在方法评估(如果应用于序列)DNA或蛋白质水平的组成,并测量典型情况的恶化情况。这些替代方法的一个缺点是无法预测开放阅读框的起源。

在下文中将介绍一种新颖的替代方法,该方法有可能预测DNA序列的假定来源。它依赖于普遍接受的假设,即密码子在系统发育相关物种中的使用是相似的。

该算法被集成到名为SIGI的软件包中,并基于评估成对比较中密码子使用情况的分数和结果的分类评估。将证明其在识别基因组岛屿方面的灵敏度可与隐马尔可夫模型(HMM)等最先进的方法相媲美。

将灵敏的检测器与此处实施的聚类分析相结合,可以可靠地识别孤岛,并减少误报预测的数量。这似乎是迄今为止发表的许多HGT研究中的一个问题。基于天然和合成基因的详尽统计分析使预测的有效性变得合理。

这些预测是全球皆知性指数的一个功能。此外,它还识别源自其他信号的基因簇,例如旨在优化翻译效率的密码子使用偏差。

为了分析物种G1的基因并测试它们与物种G2的相关性,通过将公式应用于从两个基因组的平均密码子频率得出的对数赔率来确定分数。推导出了一组包含微生物物种的近400个密码子使用表的非冗余;其成员在G2位置交替使用。

进一步分析了至少一个得分值高于物种特异性和动态确定的临界值的基因。通过聚类分析,鉴定出由具有统计学意义大小的簇组成的基因。这些簇被预测为基因组岛。

最后,对于这些基因中的每一个,分别解释了那些负责显着得分的物种之间的分类关系。通过对自然基因和合成基因的广泛分析,该方法的有效性及其局限性变得合理,旨在模拟基因改善过程。

SIGI能够以高灵敏度检测基因组岛。这些区域也是HGT活动的候选区域。研究此类事件,SIGI补充了基于系统发育方法的方法。对推定供体之间分类关系的分析表明,对密码子使用情况的简单比较可能会产生误导性的预测。

参考文献:

【1】Lobry JR:细菌两条DNA链中的不对称替换模式。

【2】Daubin V,Perrière G:沿基因组的G + C3结构:原核生物的共同特征。

【3】杜利特尔WF:系统发育分类和通用树。

微生物基因组绝不是基因的随机聚集。除了操纵子聚类功能相关基因外,还可以检测到指示结构的其他信号:碱基组成例如可以特异性地
微生物基因组绝不是基因的随机聚集。除了操纵子聚类功能相关基因外,还可以检测到指示结构的其他信号:碱基组成例如可以特异性地
微生物基因组绝不是基因的随机聚集。除了操纵子聚类功能相关基因外,还可以检测到指示结构的其他信号:碱基组成例如可以特异性地

继续阅读