天天看点

哪些因素会影响大肠杆菌基因突变,不同暴露条件下的基因突变存在哪些差异? 机器学习算法(MLA)最近已被应用于预测大肠杆菌

作者:知史通今

哪些因素会影响大肠杆菌基因突变,不同暴露条件下的基因突变存在哪些差异?

机器学习算法(MLA)最近已被应用于预测大肠杆菌(E.coli)在不同暴露条件下的基因突变,性能还有改进空间,为了提高性能,人们假设结合基因之间的相互作用将有助于MLA做出更好的预测。为了研究这一点,人们将蛋白质编码基因共功能网络整合到暴露于不同条件下的大肠杆菌突变数据集中。

突变是生物体基因序列的改变,当传递几代后可导致生物体获得适应性特征,获得性适应对生物体的生存可能是有益的,也可能是有害的,暴露于特定环境可能是有害突变的驱动因素,这些突变会给病毒和细菌带来不良的药物抗性,还可能导致癌变。

对突变诱导暴露和特别易感基因的了解不仅有助于采取措施避免突变,而且有助于采取有针对性的纠正措施,例如由于病原体突变和产生抗药性而对疫苗进行反复修改,这些知识也将有益于微生物生物技术的菌株工程和发酵环境,在这些环境中,所需的品质可以成为诱导突变的目标。

菌株工程和微生物生物技术等领域需要研究大量的暴露条件,这使得获得实际基因组序列和利用现有管道来检测巨大组合空间的突变变得具有挑战性。因此,这项工作的重点是使用来自最先进的基因组测序管道的突变数据来训练机器模型,目的是预测新暴露条件下的突变。

MLA是学习和预测复杂过程的良好候选者,并已应用于预测各种生物现象,这些包括调查基因的相关性、长链非编码RNA(lncRNA)和microRNA(miRNA)根据基因表达谱预测表型特征和环境条件、获得抗生素抗性、癌症分析、生存结果和疾病途径关联、表皮生长因子突变的诊断以及对蛋白质与DNA结合活性的分类。

生物信息学中的一种常见做法是组合不同的数据类型以提高模型的性能,这是因为一种数据可能不足以捕捉驱动被调查过程变化的动态,例如基因突变和基因表达数据的结合被用来推断基因网络重新布线,基因表达和DNA甲基化被用来提高不同存活率的癌症患者的簇的识别,以及miRNA的整合,信使RNA(mRNA)和蛋白质数据用于更好地识别通路和网络,组合的特定类型的数据集由关于正在调查的过程的现有知识决定。

肠杆菌(E.coli)由于暴露于各种条件而被收集,然后用于训练涉及人工神经网络(ANN)、支持向量分类器(SVC)和朴素贝叶斯算法的集成,获得的预测性能很有希望,可能还有改进的余地。

尽管预测突变影响的模型的性能是可观的,但唯一建立机器学习模型来预测突变发生的工作在性能上还有改进的余地。这项工作试图通过使用蛋白质编码基因之间的相互作用作为额外的训练特征来提高性能。这项工作中的一个关键且至关重要的假设是,共功能基因的突变状态是先验已知的。

数据集来自大肠杆菌适应性实验室进化实验的策划,并提供了178种条件(跨越13种菌株、19种培养基和49种亚力)的1991个基因或基因间区域的突变状态,在1991个基因或基因间区域中,1561个是蛋白质编码基因。在蛋白质编码基因中,有112个具有10个或更多突变命中。

为了解决由于稀疏突变点引起的类不平衡,在为每个基因训练模型之前,对稀疏突变点进行过采样,使其等于基因未突变的次数,这是为了防止模型(尤其是ANN)在两个类中的任何一个上接受更多训练,对一个类的大多数进行训练,在这种情况下是非突变点,能够导致仅预测大多数非突变类的偏差。采用突变点的随机重采样,使其等于1561个蛋白质编码基因中每个基因的非突变点数。

所有单个基因的预测都被串联起来,然后用所有基因真实状态的串联进行评估。为了从研究中获得一些生物学见解,仔细研究了结合共功能基因对大肠杆菌每个蛋白质编码基因突变预测的影响,从十个验证测试中,获得了每个基因的两种方法的AUC和AUPRC之间的平均差异。

根据结合共功能基因之间关系的影响,将蛋白质编码基因分为四类:1类基因的AUC增加,2类基因的AUC减少,3类基因的AUC增加AUPRC和4级表明AUPRC减少。

第1类中最重要的GO细胞成分是ATP结合盒转运蛋白复合物,即该类中鉴定的五个基因,与第2类基因的RNA修饰相比,第1类基因最常见的GO生物过程是DNA复制。对于GO分子功能,1类基因参与未折叠蛋白结合和铜离子结合,2类基因参与转录因子活性/序列特异性DNA结合和RNA结合。对于第3类,最常见的生物过程和分子功能与运输相关,涉及质子和氨基酸,GO细胞成分主要是质膜。在第4类中,GO生物过程是tRNA加工和亚铁转运,鉴定的细胞成分是II型蛋白质分泌系统复合物,分子功能是RNA结合。

作为未来的工作,为了克服这项工作中假设共功能基因的突变状态是先验已知的,正在寻找从训练数据中学习状态的方法,目前正在研究递归深度神经网络模型和基于学习特征距离的技术来估计共功能基因的突变状态。

哪些因素会影响大肠杆菌基因突变,不同暴露条件下的基因突变存在哪些差异? 机器学习算法(MLA)最近已被应用于预测大肠杆菌
哪些因素会影响大肠杆菌基因突变,不同暴露条件下的基因突变存在哪些差异? 机器学习算法(MLA)最近已被应用于预测大肠杆菌
哪些因素会影响大肠杆菌基因突变,不同暴露条件下的基因突变存在哪些差异? 机器学习算法(MLA)最近已被应用于预测大肠杆菌
哪些因素会影响大肠杆菌基因突变,不同暴露条件下的基因突变存在哪些差异? 机器学习算法(MLA)最近已被应用于预测大肠杆菌
哪些因素会影响大肠杆菌基因突变,不同暴露条件下的基因突变存在哪些差异? 机器学习算法(MLA)最近已被应用于预测大肠杆菌
哪些因素会影响大肠杆菌基因突变,不同暴露条件下的基因突变存在哪些差异? 机器学习算法(MLA)最近已被应用于预测大肠杆菌
哪些因素会影响大肠杆菌基因突变,不同暴露条件下的基因突变存在哪些差异? 机器学习算法(MLA)最近已被应用于预测大肠杆菌
哪些因素会影响大肠杆菌基因突变,不同暴露条件下的基因突变存在哪些差异? 机器学习算法(MLA)最近已被应用于预测大肠杆菌
哪些因素会影响大肠杆菌基因突变,不同暴露条件下的基因突变存在哪些差异? 机器学习算法(MLA)最近已被应用于预测大肠杆菌

继续阅读