天天看点

两只大熊猫的尾巴,小熊猫和大熊猫的全基因组k-mer特征分析

作者:纪实册
两只大熊猫的尾巴,小熊猫和大熊猫的全基因组k-mer特征分析

文丨纪实册

编辑丨纪实册

小熊猫是一种神秘的动物,很难根据其形态进行分类。它生活在印度,尼泊尔和中国的部分地区,具有明显的红白色和条纹,浓密的尾巴。它有几个绰号,如“熊猫”、“猫熊”、“小熊猫”或“火狐”,一些研究人员认为A. fulgens是基于几个物理特征的大熊猫的亲戚。

这些包括几乎完全的竹子饮食,并且具有扩大的放射状籽骨,它们用于加工竹子。

两只大熊猫的尾巴,小熊猫和大熊猫的全基因组k-mer特征分析

由于这些相似之处,大熊猫甚至从小熊猫那里得名。根据其他意见,A. fulgens已被归类为Procyonidae家族的成员,还有一些人将小熊猫放入自己的家庭,A. fulgens也有一些独特的特征:大的颧弓,有力的下颌和复杂的颊齿,遵循P2-3模式。

根据新的遗传证据,小熊猫有两种,喜马拉雅小熊猫和中国小熊猫。由于数量减少,小熊猫是一种濒临灭绝的物种。先前基于核和线粒体基因不同组合的研究,对富尔根苜蓿与其他食肉动物的分类关系给出了相互矛盾的结果。

两只大熊猫的尾巴,小熊猫和大熊猫的全基因组k-mer特征分析

这可能是因为只分析了几个线粒体和核基因,而不是整个基因组序列。小熊猫被归类为原体或原体近亲是基于免疫学、DNA-DNA杂交和同工酶证据,基于细胞色素-b贝叶斯分析的系统发育树,将A. fulgens放在犬科旁边。

Peng等人将A. fulgens归类为鼬科动物,将它们放在美洲貂旁边,或者归类为mephitid,放在条纹臭鼬旁边,这是基于对13种连接线粒体蛋白的分析,分别基于邻接和最大似然系统发育方法。

两只大熊猫的尾巴,小熊猫和大熊猫的全基因组k-mer特征分析

在对核转甲状腺素蛋白基因的三个mtDNA基因和内含子1的研究中,Flynn等人还发现A. fulgens既不是熊,也不是procyonid,也不是mephitid,而是鼬科。

Fulton和Strobeck的另一项研究包括16个线粒体基因和8个核基因,基于<>个弧形动物物种,以犬狼疮为异常值,将富尔根斯与梅菲炎分枝杆菌关系密切。

两只大熊猫的尾巴,小熊猫和大熊猫的全基因组k-mer特征分析

Yu和Zhang研究了核基因β-纤维蛋白原的内含子,以及线粒体基因NADH脱氢酶亚基2在食肉目17个物种中,在他们的结果中,这些研究人员发现,基于对FGB基因内含子4的分析,A. fulgens与procyonids最密切相关。

但是当分析内含子7时,它聚集在小熊座上。基于ND2基因A. fulgens与鼬科聚类的分类,但这些结果的自举支持很差。当将两种内含子与IRBP和TTR基因分析相结合时,富尔根斯最接近鼬科。

两只大熊猫的尾巴,小熊猫和大熊猫的全基因组k-mer特征分析

Sato等人分析了编码AOPB、BRCA5、RAG5、RBP1和VWF这五个基因的1.3 KbpDNA片段,发现富尔根苜蓿与原鼬科和鼬科聚集在一起,而不是与臭鼬科聚集在一起。在研究含有APOB、RAG3和IRBP基因的2.1 Kbp片段时,也获得了类似的结果。

在基因学上,富尔根斯与鼬科共享几个染色体融合,即F2 + C1p和A1p + C1q 。然而,A. fulgens在其他几种染色体重排上有所不同,表明它与其他鼬科动物早期分化。

两只大熊猫的尾巴,小熊猫和大熊猫的全基因组k-mer特征分析

有趣的是,在这两个物种中都发现了几个基因,这些基因显示出趋同的发展。例如,DYNC2H1和PCNT蛋白氨基酸组成的变化导致人类和小鼠的多指趾,但在大熊猫和小熊猫中导致假拇指。

另外三个趋同基因负责更有效地从竹子中摄取营养,这也构成了竹子饮食的很大一部分。其他四个基因ADH1C,CYP3A5,CYP4F2,也能够在大熊猫和小熊猫中更有效地利用维生素A和B12以及花生四烯酸,竹子中没有或非常低。

两只大熊猫的尾巴,小熊猫和大熊猫的全基因组k-mer特征分析

内含子分析很有用,因为这些序列不受选择压力。分析了来自22个食肉动物物种群的16 Kbp核内含子序列,其中有严格意义上的鼬科,排除了蚜虫科。然而,这些结果与mtDNA分析的结果相矛盾。

由于基于形态学的富尔根蚴分类是模糊的,因此基于全基因组的算法确定该物种的精确分类地位将是有帮助的。为此,使用全基因组K-mer签名算法分析了五种熊种,十一种猫和来自鼬科,Spilogala gracilis以及A. fulgens的基因组,总共28种。

两只大熊猫的尾巴,小熊猫和大熊猫的全基因组k-mer特征分析

使用基于基因组学的算法来分析这些生物体的WGS的优点是,它获取WGS中存在的所有信息,而不仅仅是基因研究中使用的少数基因。

决定哪些基因是重要的是主观的,并且可能因研究人员而异。基于全基因组的算法还具有以下优点:由于它们分析的字符数量庞大,因此它们大大减少了随机误差,使用该算法可以提供关于富尔根A. fulgens的系统发育分类的加法结果。

两只大熊猫的尾巴,小熊猫和大熊猫的全基因组k-mer特征分析

虽然WGKS算法可能不是严格意义上的系统发育算法,但它仍然可以用于根据物种的WGS将其分类为不同的组。有几种宏基因组学方法使用 k-mer 分析将下一代读序列映射到由全基因组序列代表的物种,例如海妖 、朴素贝叶斯分类器和 PhymmBL 。

例如,kraken将读取序列拆分为k-mers,然后将其映射到分类树。分配给它的读取次数最多的叶节点/物种被指定为读取来自的物种。NBC还将读数拆分为组成N-mers,然后计算属于特定菌株,物种,属或其他分类单元的给定N-mer的后验概率。

两只大熊猫的尾巴,小熊猫和大熊猫的全基因组k-mer特征分析

NBC算法和WGKS算法的相似之处在于它们都利用DNA序列的k-mer特征对其进行分类。人们可以将整个基因组序列视为一个非常扩展的读取序列。

在全基因组序列上使用k-mer方法应该比在读取序列上给出更准确的结果,因为WGS代表更大的搜索空间。单个k-mers的出现数量比短读中要大得多,换句话说,在WGS中,k-mer的“覆盖率”比单个读取要高得多。

两只大熊猫的尾巴,小熊猫和大熊猫的全基因组k-mer特征分析

除了全基因组方法外,使用多个基因的多重比对来补充全基因组分析的结果也是有用的。为此,分析了52种熊、甲芥科、鼬科、原肚科物种以及苜蓿科、富尔根斯和富尔根斯亚尼苣苔属的线粒体DNA。

mtDNA不仅包含十几个保守基因,而且这些基因定位在基因组的同一部分,并且在很大程度上遵循相同的顺序。mtDNA还含有非编码DNA,不受选择压力,因此更好地反映了物种关系。

两只大熊猫的尾巴,小熊猫和大熊猫的全基因组k-mer特征分析

线粒体基因将更有利于这种分析,而不是人为地将来自基因组不同部分的基因连接在一起,这些mtDNA序列使用EBI网站上的在线MUSCLE工具进行比对,还使用邻域连接方法以及使用自举值的最大似然方法检查物种关系。

WGS的聚类前分析

本分析中使用的物种列表、生成的 PCC 矩阵、集群和统计数据可以在在线附加文件 1 中看到。霍普金斯统计量为 0.9,这意味着数据集对于聚类具有非常好的质量。

两只大熊猫的尾巴,小熊猫和大熊猫的全基因组k-mer特征分析

剪影图给出了三个聚类的最大平均轮廓宽度为0.82,四个聚类的最大平均轮廓宽度为0.8。研究了两到七个簇的平均轮廓宽度。唯一的区别是将mephitid,S. gracilis放入自己的组中。

全基因组分析,可以看到三个可见的簇,猫科动物、熊科动物和鼬科,S. gracilis 位于鼬科和小熊科之间。根据结果,富尔根芥子明显与芥子聚集在一起,尽管平均而言,与所有其他物种相比,它的平均PCC值较低,为0.89±0.03,而芥子的平均PCC值为0.95±0.04。

两只大熊猫的尾巴,小熊猫和大熊猫的全基因组k-mer特征分析

这种差异不是太显着。如果我们将Felis nigripes与其他猫进行比较,它的平均PCC值为0.89±0.02,而猫科动物的平均PCC更高,为0.97±0.03。

然而,我们知道猫是一个单系群体,显示了所有三个假定分支的最小、平均、最大 PCC,以及 p 值,该值对所有三个组都具有统计意义。

两只大熊猫的尾巴,小熊猫和大熊猫的全基因组k-mer特征分析

同样重要的是,臭鼬物种S. gracilis不会与鼬科聚集在一起。与鼬科相比,S. gracilis的平均PCC值为0.78±0.02,A. fulgens对该物种的PCC值为0.79,而之前报道的鼬科的平均PCC值为0.89,这也表明鼬科和蛾科形成单独的分支。

大熊猫,Ailuropoda melanoleuca显然是包括熊座动物在内的一个分支的成员,2.与其他熊类的平均PCC值为0.97±0.003,其他遗传证据将大熊猫归类为熊猫科的成员,这包括mtDNA、染色体条带模式以及血清学和免疫学证据。

两只大熊猫的尾巴,小熊猫和大熊猫的全基因组k-mer特征分析

线粒体基因组分析

霍普金斯聚类统计量为0.841,表明序列恒等矩阵具有良好的聚类质量。这五个组的集群和统计信息分别在附加文件 的“集群”和“统计信息”选项卡中提供,物种列表、入藏号和此分析的结果也可在 github 中在线获得。

两只大熊猫的尾巴,小熊猫和大熊猫的全基因组k-mer特征分析

分层树显示了不同分支的位置。Ursids和Musteloidea形成两个大分支,分别有15种和37种,在Musteloidea中,除了Mustelidae之外,我们还有三个较小的群体。

第一个由两个物种的A. fulgens组成。第二个由三种Mephitids组成,S. gracilis,M. mephitis和Conepatus chinga。最后,两只Procyonid,Procyon lotor和Nasua nasua组成了第三组,显示了根据簇数的平均轮廓宽度,两个簇的平均轮廓宽度为0.51。

两只大熊猫的尾巴,小熊猫和大熊猫的全基因组k-mer特征分析

鼬科形成一个定义明确的分支,几乎所有分支点都支持引导值 100。N. nasua和P. lotor在Mustelidae旁边形成一个较小的分支。三个Mephitids,C. chinga,M. mephitis和S. putorius也形成一个小分支,与其他分支很好地分开。

NJ方法将Ailurus放在Ursidae旁边,这表明它们可能形成一个单系群。但是,连接Ailurus和Ursidae的节点只有45的引导值。

两只大熊猫的尾巴,小熊猫和大熊猫的全基因组k-mer特征分析

Mustelide,Procyonidae和Mephitidae都形成了自己的分支,其可能性值至少为94%。与NJ树相反,这里的Ailurus与Ursidae分开,这表明它也可能形成自己的分支,Ledje等人也发现A. fulgens与所有其他犬形不同,并将其置于自己的单型家族中。

然而,该分析仅基于线粒体12S rRNA基因的分析。Flynn等人也基于对三个线粒体基因的分析得出了类似的结论。另一方面,Peng等人根据对串联线粒体蛋白的分析,将富尔根斯分类为鼬科。

两只大熊猫的尾巴,小熊猫和大熊猫的全基因组k-mer特征分析

算法说明

分析中使用的WGKS算法是一种无比对的k-mer序列比较方法。这些方法涉及物种之间k-mers的统计比较。k-mer是DNA k bp长的片段,可以对应于转录因子结合位点的核心片段,重复元件或其他调节元件。

这些元素参与蛋白质结合和基因调控,并且在不同物种中是保守的。与基于对齐的算法相比,使用基于k-mer的无对齐算法的优势在于,它们处理输入的速度要快得多,并且不受强加于数据的引导树的偏倚。

两只大熊猫的尾巴,小熊猫和大熊猫的全基因组k-mer特征分析

有关该算法的冗长描述,读者可以参考Cserhati等人。但是,为了更好地理解,此处提供了简短的描述,WGKS 算法分为三个步骤。

给定物种基因组中所有可能的k-2,k-1和k-mers,以给出观察到的发生率O。然后,基于这些观察到的出现次数,也可以使用以下公式计算预期出现次数E:Ek=O1、k−1∙O2k/O2k−1。

两只大熊猫的尾巴,小熊猫和大熊猫的全基因组k-mer特征分析

其中 Ek是 k-mer 的预期出现,O1..k-1是观察到的 k-1-mer 从位置 1 到 k-1 的出现,O2..k是观察到的 k-1-mer 从位置 2 到 k 的出现,并且 O2..k-1是观察到的 K-2-mer 从位置 2 到 K-1 的出现。

分数值 S 可以按以下方式计算:SK−mer=O−EO+E,分数值可以通过三种方式解释:O≫E:SK−mer→1(ov e r r e p r e snt e d k-m er),O≪E:SK−mer→−1(u n d e r r e p r e s e nt e d k-m er),O=E:SK−mer≈0(r a m d o m ly ocu r ring k-m er)。

即使基因组部分或完全复制,分数值也不会改变,这是因为“观测值”和“预期”值都将增加重复基因组与重复前基因组的比例。

两只大熊猫的尾巴,小熊猫和大熊猫的全基因组k-mer特征分析

最后一步涉及在热图中可视化PCC,并使用聚类算法来检测单系群。例如,可以使用 k 均值聚类算法或中心点之间的分区算法进行聚类分析。

分层树的构造

使用引导值使用相邻连接和最大似然方法绘制分层树。两棵树都是使用MEGA-X软件构建的,参数设置为默认值。

对于NJ方法,使用了最大复合似然模型。1000 个引导复制用于构建这两棵树。对于ML方法,使用Tamura-Nei模型以均匀速率使用。

两只大熊猫的尾巴,小熊猫和大熊猫的全基因组k-mer特征分析

线粒体DNA分析,使用默认参数对齐熊,mephitid,mustelid,procyonid物种和两个A. fulgens物种的8个完整的线粒体基因组序列。序列单位矩阵来自使用BioEdit版本7.2.5的比对。

结论

根据WGKS的分析,A. fulgens可能属于Mustelidae。该物种也聚集在远离S. gracilis的地方,表明鼬科和蜥蜴属于单独的分支,这也得到了mtDNA结果的加强。

这是基于全基因组数据,而不是以前只涉及少数基因的相互矛盾的结果,其中一个甚至在同一基因的两个不同外显子中。这证明了WGKS算法的实用性,该算法采用整体方法来分析WGS。

两只大熊猫的尾巴,小熊猫和大熊猫的全基因组k-mer特征分析

mtDNA结果以及最大似然树似乎将A. fulgens归入单系组。另一方面,A. melanoleuca属于小熊,如WGS结果以及mtDNA结果以及NJ和ML树一致显示的那样。基于邻域连接方法,Ailurus似乎可以与熊形成单系群,但自举值太低,无法确定地说

参考文献

【1】弗林 JJ, 内德巴尔马, 德拉古 JW, 哈尼卡特 RL.小熊猫从何而来?摩尔系统发育埃沃尔。2000;17(2):190–9。

【2】Ledje C,Arnason U.基于线粒体12S rRNA基因分析的犬形食肉动物的系统发育关系。J 摩尔·埃沃尔。1996;43(6):641–9。

【3】魏F,胡毅,朱L,Bruford MW,詹X,张L.黑白和阅读遍体:大熊猫遗传学的过去,现在和未来。分子生态学报 2012;21(23)。

【4】阿格纳森一世,昆特纳M,梅-科拉多LJ。狗,猫和亲属:食肉动物的分子物种水平的系统发育。摩尔系统发育埃沃尔。2010;54(3):726–45。

【5】于林, 张业平.犬形食肉动物的系统发育:来自多个基因的证据。遗传。2006;127(1-3):65–79。

继续阅读