天天看点

similarity network fusion for aggregating data types on a genomic scale 翻译基因组规模上的聚合数据类型的相似性网络融合

基因组规模上的聚合数据类型的相似性网络融合

(本文是对similarity network fusion for aggregating data types on a genomic scale 整体文章的翻译,对于后面理论公式部分可以参照该朋友的笔记)

摘要

近期的技术已经使收集不同类型的全基因组数据十分划算,结合这些数据去创建一个给定的疾病或生物过程的一个全面视图的计算方法是有必要的。相似网络融合(SNF:similarity network fusion)通过创建每一个可利用的数据类型的样本(如,患者)的网络可以解决这个问题,然后将其有效的融合到一个代表全部基础数据的网络中。例如,创建一个给定一群患者疾病的全面视图,SNF计算并融合分别来自于他们每一个数据类型的患者相似网络,其是利用数据中的互补性。我们使用SNF去结合五种癌症数据集中的的mRNA表达,DNA甲基化和microRNA(miRNA)表达数据。SNF算法是一种大大优于单一数据的分析与建立的综合方法,这个优势在通过识别肿瘤亚型来预测生存是有效的。

正文

快速发展的技术使收集多种多样的基因组数据集来解决临床和生物学问题变得越来越容易。例如,癌症基因组图谱(TCGA)的大规模研究已经收集了来自数千名患者的20多种癌症的基因组、转录组和表型信息。这种大量的数据的可用性使得综合的方法对捕获生物过程和表型的异质性至关重要,例如,导致了乳腺癌中同质亚型的鉴定。数据整合方法至少需要克服三个计算挑战:(i)与大量的测量相比,样本较少;(ii)各数据集的规模、收集偏倚和噪声的差异,以及(iii)不同类型数据提供的信息的互补性。目前的整合方法尚未解决所有这些挑战。

结合生物数据的最简单方法是将来自各种生物学领域,例如每个样品mRNA表达和DNA甲基化的标准化测量结果连接起来。不幸的是,连接会过度稀释了每个数据类型中已经较低的信号/噪声比。为了避免这种情况,通常的策略是在组合数据之前分析每个数据类型。然而,这种独立的分析往往导致难以整合的不一致的结论。增加信号的另一种方法是,从每个数据源中预选一组重要的基因,并使用共识集群法(ConsensusClustering)来组合数据。然而,预选基因会导致偏倚分析,只关注常见的模式可能遗漏有价值的信息。最近的一种机器学习方法,iCluster,使用联合潜在变量模型来整合聚类。iCluster和相关的机器学习方法虽然功能强大,但不能扩展到可用测量的全部范围,使得方法对基因预选步骤很敏感。

我们的SNF方法是独特的,它使用样本网络作为整合的基础。例如,来自患者样品的组合数据时,SNF创建患者网络。虽然个人网络已经在其他情况下得到了广泛的研究,尤其是在社会科学或疾病方面,但据我们所知,患者相似性网络并没有专门用于整合生物学数据。 SNF包括两个主要步骤:为每个数据类型构建样本相似性网络,并使用非线性组合方法将这些网络集成到单一相似性网络中。

融合网络从不同数据源中获取共享和补充的信息(Supplementary Results andSupplementary Figs. 1–3),提供关于每个数据类型对观察到的样本之间的相似性的信息。由于它是基于样本网络,SNF可以从少量的样本中获取有用的信息,对噪声和数据的异质性具有稳健性,并且可以测量大量的基因。除了整合数据之外,我们的融合网络还可以根据所构建的网络(Online Methods, SupplementaryNote 1 and Supplementary Fig. 4),通过聚类和预测新样本的标签(lable),有效地识别现有样本中的亚型。结合来自五种不同人类癌症的不同数据类型,我们证明SNF收益率一致(yieldscoherent),临床相关的患者亚型,并改善流行的整体综合法的表现和使用个体数据类型的基于网络的方法。SNF软件可以通过数万次测量轻松扩展到多个全基因组数据类型,并可作为补充软件免费提供,并且在此可以获得http://compbio.cs.toronto.edu/SNF/。

similarity network fusion for aggregating data types on a genomic scale 翻译基因组规模上的聚合数据类型的相似性网络融合

  其中,图1a是来自同一类患者的mRNA表达和DNA甲基化;图1b是对于每一个数据类型的患者-患者相似度矩阵;图1c是患者-患者相似网络,节点代表患者,边代表一对患者间的相似度;图1d是网络融合过程,通过SNF算法迭代地通过其他网络的信息来升级每一个网络,使其每一步更相似;图1e是交互网络融合导致集合为最终融合网络,边的颜色表示数据类型已经贡献到给定的相似度。

结果

方法概述

为同一组样本 (如患者) 提供了两种或多种数据类型,SNF 首先为每个数据类型创建一个网络, 然后将它们融合到一个相似性网络中。最初的步骤是对每对样本使用相似性度量, 为每个可用的数据类型构建一个样本循环(sample-by-sample)相似性矩阵 (图 1 a, b)。矩阵等价于一个相似网络,节点是样本 (例如, 患者),边缘加权(weightededges)表示成对样本相似 (图 1c)。矩阵和网络都是有效的可视化表示: 相似矩阵有助于识别全局模式 (簇), 而网络则强调详细的相似性模式和支持每个边缘的数据类型。

网络融合步骤(Fig. 1d)采用了一种基于消息传递理论的非线性方法,迭代地更新每个网络,使其在每次迭代时更类似于其他网络。经过几次迭代,SNF收敛于一个网络(Fig. 1e)。对于各种数据集的经验收敛(empiricalconvergence),如图5-7所示。该方法对各种超参数设置(Online Methods andSupplementary Figs. 8–10)都具有稳健性。我们的整合程序的优点是,弱相似度(低权重边缘(low-weightedges))消失,有助减少噪音(Fig. 2 and SupplementaryFig. 2),在一个或多个网络中有很强的相似性(高权重边缘)在另一个网络中增加了。此外,所有网络支持的低权重边缘,取决于它们的邻域在网络上的紧密程度。这种非线性使得SNF能够充分利用网络的本地结构,在网络中集成通用的(integratingcommon)和互补的信息。

个案研究: 多种形式的胶质母细胞瘤

多种综合方法已被应用于了解异质性,并识别出恶性胶质瘤(GBM)的亚型,这是一种侵袭性的成人脑瘤。根据所使用的数据类型,这些综合分析往往会得出不同的结论。例如,一个具有组合表达式和拷贝数变体数据的分析已经识别了两种亚型,但后来主要由表达数据驱动的分析确定了四种亚型,这与之前的发现不一致。最近的一种基于DNA甲基化的方法已经鉴定出了三种亚型:一种是IDH1 (ref. 12)中的体细胞突变,另外两种大致与参考文献中鉴定的亚型相对应。虽然在ref. 2中使用了甲基化数据进行分析,但是由于表达式数据驱动的亚型分析,IDH亚型没有被识别出来。

我们使用SNF为215例GBM患者融合了三种数据类型:DNA甲基化(1491个基因)、mRNA表达(12,042个基因)和miRNA表达(534miRNAs)。正如预期的那样,使用单一数据类型构建的网络产生了与患者相似性非常不同的模式支持。例如,DNA甲基化强烈支持最小的患者集群的连通性(connectivity)(Fig. 2a),而mRNA的表达支持中等大小的集群的相似性(Fig. 2b)。DNA甲基化和mRNA的表达显示了较强的簇间相似度(Fig. 2a.b),尽管这些数据类型之间的确切模式不同。仅基于miRNA数据的患者相似性网络很难识别出模式(Fig. 2c)。融合网络在我们的GBM患者组中提供了更清晰的聚类图像,说明了簇内连通性的紧密性和集群之间相对较少的边缘。(Fig. 2d).

我们统一了以前几个GBM分析的结果,并确定了新的和可能有趣的关联。例如,我们最小的簇(亚型3)对应于之前鉴定的IDH亚型,其由具有预后良好的年轻患者组成。所有患有IDH1突变的患者(n = 14 patients, Fisher exact test P = 4.87 × 10-11)属于该群。 对于替莫唑胺(TMZ)(一种用于治疗GBM的常用药物),亚型1患者(hazardsratio (HR) = 0.278, Cox log-rank test P= 0.001; Supplementary Fig. 11c)具有良好的反应(补充图11和12)。 在亚型2中缺乏这种作用的原因之一可能与其与CTSD过度表达(P < 0.001, Bonferroni-corrected)有关,已经发现其在体外有抑制TMZ的作用(Supplementary Results)。

similarity network fusion for aggregating data types on a genomic scale 翻译基因组规模上的聚合数据类型的相似性网络融合

我们的网络分析超越了分类。融合网络中的每条边都被赋予给定相似性的数据类型着色。多色群集意味着没有单个数据类型或组合支持GBM中的患者相似性。我们发现大多数边缘至少有两种数据类型支持:所有患者相似性(边缘)中的49.5%归因于两种数据类型,17.2%由所有三种数据类型支持,其余33.3%的边缘只有一种数据类型,只有具有足够的相似性,这些边缘才能在融合网络中保持突出(Supplementary Fig. 13)。GBM分析强调了我们基于网络的综合方法的三个重要特征:(i)检测共同信号和互补信号的能力(Fig. 2d and SupplementaryFig. 1);(ii)通过汇总多种类型的数据来降低噪音的能力(Fig. 2d, andSupplementary Figs. 2 and 3); (iii)理解每个数据源在确定患者相似性方面的相对重要性,从而提高我们对每个亚型内异质性的理解(Fig. 2d and SupplementaryFig. 14)。

在多种癌症中评估 SNF

除GBM分析外,我们还将SNF应用于TCGA的其他四种癌症资料:乳腺浸润性癌(BIC)、肾透明细胞癌(KRCCC)、肺鳞状细胞癌(LSCC)和结肠腺癌(COAD)。这些癌症的DNA甲基化、mRNA和miRNA表达数据在样本量(从COAD到215的COAD到215)和测量的数量(从GBM的534个miRNAs到LSCC和COAD的27,578个甲基化基因)和异质性(Supplementary Data and Supplementary Table 1)都有所不同。

我们通过鉴定每种癌症的亚型来评估SNF的表现。我们报告了三种常用的测量方法:(i)Cox log-rank检验中的P值以评估亚型之间存活概况差异的显著性;(ii)轮廓评分

(silhouettescore),聚类一致性的一种测量方法,用来评估患者是否在亚型内或亚型间更相似;和(iii)算法运行时间以评估可扩展性(scalability)(Supplementary Note 2)。我们在患者网络上使用了光谱聚类(spectralclustering)(在线方法)来识别同质癌症亚型。我们将SNF与iCluster进行了比较,并将三种类型的数据进行了串联(theconcatenation)(SupplementaryNote 3)。

我们首先将数据整合与单个数据类型在五种癌症中的使用进行了比较。通过构建患者相似性网络并使用谱聚类(与SNF相同)对其进行聚类,从而获得各个数据类型的患者群。除少数病例外,单一数据分析没有导致生存曲线的显著差异,但SNF融合的网络在所有5种癌症中的亚型之间的生存率存在显着差异(Table 1)。请注意,添加的融合步骤是单一分析和融合分析之间的唯一区别。每个肿瘤的融合网络亚型的空间嵌入(Spatial embedding)表明,簇间的分离非常清晰(Supplementary Fig. 15)。

similarity network fusion for aggregating data types on a genomic scale 翻译基因组规模上的聚合数据类型的相似性网络融合
similarity network fusion for aggregating data types on a genomic scale 翻译基因组规模上的聚合数据类型的相似性网络融合

目前的综合方法,如iCluster的一个主要限制是需要先验(priori)基因选择。尽管SNF不需要预选,为了比较,我们报告了所有三种方法的性能作为预选基因数量的函数,使用微阵列显著性分析(significance analysis of microarrays)(SAM)测试对肿瘤和健康组织之间差异表达的显著性来排序基因(Supplementary Note 2)。SNF在预选基因谱图的生存分析中取得了显著的效果(Fig. 3a),并根据轮廓评分(silhouette score)得到了更加连贯的聚类(Fig. 3b)。各种癌症之间的比较表现显示,在GBM和BIC中,Cox生存P值相对于预选基因的数量非常稳定。KRCCC和LSCC的生存P值波动较大。这可以通过以下事实来解释:KRCCC和LSCC至少有一个亚型,患者很少(Supplementary Fig. 15),使得P值对聚类的任何变化都非常敏感。这是罕见疾病亚型的常见问题;这种情况下的轮廓得分是一个更好的聚类稳定性指标。

iCluster对少数基因具有重要的意义,但对预选基因非常敏感。如运行时(running-time)分析所示(Fig. 3c),尽管它的速度要快得多,但级联性能(The performance of concatenation)难以预测。级联方法的计算复杂性等同于运行分层聚类所需的时间。SNF的运行时间仅略高于连接(concatenation)。在基因数量上,iCluster性能呈指数级增长,这说明了基因预选的必要性。

从基于亚型到基于网络的结果预测

我们发现,使用SNF的多个数据类型的聚类患者网络,其性能也优于应用于生存分析的最先进的子类型方法(subtyping )(SupplementaryFigs. 16–19)。在生存风险预测的艰巨任务中,我们还发现,子类型低于真正的基于网络的方法(Supplementary Fig. 20)。

我们使用乳腺癌国际联盟(METABRIC)乳腺癌数据集的分子分类来验证我们基于网络的预测。METABRIC数据集由发现队列(discovery cohort)(997名患者)和验证队列(995名患者)组成。我们进行了PAM50分析(一个标准的乳腺癌信号),iCluster分析(InterClust)和五个聚类(我们的模型选择标准选择)和十个聚类(用于比较)(Table 2)的SNF分析。在验证集上使用iCluster获得的已发布显着性值低于基于iCluster的发现队列P值和使用SNF获得的验证P值,这表明iCluster可能会过度拟合。一致性指数(CI)是评估风险预测模型的预后价值的连续和稳健的准确性度量(Supplementary Note 2)。对于5个和10个聚类的发现和验证队列,SNF的CI高于(好于)PAM50和iCluster的CI(Table 2)。所有比较方法的CI值比较相似,表明基于亚型的分析具有一定的局限性。

similarity network fusion for aggregating data types on a genomic scale 翻译基因组规模上的聚合数据类型的相似性网络融合

我们开发了一个基于网络的预测方法,它利用了患者的整个网络,而不仅仅是单个的集群。具体而言,我们基于网络的方法使用融合网络来约束Cox回归模型,以预测生物学相似患者的相似生存值(similar survival values )(Online Methods and Supplementary Results)。基于网络的方法在CI没有任何参数调整的情况下改进超过了10%(Table 2)。验证队列中基于网络的CI预测在专门为此任务设计的1,400个模型中排名前20。 由于我们使用相同的网络来评估CI的亚型生存分析和基于网络的生存分析,我们将结果的改进归因于网络中包含更丰富的信息。

讨论

我们建议SNF在样本空间(spaceof samples)(例如,患者)中整合数据而不是在测量结果中(例如,基因)。利用SNF构建患者网络,结合mRNA表达、DNA甲基化和miRNA表达数据,确定具有差异生存特征的亚型。SNF也有许多其他的应用。在临床领域,患者网络允许不同类型的测量,如微生物组和代谢组学数据,问卷和功能磁共振成像,以及基因组、临床和人口数据,只要数据可以用来确定患者之间的相似性(Online Methods)。虽然这些数据类型中有一些已经被组合在一起,但是我们的方法使它们组合成一个单一的综合网络,可以产生精确的疾病流形(manifolds)。

SNF可以帮助回答那些需要将多个类型或不同来源数据组合到同一组对象的问题,而不仅仅是人类。例如,将转录基因、表观遗传和基因数据结合在一起,可以帮助我们了解生物学上的相似性是如何与感兴趣表型相关的,比如番茄的甜味。SNF还可以集成各种基因交互数据,如物理交互、共表达(coexpression)和共定位(colocalization)数据。在另一方面,通过整合来自各种实验的组织特异性基因表达数据,可以提高可靠性并消除构建基因共表达网络中的实验偏差。

我们的方法的一个重要优势是它超越了目前的子类型策略来捕获连续的表型。我们对癌症的分析表明,虽然有广泛的患者类型(亚型),但事实却更为复杂。通过相似性网络捕获相似性和潜在生物多样性使我们更接近未来的诊所。我们相信,我们的融合网络将最终为更精确的表达和对疾病、表型和其他生物现象的理解铺平道路。

ONLINE METHODS 在线方法

实验细节

我们使用来自TCGA网站的5种不同癌症类型的数据:GBM,BIC,LSCC,KRCCC和COAD。对于每一个肿瘤类型,我们下载了TCGA-curated level 3 data sets 包含基因表达、miRNA表达和DNA甲基化信息。TCGA存储库包含每种数据类型的多个平台。我们总是选择对应于最多可用个体的平台,并且尽可能描述肿瘤样本和对照。对于表达数据,我们使用了GBM和LSCC的Broad Institute HT-HG-U133A平台,BIC和COAD的UNC-Agilent-G4502A-07平台和KRCCC的UNC-Illumina-Hiseq-RNASeq平台。对于miRNA表达数据,我们在BIC中使用BCGSC-Illumina-Hiseq-miRNAseq平台,在GBM中使用UNC-miRNA-8X15K平台,在LSCC,KRCCC和COAD中使用BCGSC-Illumina-GA-miRNAseq。最后,对于甲基化数据,我们使用了GBM中的JHU-USC-Illumina-DNA-Methylation平台,BIC,LSCC,KRCCC和COAD的JHU-USC-Human-Methylation-27平台。对于所有这些肿瘤类型,我们还下载了患者的临床信息,包括总体生存数据。

我们还使用了METABRIC数据集来评估网络正则化生存预测的有效性。 METABRIC数据集由两个队列组成:观察(997名患者)和验证(995名患者)。对于每个患者,从每个原发肿瘤标本中提取匹配的DNA和RNA,并在Affymetrix SNP 6.0平台上进行拷贝数和基因型分析,(Illumina-Human-WG- v3)。我们使用欧洲基因组与遗传研究所(EGA,http://www.ebi.ac.uk/ega/)提供的标准化数据。包括无病生存信息在内的高质量随访临床资料也可用于这两个群组。作为预处理步骤,我们使用PennCNV软件包将拷贝数变异映射到基因。

在应用我们的SNF之前,我们执行了三个预处理步骤:离群移除,缺失数据插补和标准化。如果某个数据类型中有超过20%的患者缺少数据,我们就没有考虑这个患者。同样,如果某个生物学特征(例如mRNA表达)在患者中有超过20%的缺失值,我们就会删除这个特征。此外,对于缺失的数据,我们使用k-近邻算法(KNN)插补,其中邻居的数量与我们的方法中使用的K值相同(见下文)。因此我们没有任何自由参数。最后,在构建患者网络之前,我们进行了以下标准化:

similarity network fusion for aggregating data types on a genomic scale 翻译基因组规模上的聚合数据类型的相似性网络融合

是任何生物特征, 是标准化后的相应特征, 和 分别表示 的经验均值(empiricalfeature)和方差。

评估指标

我们使用了几个指标来评估和比较我们的方法与现有的方法。在真实的癌症数据中,我们使用三个度量标准,因为地面真值(ground truth)还不知道。首先,我们使用轮廓(silhouette)来衡量亚型的同质性。对于每个患者

继续阅读