天天看点

11分+“深度学习模型”范文——打造高分纯生信!突破内卷的利器

作者:云生信学生物信息学

尔云间 一个专门做科研的团队

欢迎点赞+收藏+关注

11分+“深度学习模型”范文——打造高分纯生信!突破内卷的利器

现在的高分生信文章,为了突破内卷,纷纷转战“病理图像分析”、“影像组学分析”,这个方向再用上“机器学习、深度学习模型”,分数上涨嗖嗖的~ ~

“云生信”的粉丝朋友们,有没有看到小云推荐的生信+病理分析、影像组学等新思路呀?还没有看到的朋友,抓紧恶补一下哦(ps:感兴趣的小伙伴欢迎点击文末链接观看),这可是冲刺高分生信的好机会,咱们可不能直接放过!

11分+“深度学习模型”范文——打造高分纯生信!突破内卷的利器

今天小云就用一个11分+的文章来实例展示一下!文章利用公共病理图像数据、突变数据、临床变量构建深度学习模型用来给肿瘤分层。分析主体在于深度学习模型的构建和分析,分析手段上首先创新性就很高;其次,分析目标是公共病理图像和突变,这两点相较于常规转录组数据也是高创新性的数据类型,所以综合看下来,双层叠加的创新性确实杠杠的,不愧是11分+的LANCET子刊!这么好的拿高分的生信思路,不学可就亏啦!话不多说,跟着小云来一探究竟吧~ ~

11分+“深度学习模型”范文——打造高分纯生信!突破内卷的利器

题目:整合深度学习分析改善结肠腺癌患者死亡风险分层

杂志:EBioMedicine

影响因子:IF=11.1

发表时间:2023年7月

研究背景

结肠直肠癌是第四大诊断癌症,也是死亡人数第二多的癌症。许多临床变量、病理特征和基因组特征与患者风险相关,但在临床中可靠的患者分层仍然是一项具有挑战性的任务。在这里,作者评估如何结合病理学图像、临床和基因组特征来预测风险。

数据来源

11分+“深度学习模型”范文——打造高分纯生信!突破内卷的利器

研究思路

首先使用来自TCGA的108名COAD患者的数据集作为训练集,开发了综合深度学习模型,该模型结合了石蜡包埋(FFPE)全切片图像(WSIs)、临床变量和突变特征,根据患者的死亡风险对其进行了分层。随后训练集和WSU、 TCGA-READ验证集中评估模型的对于死亡风险的分层效果。

1)数据预处理:WSIs的肿瘤区域由3名病理学家专家通过对标本进行多范围观察进行注释。选择了与患者结果相关的五个临床变量:诊断时的年龄、性别和结肠腺癌的TNM分期(肿瘤(T)期、淋巴结(N)期和转移(M)期)。选择了来自11个典型癌症途径的207个基因和TCGA-COAD中最常见突变的11个基因,使用10%的阈值来过滤掉在TCGA-COAD患者中不经常突变的基因,得到总共26个基因。

2)模型训练:a:纯图像模型,作者利用了在ImageNet数据库上预先训练的Inception V3模型建立基于WSIs的图像模型。b:整合模型,将Inception V3模型特征与编码临床变量和/或突变特征的特征向量连接起来,输入一个多层感知器来预测病人的风险。c:深度学习Cox模型,使用从Inception V3迁移学习架构中提取的患者级图像特征来训练Cox比例风险模型。

11分+“深度学习模型”范文——打造高分纯生信!突破内卷的利器

主要结果

1.纯图像模型和整合模型对于结肠腺癌风险的分层分析

作者首先根据总生存期将患者分为高风险(HR,OS < 3年,N = 38)、中度风险(MR,3年< OS < 5年,N = 45)和低风险(LR,OS > 5年,N = 25)。使用HR和LR患者作为二元训练集,训练了纯图像模型或整合模型来预测结肠腺癌风险的风险,并通过KM生存曲线和AUC值进行模型评估。结果显示,纯图像模型能够区分HR和LR患者(AUC = 0.81±0.08),并且HR与LR的患者具有明显不同的存活曲线(图1a,b)。然而,当将MR患者添加到测试集中时,存活曲线之间的间隔减小(图1c)。

接下来,作者将纯图像模型与基于临床变量和/或突变状态的模型以及结合WSIs、临床变量和突变状态的综合模型(图像&临床&突变模型)进行了比较,结果显示纯图像模型的性能优于仅临床变量模型(AUC = 0.71±0.12)或仅突变模型(AUC = 0.66±0.12),以及结合临床和突变信息的整合模型(AUC = 0.69± 0.11),而完全整合模型在分离HR和LR患者方面的表现类似于纯图像模型(图2a)。KM生存曲线显示,仅使用两种数据类型的整合模型(图像和临床模型以及图像和突变模型,图1d,e)劣于图像&临床&突变模型(图1f)。

11分+“深度学习模型”范文——打造高分纯生信!突破内卷的利器

图1 多种模型分层效果评估

2.WSIs预测热图揭示与风险相关的形态

作者使用图像&临床&突变模型生成的预测热图,以深入了解CNN与风险相关的潜在形态。预测热图显示了CNN预测的每个区块的风险概率,病理学家审查表明,核形状、核大小多形性、密集的细胞性和异常的结构是高风险的指征(图2)。准确识别WSI内的肿瘤区域是影响风险分类的关键初步步骤,为了测试肿瘤区域的病理学家注释是否可以被计算方法取代,作者使用228个独立WSI的病理学家注释来构建计算肿瘤检测器。该检测器显示出高精度(图3a,AUC >92%) 。使用计算肿瘤检测器作为输入数据的图像&临床&突变模型的KM曲线显示,高风险曲线和低风险曲线之间有明显的分离(图3b)。

11分+“深度学习模型”范文——打造高分纯生信!突破内卷的利器

图2 预测热图分析

11分+“深度学习模型”范文——打造高分纯生信!突破内卷的利器
11分+“深度学习模型”范文——打造高分纯生信!突破内卷的利器

图3 计算肿瘤检测器的建立和验证

3.模型验证

在WSU的独立COAD数据集中收集并注释了肿瘤区域(N = 123),并将患者分层为HR (N = 17),LR (N = 97)或MR (N = 9 )。在包括所有HR、LR和MR患者的验证集中,KM曲线显示,纯图像模型无法对该测试集的高风险和低风险患者进行分层(图4a),仅临床模型提供了具有统计学意义但适度的分层(图4b),而图像+临床模型提供了更好的患者队列分离(图4c)。在仅有HR和LR患者的验证集中,发现所有模型的分层都比HR/MR/LR的情况更好,图像和临床模型具有优于纯图像和仅临床模型的性能(图4d–f)。为了测试了TCGA-COAD中训练的模型是否适用于READ,作者在TCGA-READ验证队列进行了模型测试。结果显示,纯图像模型成功地将HR和LR患者分开(图5a),但当MR患者被纳入测试集时,不能对患者进行分层(图5b),而图像+临床模型以及图像&临床&突变模型均可以将患者分开(图5c,d)。

11分+“深度学习模型”范文——打造高分纯生信!突破内卷的利器
11分+“深度学习模型”范文——打造高分纯生信!突破内卷的利器

图4 WSU-COAD数据集中的模型验证

11分+“深度学习模型”范文——打造高分纯生信!突破内卷的利器
11分+“深度学习模型”范文——打造高分纯生信!突破内卷的利器

图5 TCGA-READ验证队列中的模型测试

4.模型中的特征重要性分析

为了提高深度学习模型的可解释性,作者在TCGA训练模型和WSU验证模型中使用SHAP测量每个临床或Inception v3图像特征对模型输出的贡献,发现T期、M期和年龄是整合模型中最有影响的特征,虽然只有两个InceptionV3特征与这些临床变量具有相当的重要性,但InceptionV3特征的总重要性(11.84)高于临床变量(6.63)(图6)。

11分+“深度学习模型”范文——打造高分纯生信!突破内卷的利器

图6 特征重要性分析

小结

这个文章利用利用公共病理图像数据、突变数据、临床变量构建深度学习模型用来给肿瘤分层。不论是深度学习的分析方法,还是图像和突变数据的选用,都是在打破常规求创新,所以才能使文章能发到11分+!想做创新性分析、想发高分生信的小伙伴,这个思路相当不错,千万不要错过哦!

如果你还苦恼于生信分析没有思路,或者嫌分析方法太过简单、太过老套,想要创新思路的,或者对单细胞分析、多组学联合分析等方向感兴趣的小伙伴快来联系小云吧!

小云持续为大家带来最新生信思路,更多创新分析思路请点击链接。需要复现或了解更多分析思路的朋友欢迎call小云,风里雨里小云等你!

11分+“深度学习模型”范文——打造高分纯生信!突破内卷的利器

1. Q1区11分+影像组学!放射组学模型构建+基因预后特征验证,突破生信内卷的利器,抓紧学起来!

2. 1个月即接收,不走寻常路的生信+公共病理图像分析!聚焦“免疫冷热肿瘤”,超简单的分析拿下6分+,真香了!

3. 11分+临床数据库挖掘好文!3大数据库联合分析,外加转录蛋白代谢多组学分析,内容丰富到超乎想象,速围观!

4. 7分+双疾病纯生信分析又整新活了!整合“机器学习”标志物筛选、单基因分析和药物分子对接,思路升级不学就亏大啦!

5. 9分+干湿结合!TIL细胞单细胞数据分析,联合机器学习模型构建和IHC验证,实力打造肿瘤免疫生信好文!

继续阅读