天天看点

文献速递丨开发和验证整合多模态信息的可解释模型以改善卵巢癌的诊断

作者:壹生

卵巢癌作为一种妇科常见恶性肿瘤,其早期诊断对于提高患者生存率至关重要。然而,由于缺乏准确的非侵入性诊断工具,许多卵巢癌患者在确诊时已处于晚期。近期,大陆的研究团队在nature communications期刊上发表了一项研究,他们开发并验证了一种名为OvcaFinder的新型诊断模型,该模型通过整合超声图像、放射科医生评估和临床参数,在提高放射科医生识别卵巢癌的诊断准确性和一致性方面展现出潜力[1]。现本文梳理研究核心内容,以飨读者。

研究方法

本研究采用回顾性研究设计,纳入了中山大学肿瘤防治中心(SYSUCC)和重庆大学附属肿瘤医院的患者群体,他们在经阴道超声(TVUS)检查中至少有一个可见的病理证实的附件病变。研究者共收集了2011年2月至2021年5月在SYSUCC的患者724个病变的3972张B型彩超图像。将这些图像随机分为训练集、验证集和内部测试集,比例为7:1:2。外部验证数据集由2018年12月至2021年6月在重庆大学附属肿瘤医院的患者387个病变的2200张图像组成。

研究中,五名经验丰富的影像科医生参与了阅片,他们在不了解任何临床病理信息的情况下,对所有匿名化的图像进行了评估。使用Ovarian-Adnexal Reporting and Data System (O-RADS)[2]对病变进行风险评分。

为建立一个基于图像的深度学习(DL)模型,研究团队采用了六种不同的卷积神经网络架构,包括DenseNet12128、DenseNet16928、DenseNet20128、ResNet3429、EfficientNet-b530和EfficientNet-b630[3-5]。这些模型均使用ImageNet[6]预训练权重进行初始化,并在训练集上进行微调。通过使用数据增强技术,如随机水平翻转、旋转和颜色抖动,增强了模型的泛化能力。最终,通过集成这些模型的预测结果,形成了一个集成DL模型。

OvcaFinder模型是基于随机森林(RF)算法构建的多模态信息模型。该模型整合了三个临床参数(患者年龄、病变直径和CA125浓度)、影像科医生的O-RADS评分以及DL模型的预测(Fig. 1)。为了优化模型性能,研究者开发了多个RF模型,并确定了最佳的估计量数量。最后,为了增强OvcaFinder的可解释性,研究者应用了热图和Shapley值。热图通过梯度加权类激活映射(Grad-CAM)技术生成,突出显示了对模型预测至关重要的图像区域。Shapley值则用于量化每个输入特征对模型输出的贡献,提供了模型预测的全局和局部解释。

文献速递丨开发和验证整合多模态信息的可解释模型以改善卵巢癌的诊断

统计分析方面,研究者计算了模型的AUC、准确性、敏感性、特异性、阳性预测值和阴性预测值,并使用非参数自举方法计算了95%置信区间。通过比较不同模型和阅读者的性能,研究者评估了OvcaFinder的诊断性能,并使用pROC库和McNemar检验进行了统计显著性分析。

研究结果

基线信息

如Table 1所示,SYSUCC有3972张B型彩超图像,涵盖了296个(40.9%)良性和428个(59.1%)恶性病变,共来自724名患者(平均年龄:48 ± 13岁;范围:16-82岁)。病变直径范围为10~224 mm,平均直径为74.3 mm(标准差(SD):35.5 mm)。CA125浓度范围为4~37,827 U/mL。这些患者被随机分为训练集(2941张图像,532个病变)、验证集(334张图像,63个病变)和内部测试数据集(697张图像,129个病变)。在外部队列中,有来自387名患者(平均年龄:43 ± 12岁;范围:18-83岁)的2200张图像。平均病变直径为71.2 mm(SD:35.0 mm)。CA125浓度范围2~46,090 U/mL。在509个恶性病变中,有57个边缘性肿瘤(11.2%)。对于恶性病变,平均病变直径为83.4 mm(范围:13~225 mm)。以35 U/mL为阈值,近88.2%(449/509)的患者评估了CA125水平。在超声图像中,分别有272名和306名患者发现腹水和腹膜增厚或结节。

文献速递丨开发和验证整合多模态信息的可解释模型以改善卵巢癌的诊断

O-RADS评分表现

完成培训后,五名阅片者在附件肿瘤分类中显示出高诊断性能。O-RADS评估分数被标准化到0到1的范围内,以计算AUCs的性能。内部测试数据集的平均AUCs为0.927,外部队列为0.904。阅片者在内部数据集中的平均敏感性为96.2%,特异性为73.3%,在外部队列中的平均敏感性和特异性分别为85.7%和81.8%。

DL预测模型表现

DenseNet121、DenseNet169、DenseNet201、ResNet34、EfficientNet-b5和EfficientNet-b6在内部测试数据集中使用B型彩超图像,在病变水平上实现了0.898~0.923的AUCs,在外部测试数据集中AUCs为0.806~0.851,这比最终集成的DL模型要差。集成模型在内部数据集中显示了0.970的AUC,97.3%的敏感性和74.1%的特异性。在外部队列中,AUC降低到0.893,敏感性为88.9%,特异性为68.6%(Table 2)。如Fig. 2所示,热图中的红色区域对病变分类的贡献最大,而蓝色区域较不重要。具体来说,在B型彩超图像上,不规则的实性成分或突出部分在热图中被突出显示,并且是恶性预测的有价值特征。关于彩色多普勒图像,热图专注于血管生成丰富的区域。这与临床实践中卵巢肿瘤的诊断标准一致。对于良性病变,在内部和外部测试数据集中分别有27.8%(15/54)和19.8%(60/306)的病例显示出热点。对于恶性病变,在内部和外部测试数据集中分别有4.0%(3/75)和12.3%(10/81)的病例未观察到热点显示。

文献速递丨开发和验证整合多模态信息的可解释模型以改善卵巢癌的诊断
文献速递丨开发和验证整合多模态信息的可解释模型以改善卵巢癌的诊断

临床模型表现

在内部测试数据集中,临床模型实现了0.936的AUC,97.3%的敏感性和40.7%的特异性。在外部队列中,临床模型产生了0.842的AUC,85.2%的敏感性和53.3%的特异性(Table 2)。

OvcaFinder模型表现

如Fig. 3所示,通过整合临床信息、O-RADS评分和基于图像的DL预测,OvcaFinder在内部测试数据集中显示出比临床模型(AUC:0.936,p = 0.007)和基于图像的DL预测(AUC:0.970,p = 0.152)更高的性能(AUC:0.978 [95% CI: 0.953, 0.998])。在外部测试数据集中,OvcaFinder也优于临床模型(AUC:0.842,p = 4.65 × 10-5)和基于图像的DL预测(AUC:0.893,p = 3.93 × 10-6),其AUC为0.947(95% CI: 0.917, 0.970)。

文献速递丨开发和验证整合多模态信息的可解释模型以改善卵巢癌的诊断

为了进行公平比较,研究者通过保持相似的敏感性来比较三个模型的特异性。在内部测试数据集中,当敏感性保持在97.3%时,OvcaFinder显示出比临床模型(40.7%,p = 1.52 × 10-5)和DL预测(74.1%,p = 0.062)更高的特异性。在外部队列中,当保持与其他模型相似的敏感性时,OvcaFinder显示出90.5%的特异性,优于临床模型(53.3%,p = 2.21 × 10-29)和基于图像的DL预测(68.6%,p = 1.36 × 10-20;Table 2)。此外,观察到基于图像的DL预测在OvcaFinder的决策预测中最为重要,其次是O-RADS评分、CA125浓度、患者年龄和病变直径(Fig. 4)。

文献速递丨开发和验证整合多模态信息的可解释模型以改善卵巢癌的诊断

阅片者的AUC值范围从0.900到0.958。但在OvcaFinder的帮助下,AUC值显著提高,内部测试数据集范围从0.971到0.981,没有降低敏感性。所有阅片者在外部队列中也观察到了类似的改进。此外,OvcaFinder提高了阅片者的诊断准确性,并减少了假阳性(Fig. 5和Table 3)。平均假阳性率从26.7%(范围:13.0~38.9%)降低到13.3%(范围:7.4~18.5%,p = 0.029),并且在内部和外部队列中分别从18.2%(范围:10.8~29.4%)降低到9.9%(范围:8.2~12.4%,p = 0.033),这可能会避免不必要的活检或手术。

文献速递丨开发和验证整合多模态信息的可解释模型以改善卵巢癌的诊断
文献速递丨开发和验证整合多模态信息的可解释模型以改善卵巢癌的诊断

卵巢癌诊断的阅片者间一致性在Table 4中进行了总结。内部和外部测试数据集中的阅片者间kappa值分别为0.711~0.924和0.588~0.796,表明了从尚可到极好的一致性。使用OvcaFinder后,内部测试数据集中的阅片者间kappa值提高到了0.886~0.983,外部队列中为0.863~0.933,表现出极好的一致性。

文献速递丨开发和验证整合多模态信息的可解释模型以改善卵巢癌的诊断

研究结论

OvcaFinder作为一种新型的多模态信息整合模型,在提高卵巢癌诊断准确性方面展现出巨大潜力。该模型不仅能够提高放射科医生的诊断性能,减少不必要的手术,还能够通过热图和Shapley值提供决策解释,增强了模型的可解释性。研究团队指出,OvcaFinder的未来发展将包括进一步优化模型,并在更广泛的患者群体中进行验证。

参考文献:

1. Huiling, Xiang,Yongjie, Xiao,Fang, Li et al. Development and validation of an interpretable model integrating multimodal information for improving ovarian cancer diagnosis. PG - 2681[J] .Nat Commun, 2024, 15: 0.

2. Andreotti, R. et al. O-RADS US Risk Stratification and Management System: A Consensus Guideline from the ACR Ovarian-Adnexal Reporting and Data System Committee. Radiology 294, 168–185 (2020).

3. Huang G., Liu Z., Laurens V. & Weinberger K. Q. Densely Connected Convolutional Networks. IEEE Computer Society, 2261–2269 (2016).

4. He K., Zhang X., Ren S. & Sun J. Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 770–778 (2016).

5. Tan M. & Le Q. V. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks. International conference on machine learning. 6105–6114 (2019).

6. Krizhevsky, A., Sutskever, I. & Hinton, G. E. ImageNet classification with deep convolutional neural networks. Commun. ACM 60, 84–90 (2017).

声明:本文的发布由阿斯利康提供支持,仅供医疗卫生专业人士参考

审批编号:CN-134932

有效期至:2025-5-7

继续阅读