天天看点

进入数百元基因组时代,中国人群队列研究如何乘势崛起?

作者:果壳网科普

来源:lizimo 我是建设者

在队列研究和生物样本库建设上,似乎还没有一套行之有效的中国解决方案。在南京医科大学和因美纳最近联合举办的队列研究和精准医学论坛上,国内外的多位专家分享了队列研究的探索经验,引人思考。中国到底需要什么样的队列研究,谨以本文抛砖引玉。

进入数百元基因组时代,中国人群队列研究如何乘势崛起?

由南京医科大学和因美纳联合举办的“2023 队列研究及精准医学转化学术论坛”活动现场

空气污染和抽烟哪个对人的健康影响更大?为什么有些人不抽烟也容易得癌症?诸如此类的问题经常在现实生活中被问及。

近年来,科学研究揭示了影响健康的诸多因素,预防变成健康生活的一大关注点。然而,个体间还有很大的差异。随着精准医疗的全社会关注度的提高,关于我们的基因与环境、生活方式的相关作用的理解也越来越多被提及。

但到底是什么维持了我们的健康,又是哪些因素增加了我们的患病风险。回答这些问题并非朝夕之功,但这背后可能都离不开长期的队列研究和相应的生物样本库的贡献。

一、什么是队列研究?为什么需要生物样本库?

队列,英文cohort,本意指的是具有相同特征或者相同暴露的人群。对这群人的研究就构成了队列研究的主题,随着时间的推移不断跟踪关注这群人的情况。

当入组队列研究的对象加入研究时,研究方会收集他们的基本信息,如人口统计数据、年龄和种族特征等,可能还收集生物的、社会的、心理的、医疗的、环境的、遗传的信息,这些构成了研究的基线。研究人员也会在参与者之后生活的不同阶段定期收集研究对象的疾病发病或者健康状况信息,这就是所谓的随访。根据研究的目标,随访可能持续几周或数年。

将随访点的数据与基线进行比较,可以前瞻性评价不同因素如何影响人的健康。在流行病学中,经常利用队列研究来识别导致疾病或影响疾病模式发展的潜在风险因素,如空气污染、抽烟、新冠病毒等等。自1940年起,以美国弗莱明翰心脏研究(Framingham Study)、英国医生队列(British Doctors Study)为代表的队列研究纷纷开始建设,为心脑血管疾病、肿瘤等慢性非传染性疾病的风险认知与防治奠定了基础。

进入数百元基因组时代,中国人群队列研究如何乘势崛起?

队列研究与生物样本库的关系示意图

生物样本库则是为不同队列研究而收集存储的生物样本及其附属信息的集合。传统上,生物样本库是服务所要开展的研究而设立的;但越来越多地,研究人员意识到,一个建设完整且系统的生物样本库可以为更多的研究群体所使用,指导、启发并满足他们多样化的研究需求,于是很多样本库是前瞻性地从头开始设计的。

因此,生物样本库构建的目标和组织管理机构各不相同,比如以特定疾病队列为导向的样本库多是通过医院来收集,而基于人群的前瞻性大规模队列则需要从自然人群中采集样本,也需要更大的资金、资源和组织形式来推动。

不管是社区为基础的前瞻性自然人群队列研究还是医院为基础的专病队列研究,生物样本库建设样本量越来越大,因为大多数风险因素对个体健康结局只有适度或很小的影响,只有通过更大规模的群体研究,这些因素的影响才会体现出统计上客观可靠的结果。

进入数百元基因组时代,中国人群队列研究如何乘势崛起?

英国生物银行首席研究员兼首席执行官Rory Collins教授在演讲中经常提到的一个例子:如图所示,在5千、5万、50万人群中所呈现的冠心病风险与收缩压水平之间关系,随着样本量的增加,不同分组的变化趋势逐渐清晰一致。

在全球范围内,建立人群生物样本库都得到了各国政府的支持。大规模、高质量的生物样本库建设已经成为基础设施发展的关键领域,成为现在医学研究的重要资源。大型前瞻性纵向队列设计和生物样本收集相结合这一趋势正越来越多地被采纳,例如英国生物样本库(UK Biobank, UKB)、美国精准医学计划(All of Us)、日本生物样本库(Biobank Japan)、新加坡精准医学计划(Precision Health Research, Singapore, PRECISE)等等。

二、100美元基因组时代的生物样本库及队列研究

虽然有环境、生活方式等诸多因素的综合影响,但健康个体之间的差异最终反映在分子代谢水平上的差异。得益于基因芯片、高通量基因测序等技术突飞猛进的发展,遗传学及基因组学信息率先被大规模地用于队列研究。

虽然基因的单一缺陷会造成明显的疾病(或称罕见病),但这只占少数部分,大多数疾病如慢性病等尽管也与遗传因素有关,但涉及到多个基因上的多种变化的累积效应。随着人类基因组计划的开展,结合基因型和表型数据进行全基因组关联研究(GWAS)或多基因风险评分(PRS)或全表型组关联研究(PheWAS)变得更加可行。我们可以对个体进行基因数据的生成,与个体访谈、身体评估、病史回顾或其他一些生化检查提供的表型及临床数据相关联,以此来探究可能的遗传效应及影响。

自2002 年发表关于心肌梗塞的第一个成功的 GWAS 研究以来,GWAS 研究不断增长,从中获得的见解对疾病研究也产生了巨大影响。然而,这些关联的效应量通常较小,需要大量群体才能达到统计显着性。另外,关联研究也只建立相关性,而不是因果关系,因此在 GWAS 后必须进行详细的分子生物学研究,来牢固地建立性状的真正分子机制。

进入数百元基因组时代,中国人群队列研究如何乘势崛起?

曼哈顿图经常被用来描绘了密切相关的风险位点。每个点代表一个SNP,X 轴显示基因组位置,Y 轴显示关联水平。此示例取自一项调查肾结石疾病的 GWAS 研究,因此峰值表明在肾结石患者中更常见的遗传变异。

近年来,全基因组测序(WGS,Whole Genome Sequencing)迅速崛起,通过检测整个基因组,WGS提供了每个个体最全面的基因序列数据集,补充和增强了基因芯片分型(Genotyping)和全外显子组(WES,Whole Exome Sequencing)的数据。随着测序成本的显著下降并步入100美元的范畴,在有限的预算范围内可对更多的样本进行WGS测序,结合生物信息学分析及变异注释解读的进步,可以实现新基因、新见解的快速发现(特别是基因组的非编码区域),这无疑将推动人类基因组学研究的下一波进展。

大规模人群的遗传及基因组学分析可以加强对疾病风险和病因学的认知,比如心血管代谢疾病领域的PCSK9、ANGPTL3、Lp(a)等风险基因及非酒精性脂肪性肝炎上的CIDEB、HSD17B13、PNPLA3等,进一步支持对疾病发展更好的病理生理学理解,帮助开发相应的治疗药物(上述的这几个靶点都已经有药物上市或在临床阶段)。

到现在为止,GWAS依然是破译遗传学和复杂性状之间错综复杂关系的重要工具,成为改进医疗保健策略和靶向治疗的基石。截至2023年9月10日,GWAS目录包含了6566篇已发表文章、552116个强关联位点和65590个完整的统计学数据。

三、为什么说UKB是生物样本库服务队列研究的典范?

在生物样本库持续建设并推动高质量科学研究的典型案例中,英国生物样本库UKB一定是最值得关注的。

UKB于2006年开始招募,在四年后达到了50万人的招募目标(相当于每1000个英国人中约有7个人自愿参与了这个项目)。UKB专注于 40 到 69 岁的健康志愿者,这些参与者被采集了血液和尿液,身体被扫描成像,要求填写自己习惯和生活方式的调查问卷,并同意项目长期随访。因此,除了相应的生物样本之外, UKB多年来已经收集了一个活的信息库。对每个参与者进行的每项测试的信息都与他们的所有其他测试结果相关联,因此UKB在深度和广度上不断增长。

进入数百元基因组时代,中国人群队列研究如何乘势崛起?
进入数百元基因组时代,中国人群队列研究如何乘势崛起?

UKB数据的广度和深度

UKB项目是英国科学家在呼吁政府投资DNA的背景下推动成立的,所以项目一开始就希望对参与者进行基因序列的分析。通过定制的基因芯片,UKB在 2015 年 5 月提供了第一批15万名参与者的基因分型数据,两年后发布了全部50万人的结果。随着测序技术的不断进步,UKB也不断跟进,先后完善并补充对50万人的WES及WGS测序覆盖。在2022年7月向研究人员提供了 47万名参与者的WES数据,在2021年11月推出了前 20万名参与者的WGS数据,剩余的30万WGS数据也将在 2023 年底发布。

进入数百元基因组时代,中国人群队列研究如何乘势崛起?

存储的样本最终可能会耗尽,但生成的数字信息不会。除了基因数据的不断补充之外,UKB也在持续叠加关联其他的数据类型,包括单细胞转录组、蛋白组(起初集中在1500种蛋白,后面逐渐扩展到3000种)、代谢组(包括250种左右到脂质及一些氨基酸)、影像(到2024年要对其中的十万参与者进行核磁共振成像MRI,包括脑、心脏、骨骼等)。随着不同测量技术的应用,UKB每个样本的信息量得到了最大程度的释放,这也为持续的关联分析、不同纬度的关联验证及拓宽可能的表型谱分析打好了基础。

UKB在规模(50万参与者只有约1000人后来退出)、深度(广泛的数据类型)、持续时间(15年随访为持续健康研究提供了大量的数据支撑)等方面都提供了可参考的经验。但UKB的成功并不局限于此。

在生物样本库构建上,UKB摸索了公私合作(Public-Private-Partnering)的可参考的成功模式。比如在WES及WGS的测序上,UKB都选择与多家药企合作,除了英国政府提供的资金外,这些合作的药企也共同资助了相应测序项目的开展。药企通过投资共享测序项目所带来的数据挖掘及使用权益,包括再生元公司在内的药企已经通过这样大规模的WES分析发现了多个新药靶点,如GPR75作为肥胖治疗靶点,这为后续创新药物发现及开发提供了充分的支撑和储备。

UKB所有参与者的基因数据可供批准的研究人员使用,研究者可以通过UKB最近联合DNAnexus推出的研究分析平台(UK Biobank’s Research Analysis Platform)获取这些数据和数据分析处理工具。DNAnexus部署在伦敦的亚马逊云上,保证了安全及可审计的接入和数据获取;而对于早期及中低收入国家的研究人员,UKB则提供免费的计算资源。这消除了大规模、多模式数据所带来的计算负担,提升了研究群体获取数据并从中识别遗传发现的机会。

这种数据共享促成了广泛的研究开展和新发现。UKB的使用者涵盖全球范围内近100个国家的超3万名注册研究人员(80%的研究申请来自于英国外的研究者);截止2022年底,使用UKB数据已发表的科学论文近6000篇,引用超18万次,并以每年上千篇的速度增加。

进入数百元基因组时代,中国人群队列研究如何乘势崛起?

UKB注册研究人员及其所发表的文章数量近年来稳步增长

生物样本库的真正价值在于数据,诸如UKB这样的基础数据资源可以供全球各地的研究人员所使用。这种“开放共享”之所以能发挥其最大价值,是因为在这个过程当中数据快速迭代——全球科学家不断地进行使用(输出)和贡献(输入),这促进了新见解的产生,累积形成科研的“大数据”并不断刷新迭代向前。科学本质上就是踩在别人的肩膀上持续攀登。最终,参与者可以从高质量的健康研究中直接获益,研究人员可以发表具有影响力的成果,而公私合营可以产生足够的机会去考虑成果转化,这样一来,不同群体在同一个队列样本库上的持续建设使得生物样本库的价值实现了最大化。

进入数百元基因组时代,中国人群队列研究如何乘势崛起?

UKB的成功因素总结

通过这样的方式,UKB构建了英国迄今以来规模最大的有关致病或预防疾病的基因和环境因子的信息资源库,也逐渐成为了全球为数不多的大规模人体生物健康信息库之一,并在全球科学研究及产业转化中持续发挥着影响力。

四、中国到底需要什么样的队列研究?

UKB为我们开展队列研究及生物样本库建设提供了模式的参考,但西方国家的经验从来都不能直接解决国内的问题,在生物样本库建设上也不能完全拿来主义。

进入数百元基因组时代,中国人群队列研究如何乘势崛起?

专家学者在国内队列研究及生物样本库建设上经常提及的几个挑战因素

包括基因测序数据在内的国外生物样本库主要由来自欧洲血统的个体样本组成的,生物样本库收集样本时需要多样化才能体现出人群之间的差异性,研究人员也应考虑人群代表性不足这一因素对于其研究可能的限制及影响。在国内,我们是一个由56个民族组成的人口大国,人类遗传资源的多样性进一步丰富,这可能是任何一个国家都无法比拟的。同时,大陆地域辽阔,人口分布较广,这也为我们收集足够有代表性的人群样本、建设标准化和高质量的生物样本库提出了特殊的挑战。

当然,我们也不乏一些具有代表性和国际影响力的队列样本库前例,如中国慢性病前瞻性研究(China Kadoorie Biobank, CKB)、泰州人群健康跟踪调查(Taizhou Longitudinal Study, TZL,泰州队列)、江苏出生队列(Jiangsu Birth Cohort)等。一些高质量的科研成果正是基于这些队列的研究而产出的,而这些队列探索的经验为其他队列后续开展研究提供了借鉴,包括从人群招募、随访,到标准化数据生产、成果转化等方面。

进入数百元基因组时代,中国人群队列研究如何乘势崛起?
进入数百元基因组时代,中国人群队列研究如何乘势崛起?
进入数百元基因组时代,中国人群队列研究如何乘势崛起?

此次论坛上,复旦大学泰州健康科学研究院执行院长陈兴栋研究员详细介绍了泰州队列的建设经验

泰州队列的经验提示,队列研究一定是服务当地的健康管理需求的。当地政府的参与、组织及影响力可以在人群招募及随访、医疗信息的互联互通及研究成果的返回方面发挥积极的贡献。这几年南京江北新区联合南京医科大学积极推进的大规模人群队列研究也体现了这样高效的“政企研医”互动模式。顶层机制设计和支持,自上而下的组织推动形式,多方共同参与持续建设,这样成功验证的中国建设优势值得更多分享。

事实证明,通过生物样本库的队列研究可以提供初级预防的证据,可以提供开发筛查及诊断工具的证据,提供医疗决策的证据,提供药物开发的新靶点新思路。因此,在队列研究的成果认定及转化上,不应只关注所发表的文章、专利或专项著作的数量和质量,同时也要关注新的认识对于疾病风险检测与疾病预防的实践和指导(如将研究发现的新的致癌基因纳入疾病筛查,或推广应用性价比更高的多基因风险评分检测等),考虑更多引入相应的产业方,去思考可能的早筛早诊工具(泰州队列对基于液体活检的肿瘤早筛方法学构建提供了良好的土壤)及治疗药物的开发、健康管理工具构建。

大陆人口及患者资源都较为丰富,很多医院和研究机构之前都已经积累了相应规模的专病或普病的生物样本;随着国内测序成本的持续下降,队列建设及大规模人群的基因组学研究似乎又迎来了新的机会。当然,充分利用生物样本的方法不完全都是前瞻性从头构建新队列,也可以探索重新利用已有队列样本进行迭代的机制。在原有样本的基础上通过WGS去叠加基因组信息,实现队列参与者人人可及基因组测序,关联并结合已经收集到的表型、临床、病理数据,这样既可以更高效地发挥投资的价值,又能降低从头建设的成本。当然,使用已有的队列研究基础,也要考虑现有的样本质量(是否可用够用)、参与者池(还能不能随访)、数据管理系统(是否可拓展可整合)和治理结构(如何推动新旧项目的过渡和持续挖掘)等多方面的挑战。

尽管如此,很多研究人员也都提到了,我们仍需要拓宽可选的资助来源,引入其他也能从未来成果转化中获益的机构,如吸引国内创新药企的资助和参与,才能确保生物样本库建设的可持续性。

在生物样本背后的数据治理上,更需要考虑可持续、可及的模式。一方面,随着基因组和其他多维数据量爆炸性增长,我们也需要加强数据平台及计算、分析工具的开发和建设。“既要有矿山,又要有镐锹掘金,也要有高速轨道把矿运送出去”。另一方面,就像UKB提示的成功经验一样,如何开放生态、加强数据共享,同时更多地去与其他高质量队列数据进行整合研究,吸引更多的机构外研究人员参与数据的分析和解读,这从机制上及管理上都对队列建设都提出了高要求。此外,过去这两年,国家在大数据资源上加强了安全、隐私、监管等各方面的要求,这对于建设队列/生物样本库来说,从布局设计、实施、构建、随访、数据管理到使用申请、数据成果共享、管理的全流程都需要全盘考虑。这样才能逐渐摸索出最适应中国特色的生物样本库发展模式。

大规律大规模研究助力我们了解健康和疾病,也一定离不开国内国外的合作。加强国际间的合作,可以更好地帮助从病因学、遗传学到风险预测的研究。整合不同地区的华人队列,比如新加坡的华人跟国内华南地区的人群很相似,在复杂的慢性病研究上,可以更好地去提示相似人群在不同气候环境、不同生活方式下的差异性和多样性。同样,国外队列研究成果向健康卫生管理的转化实践经验也值得借鉴。英国、新加坡等在队列研究的基础上已经实现的转化的成果和经验,包括从治疗到预防、从疾病管理到健康管理、从医院到社区、医生的持续教育和下一代医师的培训体系、卫生经济学的分析等都为国内开展类似工作提供了可以合作、借鉴、探索的背景。过去很多年,队列研究、相应的数据分析和成果转化都是发生在西方人群中,通过合作,国内的队列研究可以更快地去跟已有的成果做结合做比较,这样才能最大化研究的价值,让所参与的人群真正从这样的研究中获益。

五、未来展望

科学本质上是一项集智事业。生物样本库是吸引不同的科学群体共享和集成的良好媒介。同时,生物样本库也是社会直接参与研究的方式,每一份样本背后都蕴藏着很大的希望,作为回报,研究人员都希望能从这些样本的研究中获得最多的见解和知识。

大规模的实体生物样本库是一项非常有价值的长期资产,因为在样本采集阶段所获取的人类生物样本是有限的。典型的生物样本库仍然是“一次性发生的”,从特定群体中采集完生物样本后进行存储。因此,每个有限样本的可用信息越多,对这个样本库及研究人员来说就越有价值。像UKB这些大的生物样本库在丰富每个样本所链接的数据维度上所做的尝试一样,基因组学及多组学技术的发展也为新时代的生物样本库数据生产提供了可选的工具。

高质量、数据丰富的样本库对于未来的研究至关重要。这也使得相应队列研究的合理设计、生物样本的采集、规范化计划性一致性的高效数据生产,以及可扩展可及的数据管理都十分重要。

大规模队列生物样本库的最终目的依然是服务于疾病的精准预防、诊断和治疗。但这永远不会是一蹴而就的过程,UKB在招募完成后随访了15年,自项目创建后20年才逐渐迎来了科学成果的逐渐展露,这种影响力的扩大建立在持续投入、持续开发、持续“利用”的基础上。对于中国的队列研究来说,从科学研究走向百姓日常,也需要时间,但更需要“以终为始”的成果转化理念,既能让参与者受益,又要让大众可以参与、可以理解。

进入数百元基因组时代,中国人群队列研究如何乘势崛起?

英国剑桥大学Emanuele Di Angelantonio教授在论坛上提到:队列研究就如同葡萄酒,越醇厚才越有香味。这个比喻对于队列建设来说,恰如其分

中国的队列建设需要具备国际视野。构建中国自己的有影响力的队列是普遍心声,这需要探索有效的中国模式,但同样需要更多地展示中国队列的特色,跟国外其他队列研究的结果进行汇总对比分析,需要更多的国内国际不同学科、不同领域的合作、协同和交叉。只有将中国人群队列的基础研究结果让更多的国际研究人员看到、索引并探索分析,中国人群才能不断从整个科学界推进迭代的研究发现中最多获益。

随着国内测序成本的持续下降,国内的队列研究也将直接受益于基因组信息的可及性提升,预期将有更多的中国人群研究被国际科学界所看到,我们也期待这些WGS加持的高质量中国队列研究能进一步推动实现真正的个体化医疗防护。

继续阅读