一张图介绍PRS的计算步骤

2022-10-30 06:11:01

查看了一下博客和文献，把我的理解总结一下。

PRS是多基因风险评分，下面介绍一下它处理的步骤。

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7612115/

1. 数据

1.1 基础数据（BASE DATA）

数据包括：

Summary statistics结果
Betas或者ORs

这部分数据，主要是大样本得到的特定性状的GWAS结果，GWAS summary result，包括snp，染色体，物理位置，maf，effect（或者OR），P值等信息，类似：

连续性状：

或者：

二分类性状：

或者：

1.2 目标数据（TARGET DATA）

这部分数据就是我们自己搜集的数据，包括：

个体的基因型和表型
通常数据量不大，个体数据量不大，位点数据量也不大

2. 数据处理

这部分，包括：

数据的质控，包括Base data的质控和Target data的质控
影响PGS的因素要注意，比如样本的重复、关系、以及群体的结构
获得目标的SNP位点

具体而言，在进行处理数据前，需要确定性状的遗传特性h2snp 要大于0.05，文件中确定定位基因，对maf和去填充准确性得分进行质控，两个数据基因组版本一致，对于基因型不匹配的可以通过flip翻转，重复的snp删除，性染色体删除，重复样本删除，对于基础数据和目标数据中有交叉的个人删除，亲缘关系近的也删除，确保基础数据和目标数据独立，等操作。

3. PRS计算

包括根据LD去调整，比如修剪（clumping），然后计算Beta校正值，以及调整P值，计算PRS值。

具体的做法：

对于Beta和OR值，应该对其进行矫正，可以通过LASSO或者岭回归进行收缩（shrinkage），另外，通过P值进行筛选SNP。
根据LD去质控SNP，保证中选的SNP独立

4. 测试

这部分，主要是在目标数据中进行测试，查看计算的PRS和实际的表型匹配度如何，计算准确性。

5. 验证或者预测

6. 相关的软件

plink
biqsnpr，一个R包
PRSice，应用最广泛，通过C+T的策略
LDpred，通过贝叶斯收缩的模型
PRS-CS
JAMPred
Lassosum

一张图介绍PRS的计算步骤

1. 数据

1.1 基础数据（BASE DATA）

1.2 目标数据（TARGET DATA）

2. 数据处理

3. PRS计算

4. 测试

5. 验证或者预测

6. 相关的软件

继续阅读

吴恩达 coursera ML 第七课总结+作业答案前言目录正文模型表示作业答案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制规程及特点4． CSMA/CD协议5． CSMA/CD的优点6．结束语

XGBoost Plotting API以及GBDT组合特征实践 XGBoost Plotting API以及GBDT组合特征实践

极大似然法(ML)与最大期望法(EM)

[HTML5]自定义属性 data-* 和 jQuery.data 详解

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告

C++ 第十五周报告1--《冒泡法排序》

2021年危险化学品经营单位安全管理人员考试题库及危险化学品经营单位安全管理人员考试技巧

笔试面试题目：滑动窗口(二)

数据结构与算法（27）——排序（二）

无人机--飞控科普

Dijkstra--简易版（最短路径）

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

详解STM32单片机的堆栈

hdu7108哈希