GWAS中的effect與數量遺傳學中的替換效應

雖然，我早就知道GWAS分析中的effect值，就是數量遺傳學的基因中的替換效應，但是一直沒有仔細閱讀相關材料。今天通過閱讀數量遺傳學的教程，了解了這個概念，真好。

1. GWAS中的effect

就是GWAS中的回歸系數，effect，beta，都是一個意思。

因為GWAS分析彙總，單點檢測，類似回歸分析，effect就是SNP回歸系數beta，p值就是SNP的P-value。

比如資料：

用R語言拟合模型：

mod_M7 = lm(phe.V3 ~ M7_1,data=dd)
summary(mod_M7)

這裡的M7位點，effect是1.394，p值是0.29。

下圖用GWAS的GLM模型展示，兩者結果是一緻的。

2. 數量遺傳學中的替換效應

2.1 加性效應和顯性效應

首先，先看一下加性效應和顯性效應的定義：

舉個栗子比如：

A2A2的平均值是：20
A1A2的平均值是：17
A2A2的平均值是：10

那麼：

平均值是m = （10+20）/2 =15
加性效應的值是a = (20-10)/2 =5
顯性效應的值是d = 17-15=2

2.2 期望和方差

假定一個位點的次等位基因頻率是p，主等位基因頻率是q，而且該位點滿足哈溫平衡，是以：

整體均值為：

整體方差：

2.3 等位基因平均效應

一種定義等位基因效應的方法，是利用後代群體的平均表現與随機交配群體均值的離差進行計算。

以等位基因A1為例，把它視為配子，與群體中其他配子随機結合産生一個後代群體，其他配子基因型既有A1也有A2，它們的頻率分别為p和q。是以，配子A1産生後代群體中的基因型有A1A1和A1A2兩種，頻率也分别為p和q。根據配子A1後代群體的基因型頻率，就能得到後代群體的均值為pa+qd，從中減去随機交配群體的均值μ，就得到等位基因A1的效應。

類似地，我們還可以得到等位基因A2平均效應。對于複等位基因，可用同樣的方法定義它們的平均效應。

2.4 替換效應(substitution effect)

育種過程中，當選擇有利于某個等位基因時，常意味着有利等位基因對另一個不利等位基因的替換。是以，有必要研究等位基因的替代效應（effect of an allele substitution）。假定我們可以把随機挑選的等位基因A2變為A1，中選個體的基因型可能是A1A2也可能是A2A2，頻率分别為p和q。把A1A2變為A1A1後，基因型值從d變為a，替換前後的效應變化為a-d；把A2A2變為A1A2後，基因型值從-a變為d，替換前後的效應變化為a+d。是以得到平均基因替換效應的表達式。

GWAS中的effect與數量遺傳學中的替換效應

基因平均效應和替換效應的關系：

上面資料來源王健康老師的PPT内容：第8章随機交配群體的遺傳分析

3. 用基因型資料計算

3.1 基因頻率

首先，看一下基因頻率：

p為：0.1693
q為：0.8307

也可以根據AA，AT，TT的個數，手動計算：

3.2 加性效應和顯性效應

這裡，用AA，AT，TT平均表型值計算：

計算的結果：

m：2.316
a：2.316
d：1.804

3.3 基因效應和替換效應

注意，如果要手動計算的替換效應和回歸分析計算的回歸系數，需要滿足哈溫平衡。這裡位點不符合哈溫平衡，是以手動計算的替換效應和回歸分析的beta值有差别。

4. 替換效應和回歸系數等價推導

下面介紹一下相關的推導。

把SNP的分型轉為0-1-2的X變量，将表型資料為Y變量，那麼回歸系數的公式可以推導為替換效應的組成。

上圖中，X是編碼為0-1-2的SNP，Y是每個基因型0-1-2的表型值。比如：

如果我們對value為Y，SNP為x，計算回歸系數：

b = cov(X,Y)/var(X)，就可以推導為：b = alpha，截距為：u - 2palpha

結論：回歸系數就是替換效應。

5 模拟資料示範

計算公式：

5.1 小資料示範

我們模拟一個符合哈溫平衡的位點，p=0.5，q=0.5，n=12個：

計算不同分型的平均數：

A2A2 = 10.7
A1A2 = 18.2
A1A1 = 31

那麼加性效應和顯性效應為：

m = (31+10.7)/2 = 20.85
a = 31-20.85 = 10.15
d = 18.2 -m = -2.65

替換效應為：

a + (p - q)d = 10.15

截距為：

u = 19.5

截距 = 19.5 - 20.5*10.15 = 9.35

可以看出，計算出的回歸系數為：10.16，截距為9.33，結果基本一緻。

5.2 大資料示範

# 假定p為0.8，q為0.2，a=10,m =30,d=5,
# 那麼分型為0的為20，分型為1的為35，分型為2的為40
# 那麼分型為0的頻率為0.64，分型為1的頻率為0.32，分型為2的頻率為0.04
# 總模拟個數為1000，标準差為5
rm(list=ls())
set.seed(123)
AA = data.frame(SNP = rep(0,640),y = rnorm(640,20,5))
AT = data.frame(SNP = rep(1,320),y = rnorm(320,35,5))
TT = data.frame(SNP = rep(2,40),y = rnorm(40,40,5))

dd = rbind(AA,AT,TT)
head(dd)
str(dd)
table(dd$SNP)

mod = lm(y ~ SNP,data=dd)
summary(mod)


## 手動計算
mu = mean(dd$y);mu
a=10;d=5;p=0.8;q=0.2 
beta = a + (p-q)*d;beta
beta_0 = mu - 2*q*beta;beta_0

回歸計算的回歸系數和截距為：

截距：20.6
回歸系數：12.9989

手動計算基因的替換效應：

截距為：20.61
回歸系數為：13

兩者結果完全一緻。

5. 替換效應和育種值

一個個體的育種值，就是他的後代群體，相對于整個親本群體的差異。比如一個個體的育種值是0.5，那就是說他的後代會比群體的整體平均值高0.3，如果育種值是0，那就是後代的平均值和群體一緻。是以，我們要選擇blup值大的個體，因為它的後代會高于群體的平均值。

是以，基因型A1A1、A1A2和A2A2的育種值分别為A11=2α1， A12=α1 +α2和A22=2α2 。統一起來，各種基因型的育種值表示為：

A11 = 2*alpha1
A12 = alpha1 + alpha2
A22 = alpha2

注意，這裡的alpha1是等位基因1的平均效應，alpha2是等位基因2的平均效應。

是以，這裡，就可以了解為數量遺傳學的替換效應就和GWAS分析的效應值聯系到了一起。

GWAS中的effect與數量遺傳學中的替換效應

1. GWAS中的effect

2. 數量遺傳學中的替換效應

2.1 加性效應和顯性效應

2.2 期望和方差

2.3 等位基因平均效應

2.4 替換效應(substitution effect)

3. 用基因型資料計算

3.1 基因頻率

3.2 加性效應和顯性效應

3.3 基因效應和替換效應

4. 替換效應和回歸系數等價推導

5 模拟資料示範

5.1 小資料示範

5.2 大資料示範

5. 替換效應和育種值

繼續閱讀

Lagrange插值的R語言實作

C++易錯知識點筆記（一）const關鍵字一，const常量二，const指針

微信小程式前端解密擷取使用者資訊

Spring MVC 自學雜記（五） -- SpringMVC與前台的json資料互動

《MySQL技術内幕：InnoDB存儲引擎》筆記

擴容TIKV節點遇到的坑

PHP輔導代做程式設計：CS353 Database System

Babylon.js 第21章材質映射到網格+貼花

仿美團實作地域選擇（二）

自學Zabbix3.10.2-事件通知Notifications upon events-Actions報警配置點選傳回：自學zabbix集錦

HDU 5678 ztr loves trees

R語言-相關性分析函數

拓端tecdat|R語言彈性網絡Elastic Net正則化懲罰回歸模型交叉驗證可視化

二叉樹及其應用--二叉樹建立

【可靠性評估】電力系統可靠性評估matlab仿真1.軟體版本2.本算法理論知識

詳解STM32單片機的堆棧