雖然,我早就知道GWAS分析中的effect值,就是數量遺傳學的基因中的替換效應,但是一直沒有仔細閱讀相關材料。今天通過閱讀數量遺傳學的教程,了解了這個概念,真好。
1. GWAS中的effect
就是GWAS中的回歸系數,effect,beta,都是一個意思。
因為GWAS分析彙總,單點檢測,類似回歸分析,effect就是SNP回歸系數beta,p值就是SNP的P-value。
比如資料:

用R語言拟合模型:
mod_M7 = lm(phe.V3 ~ M7_1,data=dd)
summary(mod_M7)
這裡的M7位點,effect是1.394,p值是0.29。
下圖用GWAS的GLM模型展示,兩者結果是一緻的。
2. 數量遺傳學中的替換效應
2.1 加性效應和顯性效應
首先,先看一下加性效應和顯性效應的定義:
舉個栗子比如:
- A2A2的平均值是:20
- A1A2的平均值是:17
- A2A2的平均值是:10
那麼:
- 平均值是m = (10+20)/2 =15
- 加性效應的值是a = (20-10)/2 =5
- 顯性效應的值是d = 17-15=2
2.2 期望和方差
假定一個位點的次等位基因頻率是p,主等位基因頻率是q,而且該位點滿足哈溫平衡,是以:
整體均值為:
整體方差:
2.3 等位基因平均效應
一種定義等位基因效應的方法,是利用後代群體的平均表現與随機交配群體均值的離差進行計算。
以等位基因A1為例,把它視為配子,與群體中其他配子随機結合産生一個後代群體,其他配子基因型既有A1也有A2,它們的頻率分别為p和q。是以,配子A1産生後代群體中的基因型有A1A1和A1A2兩種,頻率也分别為p和q。根據配子A1後代群體的基因型頻率,就能得到後代群體的均值為pa+qd,從中減去随機交配群體的均值μ,就得到等位基因A1的效應 。
類似地,我們還可以得到等位基因A2平均效應 。對于複等位基因,可用同樣的方法定義它們的平均效應。
2.4 替換效應(substitution effect)
育種過程中,當選擇有利于某個等位基因時,常意味着有利等位基因對另一個不利等位基因的替換。是以,有必要研究等位基因的替代效應(effect of an allele substitution)。假定我們可以把随機挑選的等位基因A2變為A1,中選個體的基因型可能是A1A2也可能是A2A2,頻率分别為p和q。把A1A2變為A1A1後,基因型值從d變為a,替換前後的效應變化為a-d;把A2A2變為A1A2後,基因型值從-a變為d,替換前後的效應變化為a+d。是以得到平均基因替換效應的表達式。![]()
GWAS中的effect與數量遺傳學中的替換效應
基因平均效應和替換效應的關系:
上面資料來源王健康老師的PPT内容:第8章 随機交配群體的遺傳分析
3. 用基因型資料計算
3.1 基因頻率
首先,看一下基因頻率:
- p為:0.1693
- q為:0.8307
也可以根據AA,AT,TT的個數,手動計算:
3.2 加性效應和顯性效應
這裡,用AA,AT,TT平均表型值計算:
計算的結果:
- m:2.316
- a:2.316
- d:1.804
3.3 基因效應和替換效應
注意,如果要手動計算的替換效應和回歸分析計算的回歸系數,需要滿足哈溫平衡。這裡位點不符合哈溫平衡,是以手動計算的替換效應和回歸分析的beta值有差别。
4. 替換效應和回歸系數等價推導
下面介紹一下相關的推導。
把SNP的分型轉為0-1-2的X變量,将表型資料為Y變量,那麼回歸系數的公式可以推導為替換效應的組成。
上圖中,X是編碼為0-1-2的SNP,Y是每個基因型0-1-2的表型值。比如:
如果我們對value為Y,SNP為x,計算回歸系數:
b = cov(X,Y)/var(X),就可以推導為:b = alpha,截距為:u - 2palpha
結論:回歸系數就是替換效應。
5 模拟資料示範
計算公式:
5.1 小資料示範
我們模拟一個符合哈溫平衡的位點,p=0.5,q=0.5,n=12個:
計算不同分型的平均數:
- A2A2 = 10.7
- A1A2 = 18.2
- A1A1 = 31
那麼加性效應和顯性效應為:
- m = (31+10.7)/2 = 20.85
- a = 31-20.85 = 10.15
- d = 18.2 -m = -2.65
替換效應為:
a + (p - q)d = 10.15
截距為:
u = 19.5
截距 = 19.5 - 20.5*10.15 = 9.35
可以看出,計算出的回歸系數為:10.16,截距為9.33,結果基本一緻。
5.2 大資料示範
# 假定p為0.8,q為0.2,a=10,m =30,d=5,
# 那麼分型為0的為20,分型為1的為35,分型為2的為40
# 那麼分型為0的頻率為0.64,分型為1的頻率為0.32,分型為2的頻率為0.04
# 總模拟個數為1000,标準差為5
rm(list=ls())
set.seed(123)
AA = data.frame(SNP = rep(0,640),y = rnorm(640,20,5))
AT = data.frame(SNP = rep(1,320),y = rnorm(320,35,5))
TT = data.frame(SNP = rep(2,40),y = rnorm(40,40,5))
dd = rbind(AA,AT,TT)
head(dd)
str(dd)
table(dd$SNP)
mod = lm(y ~ SNP,data=dd)
summary(mod)
## 手動計算
mu = mean(dd$y);mu
a=10;d=5;p=0.8;q=0.2
beta = a + (p-q)*d;beta
beta_0 = mu - 2*q*beta;beta_0
回歸計算的回歸系數和截距為:
- 截距:20.6
- 回歸系數:12.9989
手動計算基因的替換效應:
- 截距為:20.61
-
回歸系數為:13
兩者結果完全一緻。
5. 替換效應和育種值
一個個體的育種值,就是他的後代群體,相對于整個親本群體的差異。比如一個個體的育種值是0.5,那就是說他的後代會比群體的整體平均值高0.3,如果育種值是0,那就是後代的平均值和群體一緻。是以,我們要選擇blup值大的個體,因為它的後代會高于群體的平均值。
是以,基因型A1A1、A1A2和A2A2的育種值分别為A11=2α1, A12=α1 +α2和A22=2α2 。統一起來,各種基因型的育種值表示為:
- A11 = 2*alpha1
- A12 = alpha1 + alpha2
-
A22 = alpha2
注意,這裡的alpha1是等位基因1的平均效應,alpha2是等位基因2的平均效應。
是以,這裡,就可以了解為數量遺傳學的替換效應就和GWAS分析的效應值聯系到了一起。