大家好,我是鄧飛。
在GWAS分析中,我們挖掘到了一些顯著性的位點,如何确定這些位點是不是假陽性呢?我們可以通過LDblock分析并進行可視化進行判斷。
我們知道GWAS分析中是依據SNP與性狀控制的基因存在LD,是以如果位點顯著,則周圍應該有一些位點都顯著,或者說位點所在的區域LD值比較高,能形成Block,才比較靠譜。否則,顯著性為點形單影隻,并且沒有形成Block,極大可能是假陽性!
下面介紹如何通過基因型資料和GWAS分析結果,繪制LDblock。
要實作的下面的圖:
- 最下方的熱圖是兩兩SNP之間的LD值,越高越紅,比較紅的區域構成一個Block(用黑線連起來)
- 如果提供gff檔案,可以顯示基因的上遊、下遊、外顯子、内含子區域
- 上面是位點的曼哈頓圖,是區域性的曼哈頓圖
- 位點之間,也可以根據LD值進行可視化,以最顯著的位點為四方形,其它位點與其LD值的大小呈現不同的顔色

軟體介紹:(這兩款神奇是一人開發,大神呀!)
github連結:https://github.com/BGI-shenzhen/
- A:整體上宏觀上用:PopLDdecay 軟體 ,軟體己經生物資訊Bioinformatics雜志發表online
- B: 從局部上檢視用:LDBlockShow軟體, 軟體已經正式被 briefings in bioinformatics (影響分子8.99)的雜志接收
1. 資料準備
- vcf格式的資料,
InVCF
- plink二進制檔案,
InPlink
- plink文本檔案,
InPlink
2. 軟體安裝
網址:https://github.com/BGI-shenzhen/LDBlockShow
中文說明書:https://github.com/hewm2008/LDBlockShow/blob/main/LDBlockShow_Manual_Chinese.pdf
安裝代碼:
git clone https://github.com/hewm2008/LDBlockShow.git
cd LDBlockShow ; chmod 755 configure ; ./configure;
make;
mv LDBlockShow bin/; # [rm *.o]
3. 軟體測試
資料:
file.vcf
代碼:
這裡,繪制染色體1,位置區間是:49670000:49780000
LDBlockShow -InVCF file.vcf -OutPut re5 -Region 1:49670000:50680000 -OutPng -SeleVar 1
結果:
4. 進階:Heatmap + block
vcf檔案:Test.vcf.gz
指令:
LDBlockShow -InVCF Test.vcf.gz -OutPut re1 -Region chr11:24100000:24200000 -OutPng -SeleVar 1
結果檔案:
re1.blocks.gz re1.png re1.site.gz re1.svg re1.TriangleV.gz
5. 進階:Heatmap + block + GWAS
考慮GWAS的結果,加入參數:
-InGWAS gwas.pvalue
vcf檔案:Test.vcf.gz
GWAS結果檔案:三列,Chr, Position, Pvalue,沒有行頭
$ head gwas.pvalue
chr11 24142640 0.00009
chr11 24142660 1.02e-9
chr11 24142669 1e-9
chr11 24142692 0.5
chr11 24142724 0.6
chr11 24142756 0.001
chr11 24142760 0.006
指令:
LDBlockShow -InVCF Test.vcf.gz -OutPut re2 -Region chr11:24100000:24200000 -InGWAS gwas.pvalue -OutPng -SeleVar 1
結果:
re2.blocks.gz re2.png re2.site.gz re2.svg re2.TriangleV.gz
結果中包括熱圖,block圖和GWAS圖合并起來了。
上面的圖,可以通過
ShowLDSVG
軟體,進一步優化:
- -Cutline,門檻值定義為7
- -ShowNum,顯示LD值
- -PointSize,顯示點大小
ShowLDSVG -InPreFix re2 -OutPut temp -InGWAS gwas.pvalue -Cutline 7 -ShowNum -PointSize 3
結果:
6. Heatmap + block + GWAS + Annotation
相比較上圖,增加了注釋的資訊。
檔案需要:
- vcf,vcf格式的檔案
- gwas_pvalue,三列的gwas結果(Chr,Position,Pvalue),無行頭
- gff檔案,注釋檔案
$ cat In.gff
chr11 maker mRNA 24142646 24142738 . + . ID=GeneName
chr11 maker five_prime_UTR 24142646 24142652 . - . Parent=GeneName
chr11 maker CDS 24142653 24142673 . + 2 Parent=GeneName
chr11 maker CDS 24142718 24142729 . + 2 Parent=GeneName
chr11 maker five_prime_UTR 24142730 24142738 . + . Parent=GeneName
指令:
LDBlockShow -InVCF Test.vcf.gz -OutPut re3 -Region chr11:24100000:24200000 -InGWAS gwas.pvalue -OutPng -SeleVar 1 -InGFF In.gff
也可以增加SNP的名稱:
$ cat Spe.snp
chr11 24142660
chr11 24142669 SpeA
chr11 24142760 SpeB
指令:
LDBlockShow -InVCF Test.vcf.gz -OutPut re3 -Region chr11:24100000:24200000 -InGWAS gwas.pvalue -OutPng -SeleVar 1 -InGFF In.gff -SpeSNPName Spe.snp
7. 進階:LDblock+GWAS+Annotation+Locuszoom
可以通過
-TopSite
在GWAS圖中顯示最顯著位點與其它位點的LD關系。
LDBlockShow -InVcf Test.vcf.gz -OutPut re4 -InGWAS gwas.pvalue -InGFF In.gff -Region chr11:24100000:24200000 -OutPng -SeleVar 3 -TopSite
下圖中,最顯著的位點為四邊形,其它顔色,紅色表示LD高,其它顔色表示LD低。在上圖的基礎上,增加了最顯著位點與其它位點的LD情況。