天天看點

LDblock繪制連鎖不平衡和單體型圖

大家好,我是鄧飛。

在GWAS分析中,我們挖掘到了一些顯著性的位點,如何确定這些位點是不是假陽性呢?我們可以通過LDblock分析并進行可視化進行判斷。

我們知道GWAS分析中是依據SNP與性狀控制的基因存在LD,是以如果位點顯著,則周圍應該有一些位點都顯著,或者說位點所在的區域LD值比較高,能形成Block,才比較靠譜。否則,顯著性為點形單影隻,并且沒有形成Block,極大可能是假陽性!

下面介紹如何通過基因型資料和GWAS分析結果,繪制LDblock。

要實作的下面的圖:

  • 最下方的熱圖是兩兩SNP之間的LD值,越高越紅,比較紅的區域構成一個Block(用黑線連起來)
  • 如果提供gff檔案,可以顯示基因的上遊、下遊、外顯子、内含子區域
  • 上面是位點的曼哈頓圖,是區域性的曼哈頓圖
  • 位點之間,也可以根據LD值進行可視化,以最顯著的位點為四方形,其它位點與其LD值的大小呈現不同的顔色
LDblock繪制連鎖不平衡和單體型圖

軟體介紹:(這兩款神奇是一人開發,大神呀!)

github連結:https://github.com/BGI-shenzhen/

  • A:整體上宏觀上用:PopLDdecay 軟體 ,軟體己經生物資訊Bioinformatics雜志發表online
  • B: 從局部上檢視用:LDBlockShow軟體, 軟體已經正式被 briefings in bioinformatics (影響分子8.99)的雜志接收

1. 資料準備

  • vcf格式的資料,​

    ​InVCF​

  • plink二進制檔案,​

    ​InPlink​

  • plink文本檔案,​

    ​InPlink​

2. 軟體安裝

網址:https://github.com/BGI-shenzhen/LDBlockShow

中文說明書:https://github.com/hewm2008/LDBlockShow/blob/main/LDBlockShow_Manual_Chinese.pdf

安裝代碼:

git clone https://github.com/hewm2008/LDBlockShow.git
        cd LDBlockShow ; chmod 755 configure  ;  ./configure;
        make;
        mv LDBlockShow  bin/;    #     [rm *.o]      

3. 軟體測試

資料:

file.vcf

代碼:

這裡,繪制染色體1,位置區間是:49670000:49780000

LDBlockShow -InVCF file.vcf -OutPut re5 -Region 1:49670000:50680000 -OutPng -SeleVar 1      

結果:

LDblock繪制連鎖不平衡和單體型圖

4. 進階:Heatmap + block

vcf檔案:Test.vcf.gz

LDblock繪制連鎖不平衡和單體型圖

指令:

LDBlockShow -InVCF Test.vcf.gz -OutPut re1 -Region chr11:24100000:24200000 -OutPng -SeleVar 1      

結果檔案:

re1.blocks.gz  re1.png  re1.site.gz  re1.svg  re1.TriangleV.gz      
LDblock繪制連鎖不平衡和單體型圖

5. 進階:Heatmap + block + GWAS

考慮GWAS的結果,加入參數:​

​-InGWAS gwas.pvalue​

vcf檔案:Test.vcf.gz

LDblock繪制連鎖不平衡和單體型圖

GWAS結果檔案:三列,Chr, Position, Pvalue,沒有行頭

$ head gwas.pvalue
chr11 24142640  0.00009
chr11 24142660  1.02e-9
chr11 24142669  1e-9
chr11 24142692  0.5
chr11 24142724  0.6
chr11 24142756  0.001
chr11 24142760  0.006      

指令:

LDBlockShow -InVCF Test.vcf.gz -OutPut re2 -Region chr11:24100000:24200000 -InGWAS gwas.pvalue -OutPng -SeleVar 1      

結果:

re2.blocks.gz  re2.png  re2.site.gz  re2.svg  re2.TriangleV.gz      
LDblock繪制連鎖不平衡和單體型圖

結果中包括熱圖,block圖和GWAS圖合并起來了。

上面的圖,可以通過​

​ShowLDSVG​

​軟體,進一步優化:

  • -Cutline,門檻值定義為7
  • -ShowNum,顯示LD值
  • -PointSize,顯示點大小
ShowLDSVG -InPreFix re2 -OutPut temp -InGWAS gwas.pvalue -Cutline 7 -ShowNum -PointSize 3      

結果:

LDblock繪制連鎖不平衡和單體型圖

6. Heatmap + block + GWAS + Annotation

相比較上圖,增加了注釋的資訊。

檔案需要:

  • vcf,vcf格式的檔案
  • gwas_pvalue,三列的gwas結果(Chr,Position,Pvalue),無行頭
  • gff檔案,注釋檔案
$ cat In.gff
chr11 maker mRNA  24142646  24142738  . + . ID=GeneName
chr11 maker five_prime_UTR  24142646  24142652  . - . Parent=GeneName
chr11 maker CDS 24142653  24142673  . + 2 Parent=GeneName
chr11 maker CDS 24142718  24142729  . + 2 Parent=GeneName
chr11 maker five_prime_UTR  24142730  24142738  . + . Parent=GeneName      

指令:

LDBlockShow -InVCF Test.vcf.gz -OutPut re3 -Region chr11:24100000:24200000 -InGWAS gwas.pvalue -OutPng -SeleVar 1 -InGFF In.gff      
LDblock繪制連鎖不平衡和單體型圖

也可以增加SNP的名稱:

$ cat Spe.snp
chr11 24142660
chr11 24142669  SpeA
chr11 24142760  SpeB      

指令:

LDBlockShow -InVCF Test.vcf.gz -OutPut re3 -Region chr11:24100000:24200000 -InGWAS gwas.pvalue -OutPng -SeleVar 1 -InGFF In.gff -SpeSNPName Spe.snp      
LDblock繪制連鎖不平衡和單體型圖

7. 進階:LDblock+GWAS+Annotation+Locuszoom

可以通過​

​-TopSite​

​在GWAS圖中顯示最顯著位點與其它位點的LD關系。

LDBlockShow -InVcf Test.vcf.gz -OutPut re4 -InGWAS gwas.pvalue -InGFF In.gff -Region chr11:24100000:24200000 -OutPng -SeleVar 3 -TopSite      

下圖中,最顯著的位點為四邊形,其它顔色,紅色表示LD高,其它顔色表示LD低。在上圖的基礎上,增加了最顯著位點與其它位點的LD情況。

繼續閱讀