2021.01.05丨根据基因名称拼接表达量与相关注释

2023-08-03 14:41:57

这一步是在进行最后的数据汇总工作中用到的，将基因的count与FPKM值和基因注释的结果组合在一起，得到一个完整的数据。方便客户进行后续研究。算法与之前那篇基因ID匹配注释文本一文相似，用了两个for循环嵌套进行比对，O=n²，在此也希望能够抛砖引玉，得到大神指点。

输入文件：

anno.DEG.txt

2021.01.05丨根据基因名称拼接表达量与相关注释

all.anno.xls #这里用的Editplus打开

2021.01.05丨根据基因名称拼接表达量与相关注释

本来之前我对all.anno.xls的geneID已经处理过了，但是正好遇到ftp出问题，无法下载最新文件，就将就前两天的结果进行处理

#读取文件列
anno_file = open('C:/Users/bbplayer/Downloads/all.anno.xls','r')
diffgene_file = open('C:/Users/bbplayer/Downloads/anno.DEG.txt','r')
genome_line = anno_file.readlines()
diffgene_list = diffgene_file.readlines()
#保留首行
title = diffgene_list[0]
#设置输出文件名
newfile_name = 'anno.DEG2'
desktop_path = 'C:/Users/bbplayer/Downloads/'
file_path = desktop_path+newfile_name+'.txt'
file = open(file_path,'w') #打开文件名
file.write(title) #输入首行
for count_fpkm in diffgene_list:
    count_fpkm = count_fpkm.replace("\n","") #替换换行符
    #print(count_fpkm) 
    gene_ID = count_fpkm.split('\t') #根据分隔符进行分段
    #print(gene_ID[0])
    for line in genome_line:
        str_line = str(line)
        anno_ID = str_line.split(':')
        anno_line = str_line.split('\t',1) #根据分隔符进行分成2段
        #print(anno_line)
        if  anno_ID[0] == gene_ID[0]:
            num = len(anno_line) #注释为空时num=1
            if num !=2:
                continue
            else:
                #print(num)
                file.write(count_fpkm + "\t" + anno_line[1])
        else:
            continue
#关闭文件
file.close()
diffgene_file.close()
anno_file.close()

tips：里面注释掉的print（）用来测试输出文本，最简单直白的测试方式。

结果展示（只截了中间结合起来的部分，即表达下调down和GO注释连接处）：

2021.01.05丨根据基因名称拼接表达量与相关注释

其实还可以这样，如果都用excel打开，然后对geneID统一升序或者降序，是否能直接对应上geneID，直接把注释文件粘贴到FPKM值后面。当然，这种办法一个是手动不方便，另一个是数据量大，中间计算复杂，不一定能保证完全匹配。

最近在看BLAST的算法，觉得人家好厉害，可以想到那么低计算度的方式。之后也要多研究研究算法了。

2021.01.05丨根据基因名称拼接表达量与相关注释

继续阅读

生物信息项目实战

2020.12.30丨随机读取reads使用ncbi在线工具比对nt数据库

《全基因组测序WGS数据分析——2.FASTA和FASTQ》学习笔记FASTAFASTQ

生信学习笔记：生物信息学测序分析基本流程入门笔记

生信学习笔记：用conda安装bwa、samtools和tophat2以及问题解决

生信学习笔记：测序数据质控

《群体遗传学》学习笔记群体中的基因和基因型频率遗传平衡定律影响遗传平衡的因素

生物信息学习——cufflinks一. 简介二. 安装三. Cufflinks的使用四. Cuffmerge的使用五. Cuffcompare的使用六. Cuffdiff的使用八 Cuffquant九 Cuffnorm

水稻重要品种与参考基因组存在广泛差异

线粒体基因组常见缩写与术语

生信学习笔记：fastp质控处理生成的report结果解读fastp report

转录组分析数据准备数据的下载

序列相似度定义

开篇叙事我为什么会在这儿

mahout探索之旅---开篇

WEB程序员，界面美化是你心中永远的痛吗？