天天看点

2020.12.02丨使用dfast工具进行细菌基因组注释

  • 接到一个项目,需要对一个2代细菌全基因组数据进行组装和注释,网上给到了2个软件,Prokka和dfast。我优先安装下载的Prokka,无奈在环境配置上一直没有处理好,查过一些问题后发现可能需要对perl降低版本到5.22,另一个是对Bioperl的安装配置。弄了两天感觉时间成本比较高,转过来尝试使用dfast,虽然过程中也出现不少问题,但最终还是完成了注释过程。接下来就进行一个梳理。
  • 使用软件:dfast
  • 安装方式:
    • 源码下载:DFAST-core (nig.ac.jp)
    • conda安装:conda install -c bioconda dfast
  • 下载后进行解压缩以及环境配置
    • tar -vxf dfast_core-1.2.6.tar.gz
      vi ~/.bashrc
                 
    • #在export后面添加dfast路径,:wq保存退出
  • 不进行环境配置,运行的命令路径也比较简单
    • dfast_core-1.2.6/dfast
  • 进入文件夹,在README中可以查看使用说明
    • cd dfast_core-1.2.6
      less README
                 
  • 下载注释所需要的参考数据库
    • 默认蛋白数据库
      • dfast_file_downloader.py --protein dfast
                   
    • HMMer and RPS-BLAST 数据库
      • dfast_file_downloader.py --cdd Cog --hmm TIGR
                   
    • 其他数据库可以通过-h来查阅下载
      • dfast_file_downloader.py -h
                   
    • 通过官方脚本下载速度比较慢,可以通过提供链接直接打开浏览器下载
      • 默认蛋白数据库:DFAST-core (nig.ac.jp)
      • HMMer and RPS-BLAST 数据库:Index of /pub/mmdb/cdd/little_endian (nih.gov)
        • dfast支持多种数据库注释,这在dfast_file_downloader.py -h中可以查阅
    • 最关键的来了!!!下面几点决定了你在注释过程中是否能够调用数据库,成功进行注释
      • 下载好的数据库需要注意以下几点:
        • 下载好的.gz格式数据库要解压缩,tar.gz格式解压两次(如Cog LE.tar.gz)
        • Cog数据库解压后需要修改前缀
          • 数据库命名为Cog LE
          • 更改后为Cog #dfast脚本调用命名,或者改脚本也可以
          • 如果没有配置成功会遇到Cannot retrieve path to RPS database的报错
            • 2020.12.02丨使用dfast工具进行细菌基因组注释
        • 解压之后,默认蛋白数据库和HMM数据库都只有一个文件,不着急,后面运行contig文件会自动生成数据库索引
          • 以TIGRFAMs_15.0_HMM.LIB为例,
            • 解压后
              2020.12.02丨使用dfast工具进行细菌基因组注释
            • 运行test_config.py后
              • 2020.12.02丨使用dfast工具进行细菌基因组注释
        • 使用dfast_file_downloader.py下载数据库的路径在调用时会报错,可能版本不用原因,下载Cog时的路径为cddsearch,而dfast调用路径为cdd,需要手动修改
          • 红色箭头文件命名需要修改
            2020.12.02丨使用dfast工具进行细菌基因组注释
          • 这个能够被我发现是因为软件会报错
        • 如果遇到了类似但是不是我说的这种问题,可以去查看软件的运行脚本。
  • 运行test_config.py进行测试
    • dfast --config $DFAST_APP_ROOT/example/test_config.py
                 
    • 在没有输入参数--contig的情况下,dfast默认使用dfast/dfc/default_config.py
  • 简单运行dfast的命令
    • dfast -g genome.fna -o output
                 
  • 运行成功后的结果文件
    • 如果不是下面这样,而是很多文件夹的情况,说明注释环节中断了
      2020.12.02丨使用dfast工具进行细菌基因组注释

继续阅读