天天看點

那些MECAT組裝基因組中遇到的坑

連結

Github位址和文章的連結:

https://github.com/xiaochuanle/MECAT https://www.biorxiv.org/node/26657

在MECAT的文章2017年正式發表沒過幾天的時候就試過安裝mecat,當時遇到了一些奇怪的問題,現在想來大概是因為對linux不夠熟悉隻會複制粘貼代碼造成的吧。昨天,2018.1.20,在阿裡雲伺服器和騰訊雲的伺服器上瘋狂嘗試了兩輪才發現問題所在。還是太年輕。複制粘貼确實能避免很多因為手殘導緻的問題,但還是要認真審視代碼的呢。一味無腦複制人家的代碼隻會鬧這樣的低級笑話。

安裝的坑

主要是給我這種初學者和粗心的小夥伴們提個醒:

那些MECAT組裝基因組中遇到的坑

install HDF5

這裡的這個位置跟自己電腦的位置大機率來說是不一樣的噢,是以别一股腦的就複制進去了,然後安裝在了一個奇怪的位置(别問我是怎麼知道的……說多了心累……)我直接就安裝在了

/home/hanschen/hdf5

這個位置。下面寫export的地方别忘了也改一下噢。

quick start的坑

MECAT官網是提供pacbio和nanopore兩種測序方式的組裝的,也提供了兩個示例檔案with代碼,可以用來測試MECAT軟體有木有安裝成功。初心是挺好的,但是這個文檔寫得太不走心了。。這代碼迷之錯誤讓我debug了很久。。雖然看懂了之後發現原來就這麼簡單。。

那些MECAT組裝基因組中遇到的坑

pacbio的示例代碼

可以看到第二步裡是生成了一個檔案叫

corrected_ecoli_filtered

,但是第三步裡卻需要一個叫

corrected_ecoli_filtered.fasta

的檔案,之前一度認為是第二步出了問題,少生成了一個

corrected_ecoli_filtered.fasta

檔案導緻第三步運作的時候失敗,報錯說找不到這個

.fasta

檔案,就一直在傳回去看第二步的結果,總覺得是第二步的問題……今天熬了個夜突然腦子就開竅了。。會不會™是文檔寫錯了?遂less了一下

corrected_ecoli_filtered

,發現這個檔案就是fasta格式……

我跟你講我就是這個表情! ↓↓↓

那些MECAT組裝基因組中遇到的坑

轉換思路開始懷疑文檔有誤之後,一切都順利了起來。。第四步的代碼也是有一個小錯誤的,糾正了前面錯誤的同學應該能很快發現的。。

于是就很順利的跑完了示例基因組……

C++ 缺少子產品的坑

我不知道是我伺服器的問題還是MECAT軟體的問題,在跑pacbio示例和nanopore的示例的時候都報了個缺少perl子產品。

這裡倒是順便學習到了如何安裝perl子產品之類的linux實用技巧(強行安慰自己)

pacbio缺少的子產品:Filesys::Df

第一種辦法:自動安裝。

自動安裝的代碼如下。

sudo  perl -MCPAN -e shell
         cpan>install Filesys::Df
           

第二種辦法:下載下傳源碼進行安裝。

http://search.cpan.org/~iguthrie/Filesys-Df-0.92/Df.pm

下載下傳好解壓後,cd進目錄

perl Makefile.PL
make
make test  #當出現“all test ok”時說明測試成功,此步非必須
make install
           

是以建議大家用第一種安裝方式,簡單省事兒。

nanopore缺少的子產品:ios::in

這個bug我至今沒修好……一方面是自動安裝找不到這個子產品,另一方面是找不到源碼……就很懵逼,我也不知道是軟體的問題還是我伺服器的問題……诶。需要去求個大神幫忙解決一下了……

這一篇大概之後還會繼續填坑的,畢竟這個軟體相對于falcon和canu的優勢還是很大的,畢竟省下了很多的計(nei)算(cun)資(tiao)源和時(qian)間呢。

2018年1月27日09點54分。

繼續閱讀