天天看點

同源基因功能注釋:pfam-COG-eggng-COG

pfamscan

#安裝hmmer

conda install hmmer
           

#下載下傳pfam資料庫,這裡檔案下載下傳到哪裡都可,記住庫位址就行

wget ftp://ftp.ebi.ac.uk/pub/databases/Pfam/releases/Pfam33.1/Pfam-A.hmm.gz

gzip -d Pfam-A.hmm.gz
           

得到 PFAM 資料庫的 HMM 檔案。 HMM 檔案是文本檔案,需要将其變成二進制格式,以加快運算速度,同時進行壓縮,并建立成索引資料庫。

hmmpress Pfam-A.hmm
           

3.使用hmmscan 進行Pfam注釋

Pfam 資料庫中每個編号代表一個蛋白質家族。Pfam 分 A 和 B 兩個資料庫,其中 A 資料庫是經過手工校正的高品質資料庫, B 資料庫雖然品質低些,依然可以用來尋找蛋白質家族的保守位點。Pfam 30.0以後的版本,Pfam-B就去除掉了,是以我們隻關心PfamA就好了。

#因為我要檢視結構域的大小,友善我去人工删除不滿足大小的基因(如隻包含結構域片段的基因)

hmmscan -o out.txt --tblout out.tbl --domtblout out.dom --noali -E 1e-5 /pfam/Pfam-A.hmm multifile.fasta
           

附上參數解讀

$ hmmscan [-options]

-h

顯示幫助資訊

-o FILE

将結果輸出到指定的檔案中。預設是輸出到标準輸出。

–tblout FILE

将蛋白質家族的結果以表格形式輸出到指定的檔案中。預設不輸出該檔案。

–domtblout FILE

将蛋白結構域的比對結果以表格形式輸出到指定的檔案中。預設不輸出該檔案。該表格中包含query序列起始結束位點與目标序列起始結束位點的比對資訊。

–acc

在輸出結果中包含 PF 的編号,預設是蛋白質家族的名稱。

–noali

在輸出結果中不包含比對資訊。輸出檔案的大小則會更小。

-E FLOAT default:10.0

設定 E_value 門檻值,推薦設定為 1e-5 。

-T FLOAT

設定 Score 門檻值。

–domE FLOAT default:10.0

設定 E_value 門檻值。該參數和 -E 參數類似,不過是 domain 比對設定的值。

–cpu

多線程運作的CPU。預設應該是大于1的,表示支援多線程運作。但其實估計一般一個hmmscan程式利用150%個CPU。并且若進行并行化調用hmmscan,當并行數高于4的時候,會報錯:Fatal exception (source file esl_threads.c, line 129)。這時,設定–cpu的值為1即可。

pfamscan 的使用_【HMMSCAN】使用pfam資料庫對多序列檔案進行結構域注釋

Interproscan

安裝要求

64-bit Linux

Perl 5 (default on most Linux distributions)

Python 3 (InterProScan 5.30-69.0 onwards)

Java JDK/JRE version 11 (InterProScan 5.37-76.0 onwards)

具體如何配置安裝環境檢視官方文檔。

conda install interproscan
           

測試安裝是否成功,interproscan.sh在interproscan安裝的檔案夾下,如需在其他的檔案夾下操作,可以使用檔案夾的絕對路徑

./interproscan.sh -i test_proteins.fasta -f tsv
           

fasta 格式的蛋白或核酸序列,序列中不能含有 · - 或 * 等非法字元。

一般常用的參數有這些:

-appl,–applications 用于指定使用Interpro中哪些資料庫,預設全部資料庫

-b,–output-file-base 用于指定輸出檔案的路徑or檔案夾,預設是輸入檔案的路徑

-f,–formats 用于指定輸出檔案的字尾,蛋白序列預設輸出TSV, XML and GFF3

-i,–input 輸入檔案,一般要為fasta格式,不要帶有其他特殊符号

eggNog

COG

下載下傳COG資料庫的whog和fun.txt 檔案。whog檔案包含COG編号和COG資料庫中序列名的對應關系,也包含COG編号和25個大類的對應關系;fun.txt是25個大類的描述性資訊。我們根據這2個檔案的資訊來編寫程式對Blast的結果進行處理,得到COG注釋。

$wget ftp://ftp.ncbi.nih.gov/pub/COG/COG/whog

$wget ftp://ftp.ncbi.nih.gov/pub/COG/COG/fun.txt

COG注釋–轉載