pfamscan
#安裝hmmer
conda install hmmer
#下載下傳pfam資料庫,這裡檔案下載下傳到哪裡都可,記住庫位址就行
wget ftp://ftp.ebi.ac.uk/pub/databases/Pfam/releases/Pfam33.1/Pfam-A.hmm.gz
gzip -d Pfam-A.hmm.gz
得到 PFAM 資料庫的 HMM 檔案。 HMM 檔案是文本檔案,需要将其變成二進制格式,以加快運算速度,同時進行壓縮,并建立成索引資料庫。
hmmpress Pfam-A.hmm
3.使用hmmscan 進行Pfam注釋
Pfam 資料庫中每個編号代表一個蛋白質家族。Pfam 分 A 和 B 兩個資料庫,其中 A 資料庫是經過手工校正的高品質資料庫, B 資料庫雖然品質低些,依然可以用來尋找蛋白質家族的保守位點。Pfam 30.0以後的版本,Pfam-B就去除掉了,是以我們隻關心PfamA就好了。
#因為我要檢視結構域的大小,友善我去人工删除不滿足大小的基因(如隻包含結構域片段的基因)
hmmscan -o out.txt --tblout out.tbl --domtblout out.dom --noali -E 1e-5 /pfam/Pfam-A.hmm multifile.fasta
附上參數解讀
$ hmmscan [-options]
-h
顯示幫助資訊
-o FILE
将結果輸出到指定的檔案中。預設是輸出到标準輸出。
–tblout FILE
将蛋白質家族的結果以表格形式輸出到指定的檔案中。預設不輸出該檔案。
–domtblout FILE
将蛋白結構域的比對結果以表格形式輸出到指定的檔案中。預設不輸出該檔案。該表格中包含query序列起始結束位點與目标序列起始結束位點的比對資訊。
–acc
在輸出結果中包含 PF 的編号,預設是蛋白質家族的名稱。
–noali
在輸出結果中不包含比對資訊。輸出檔案的大小則會更小。
-E FLOAT default:10.0
設定 E_value 門檻值,推薦設定為 1e-5 。
-T FLOAT
設定 Score 門檻值。
–domE FLOAT default:10.0
設定 E_value 門檻值。該參數和 -E 參數類似,不過是 domain 比對設定的值。
–cpu
多線程運作的CPU。預設應該是大于1的,表示支援多線程運作。但其實估計一般一個hmmscan程式利用150%個CPU。并且若進行并行化調用hmmscan,當并行數高于4的時候,會報錯:Fatal exception (source file esl_threads.c, line 129)。這時,設定–cpu的值為1即可。
pfamscan 的使用_【HMMSCAN】使用pfam資料庫對多序列檔案進行結構域注釋
Interproscan
安裝要求
64-bit Linux
Perl 5 (default on most Linux distributions)
Python 3 (InterProScan 5.30-69.0 onwards)
Java JDK/JRE version 11 (InterProScan 5.37-76.0 onwards)
具體如何配置安裝環境檢視官方文檔。
conda install interproscan
測試安裝是否成功,interproscan.sh在interproscan安裝的檔案夾下,如需在其他的檔案夾下操作,可以使用檔案夾的絕對路徑
./interproscan.sh -i test_proteins.fasta -f tsv
fasta 格式的蛋白或核酸序列,序列中不能含有 · - 或 * 等非法字元。
一般常用的參數有這些:
-appl,–applications 用于指定使用Interpro中哪些資料庫,預設全部資料庫
-b,–output-file-base 用于指定輸出檔案的路徑or檔案夾,預設是輸入檔案的路徑
-f,–formats 用于指定輸出檔案的字尾,蛋白序列預設輸出TSV, XML and GFF3
-i,–input 輸入檔案,一般要為fasta格式,不要帶有其他特殊符号
eggNog
COG
下載下傳COG資料庫的whog和fun.txt 檔案。whog檔案包含COG編号和COG資料庫中序列名的對應關系,也包含COG編号和25個大類的對應關系;fun.txt是25個大類的描述性資訊。我們根據這2個檔案的資訊來編寫程式對Blast的結果進行處理,得到COG注釋。
$wget ftp://ftp.ncbi.nih.gov/pub/COG/COG/whog
$wget ftp://ftp.ncbi.nih.gov/pub/COG/COG/fun.txt
COG注釋–轉載