0. PfamScan簡介:
PfamScan是根據Pfam HMM對蛋白質序列進行蛋白家族及結構域的注釋的一個工具。
網頁端:https://www.ebi.ac.uk/Tools/pfa/pfamscan/
本地版:ftp://ftp.ebi.ac.uk/pub/databases/Pfam/Tools/
注:因為我隻是臨時用一下,希望能較快地出結果,是以沒有去安裝本地版,而是調用了PfamScan提供的REST API,是以本文記錄的是調用API來運作PfamScan的過程。
1. PfamScan的API下載下傳:
URL: https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/PfamScan+Help+and+Documentation#PfamScanHelpandDocumentation-WebServices

下載下傳
pfamscan.py
即可,但是運作前要先安裝
xmltramp2
子產品(
pip install xmltramp2
)
2. 運作PfamScan:
運作指令:
python pfamscan.py --email "[email protected]" --database pfam-a --sequence targetSeqs.fasta --evalue 50 --format txt --outfile targetResult
參數含義可通過
python pfamscan.py --help
進行檢視。
此處的
--email --database --sequence
是必須的參數(
--email
可以用谷歌郵箱,其他郵箱沒嘗試過)。
需要注意的是:輸入檔案(targetSeq.fasta)中序列數目不能超過100條。
運作結果:
運作結束後會生成三個檔案:
targetResult.out.txt
targetResult.sequence.txt
targetResult.submission.params
其中
targetResult.out.txt
就是所需的輸出檔案(格式如下圖所示)
列名注釋:
Seq id
: 蛋白/基因的編号
Alignment start
: 基因/蛋白序列比對的結構域起始位置
Alignment end
: 基因/蛋白序列比對的結構域終止位置
Envelope start
: HMM 模型預測的基因/蛋白序列的結構域起始位置
Envelope end
: HMM 模型預測的基因/蛋白序列的結構域終止位置
Hmm acc
: 基因/蛋白序列對應結構的模型在Pfam中的編号
Hmm name
: 基因/蛋白序列對應結構的模型在Pfam中的名稱
Type
: 基因/蛋白序列比對到 Pfam 資料庫中對應結構的分類水準,蛋白家族或者結構域
Hmm start
: 比對上的部分在資料庫比對序列上的起始位置
Hmm end
: 比對上的部分在資料庫比對序列上的終止位置
Hmm length
:比對上的長度
Bit score
:根據比對和 HMM 模型得出的基因/蛋白序列結構的評分,打分越高,可信度越高
E-value
:比對的 E值(E值越小,可信度越高)
Significance
: 基因/蛋白序列在資料庫中比對結構的數目
Clan
: Pfam 資料庫中按照蛋白質序列,結構以及 HMM 檔案而分成的類群