天天看點

使用PfamScan的API對蛋白結構域進行注釋0. PfamScan簡介:1. PfamScan的API下載下傳:2. 運作PfamScan:

0. PfamScan簡介:

PfamScan是根據Pfam HMM對蛋白質序列進行蛋白家族及結構域的注釋的一個工具。

網頁端:https://www.ebi.ac.uk/Tools/pfa/pfamscan/

本地版:ftp://ftp.ebi.ac.uk/pub/databases/Pfam/Tools/

注:因為我隻是臨時用一下,希望能較快地出結果,是以沒有去安裝本地版,而是調用了PfamScan提供的REST API,是以本文記錄的是調用API來運作PfamScan的過程。

1. PfamScan的API下載下傳:

URL: https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/PfamScan+Help+and+Documentation#PfamScanHelpandDocumentation-WebServices

使用PfamScan的API對蛋白結構域進行注釋0. PfamScan簡介:1. PfamScan的API下載下傳:2. 運作PfamScan:

下載下傳

pfamscan.py

即可,但是運作前要先安裝

xmltramp2

子產品(

pip install xmltramp2

)

2. 運作PfamScan:

運作指令:

python pfamscan.py --email "[email protected]" --database pfam-a --sequence targetSeqs.fasta --evalue 50 --format txt --outfile targetResult

參數含義可通過

python pfamscan.py --help

進行檢視。

此處的

--email --database --sequence

是必須的參數(

--email

可以用谷歌郵箱,其他郵箱沒嘗試過)。

需要注意的是:輸入檔案(targetSeq.fasta)中序列數目不能超過100條。

運作結果:

運作結束後會生成三個檔案:

targetResult.out.txt

targetResult.sequence.txt

targetResult.submission.params

其中

targetResult.out.txt

就是所需的輸出檔案(格式如下圖所示)

使用PfamScan的API對蛋白結構域進行注釋0. PfamScan簡介:1. PfamScan的API下載下傳:2. 運作PfamScan:

列名注釋:

Seq id

: 蛋白/基因的編号

Alignment start

: 基因/蛋白序列比對的結構域起始位置

Alignment end

: 基因/蛋白序列比對的結構域終止位置

Envelope start

: HMM 模型預測的基因/蛋白序列的結構域起始位置

Envelope end

: HMM 模型預測的基因/蛋白序列的結構域終止位置

Hmm acc

: 基因/蛋白序列對應結構的模型在Pfam中的編号

Hmm name

: 基因/蛋白序列對應結構的模型在Pfam中的名稱

Type

: 基因/蛋白序列比對到 Pfam 資料庫中對應結構的分類水準,蛋白家族或者結構域

Hmm start

: 比對上的部分在資料庫比對序列上的起始位置

Hmm end

: 比對上的部分在資料庫比對序列上的終止位置

Hmm length

:比對上的長度

Bit score

:根據比對和 HMM 模型得出的基因/蛋白序列結構的評分,打分越高,可信度越高

E-value

:比對的 E值(E值越小,可信度越高)

Significance

: 基因/蛋白序列在資料庫中比對結構的數目

Clan

: Pfam 資料庫中按照蛋白質序列,結構以及 HMM 檔案而分成的類群