同源基因功能注釋：pfam-COG-eggng-COG

pfamscan

#安裝hmmer

conda install hmmer

#下載下傳pfam資料庫，這裡檔案下載下傳到哪裡都可，記住庫位址就行

wget ftp://ftp.ebi.ac.uk/pub/databases/Pfam/releases/Pfam33.1/Pfam-A.hmm.gz

gzip -d Pfam-A.hmm.gz

得到 PFAM 資料庫的 HMM 檔案。 HMM 檔案是文本檔案，需要将其變成二進制格式，以加快運算速度，同時進行壓縮，并建立成索引資料庫。

hmmpress Pfam-A.hmm

3.使用hmmscan 進行Pfam注釋

Pfam 資料庫中每個編号代表一個蛋白質家族。Pfam 分 A 和 B 兩個資料庫，其中 A 資料庫是經過手工校正的高品質資料庫， B 資料庫雖然品質低些，依然可以用來尋找蛋白質家族的保守位點。Pfam 30.0以後的版本，Pfam-B就去除掉了，是以我們隻關心PfamA就好了。

#因為我要檢視結構域的大小，友善我去人工删除不滿足大小的基因(如隻包含結構域片段的基因)

hmmscan -o out.txt --tblout out.tbl --domtblout out.dom --noali -E 1e-5 /pfam/Pfam-A.hmm multifile.fasta

附上參數解讀

$ hmmscan [-options]

-h

顯示幫助資訊

-o FILE

将結果輸出到指定的檔案中。預設是輸出到标準輸出。

–tblout FILE

将蛋白質家族的結果以表格形式輸出到指定的檔案中。預設不輸出該檔案。

–domtblout FILE

将蛋白結構域的比對結果以表格形式輸出到指定的檔案中。預設不輸出該檔案。該表格中包含query序列起始結束位點與目标序列起始結束位點的比對資訊。

–acc

在輸出結果中包含 PF 的編号，預設是蛋白質家族的名稱。

–noali

在輸出結果中不包含比對資訊。輸出檔案的大小則會更小。

-E FLOAT default:10.0

設定 E_value 門檻值，推薦設定為 1e-5 。

-T FLOAT

設定 Score 門檻值。

–domE FLOAT default:10.0

設定 E_value 門檻值。該參數和 -E 參數類似，不過是 domain 比對設定的值。

–cpu

多線程運作的CPU。預設應該是大于1的，表示支援多線程運作。但其實估計一般一個hmmscan程式利用150%個CPU。并且若進行并行化調用hmmscan，當并行數高于4的時候，會報錯：Fatal exception (source file esl_threads.c, line 129)。這時，設定–cpu的值為1即可。

pfamscan 的使用_【HMMSCAN】使用pfam資料庫對多序列檔案進行結構域注釋

Interproscan

安裝要求

64-bit Linux

Perl 5 (default on most Linux distributions)

Python 3 (InterProScan 5.30-69.0 onwards)

Java JDK/JRE version 11 (InterProScan 5.37-76.0 onwards)

具體如何配置安裝環境檢視官方文檔。

conda install interproscan

測試安裝是否成功，interproscan.sh在interproscan安裝的檔案夾下，如需在其他的檔案夾下操作，可以使用檔案夾的絕對路徑

./interproscan.sh -i test_proteins.fasta -f tsv

fasta 格式的蛋白或核酸序列，序列中不能含有 · - 或 * 等非法字元。

一般常用的參數有這些：

-appl,–applications 用于指定使用Interpro中哪些資料庫，預設全部資料庫

-b,–output-file-base 用于指定輸出檔案的路徑or檔案夾，預設是輸入檔案的路徑

-f,–formats 用于指定輸出檔案的字尾，蛋白序列預設輸出TSV, XML and GFF3

-i,–input 輸入檔案，一般要為fasta格式，不要帶有其他特殊符号

eggNog

COG

下載下傳COG資料庫的whog和fun.txt 檔案。whog檔案包含COG編号和COG資料庫中序列名的對應關系，也包含COG編号和25個大類的對應關系；fun.txt是25個大類的描述性資訊。我們根據這2個檔案的資訊來編寫程式對Blast的結果進行處理，得到COG注釋。

$wget ftp://ftp.ncbi.nih.gov/pub/COG/COG/whog

$wget ftp://ftp.ncbi.nih.gov/pub/COG/COG/fun.txt

COG注釋–轉載

同源基因功能注釋：pfam-COG-eggng-COG

pfamscan

Interproscan

eggNog

COG

繼續閱讀

吳恩達deeplearning

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

Testlink的安裝及使用

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普

JBoss,Geronimo和Glassfish初窺