天天看點

許多表征的蛋白質含有金屬離子、有機小分子或修飾的殘基。相比之下,基因組計劃産生的大量資料完全由序列組成,幾乎沒有注釋。結

作者:小三科普官

許多表征的蛋白質含有金屬離子、有機小分子或修飾的殘基。相比之下,基因組計劃産生的大量資料完全由序列組成,幾乎沒有注釋。

結構基因組學計劃的目标之一是為盡可能多的蛋白質/結構域折疊提供具有代表性的三維(3-D)結構,以實作成功的同源性模組化。然而,重要的功能特征,如金屬配位或假體基團的類型,并不總是在同源蛋白中保守。

到目前為止,生物無機蛋白的正确注釋問題在很大程度上被生物資訊學界所忽視。蛋白質中唯一全面的金屬位點資料庫,金屬蛋白資料庫和浏覽器(MDB),是根據蛋白質資料庫(PDB)中可用的結構自動建構的。

盡管晶體學是研究蛋白質結構的單一資訊量最大的方法,但就生物無機化學家而言,它具有許多局限性。沉積在PDB上的許多結構含有天然蛋白質中不存在的金屬離子和分子。

另一方面,除了文獻資料庫外,科學界無法以任何形式獲得通過其他(主要是光譜)方法獲得的生物無機/小分子中心的資訊。

“本體論”是對給定知識領域的概念(如實體和關系)的正式定義,以标準化形式描述。它可以以有向無環圖或網絡的形式組織為結構化詞彙,其中每個術語可能是一個或多個“父母”的“孩子”。

COM e版本4.01 包含1280個“生物無機蛋白質”、470 個“生物無機基序”和 174 個“分子”的資料。資料以兩種格式存在:作為XML檔案的集合和關系資料庫。這種關系資料庫實作具有基于Web的界面,并提供了一種導航本體的簡單方法。

COM e中的資料是從文獻中收集的,手動編輯每個COM e條目,手動配置設定每個本體關系;是以,避免了自動生成資料集的陷阱(例如,不包括包含非天然金屬的中心)。

COM e的目的不是列出所有已知的生物無機蛋白質,而是提供受控的詞彙和分類,以便在綜合資料庫中更好地注釋它們。包括每個蛋白質家族的代表性示例。每個執行個體都有對文獻引用或公開可用資料庫的交叉引用。

COM e中有三種類型的條目:“生物無機蛋白質”(PRX),“生物無機基序”(BIM)和“分子”(MOL)。在這裡,“生物無機蛋白”是任何複雜的蛋白質,例如金屬結合蛋白,有機分子結合蛋白,含有翻譯後修飾的蛋白質,或任何這些類别的組合。

同樣,“生物無機基序”的原始定義擴充到包括有機假體基團和修飾氨基酸。生物無機基序現在被定義為功能相關但不一定同源蛋白質共享的共同結構特征,并且由(一)金屬原子和第一配位殼配體,通過共價鍵或離子鍵與多肽衍生基團相連;(二)有機分子,通過共價鍵與多肽衍生的基團相連;(三)共價修飾的氨基酸殘基;(四)以上任何一項的組合。

如前所述,COM e中的資料來自文獻,是以,BIM中配體和結合模式的識别是基于作者和管理者的評估,而不是像自動生成的集合那樣基于距離門檻值。

“分子”可以直接形成複雜蛋白質的永久部分,如果在氨基酸殘基和分子之間沒有定義共價或離子鍵;例如,非共價結合的FAD是黃素蛋白的永久部分或以其他方式作為BIM的一部分,例如共價結合的藻膽素是藻膽蛋白的永久部分。

COM e根據蛋白質的“生物無機”特征提供蛋白質的分類,是以與其他分類方案正交,例如基于序列相似性、3-D 折疊、酶活性或生物過程的分類方案。受控詞彙表的分層組織允許在不同粒度級别進行注釋和查詢。

參考文獻:

【1】MDB:金屬蛋白資料庫和浏覽器

【2】Holm RH,Kennepohl P,Solomon EI:生物學中金屬位點的結構和功能方面

【3】Carugo O,Pongor S:結構資料庫的演變

許多表征的蛋白質含有金屬離子、有機小分子或修飾的殘基。相比之下,基因組計劃産生的大量資料完全由序列組成,幾乎沒有注釋。結
許多表征的蛋白質含有金屬離子、有機小分子或修飾的殘基。相比之下,基因組計劃産生的大量資料完全由序列組成,幾乎沒有注釋。結
許多表征的蛋白質含有金屬離子、有機小分子或修飾的殘基。相比之下,基因組計劃産生的大量資料完全由序列組成,幾乎沒有注釋。結