1. 實驗設計與技術路線
(1) 常用流程
流程 | 說明 |
1.材料收集 | 細胞、細胞上清、組織、血漿、血清、腦脊液、外泌體、尿液...... |
2.定量技術 | 蛋白組:iTRAQ/TMT、LabelFree、SILAC、修飾;代謝組:靶向、非靶 |
3.資料驗證 | 蛋白組:PRM、WB、ELISA;代謝組:MRM |
4.深入研究 | 臨床标志物、生理病理機制、藥效機制、中醫理論、藥物靶點...... |
(2) 樣品 |
樣品類型 | Pool(混樣) | Individual(單樣) |
降低個體差異 | 不要求大樣本 | 要求大樣本 |
資料分析 | 低維,難以整合其他資訊 | 多元多角度 |
可追溯性 | 不能重新定義組别 | 可根據所需重新定義組别 |
樣本量 | 少 | 多 |
成本 | 低 | 高 |
(3) iTRAQ/TMT項目設計 | ||
體外等重同位素标記定量技術,可同時比較多個樣本之間的蛋白表達量差異(通常10個樣本以下)。 | ||
基本原則: |
- 适用較廣,但樣本間需要較好的平行性,不适合進行不同物種樣本間比較,如牛、羊、豬之間的比較;也不适合一些差異較大的IP樣品的比較。
- 一般差異比較樣本組用同一個試劑盒标記;
- 建議3個生物學重複;對于臨床樣本、小鼠等動物樣本、植物樣本等,每個生物學重複建議來自多個生物個體的重複;
- 多個試劑盒項目設計時,可加入内标(IS),内标通常是所有樣本等量混合的樣本。
(4) Labelfree項目設計
Labelfree是通過比較肽段母離子質譜峰強度,分析不同來源樣品蛋白的表達量差異。該技術無需昂貴的同位素标記做内标。
基本原則:
- 适用于各類型生物樣本;尤其是樣本量較少或差異非常大的樣品,如細胞上清、亞細胞成分、IP樣品等的分析;
- 對于組間差異大的樣品,可采用iBAQ算法(MaxQuant)來反映一個樣品内不同蛋白間的相對豐度,可進行不同物種樣品間的比較,如牛、羊、豬之間的比較;
- 适合多組分析、後期差異比較組可能會改變的實驗設計;
- 建議3個生物學重複;對于臨床樣本、小鼠等動物樣本、植物樣本等,每個生物學重複建議來自多個生物個體的重複。
(5)DIA項目設計
DIA是資料非依賴性采集定量技術,它将質譜整個全掃描範圍分為若幹個視窗,高速循環地對每個視窗中的所有離子進行選擇、碎裂及檢測,進而無遺漏、無差異地擷取樣本中所有離子的全部碎片資訊。DIA無需指定目标肽段,掃描點數均勻,利用譜圖庫即可實作定性确證和定量離子篩選,并可實作資料回溯。
基本原則:
- 适用于各類型生物樣本;
- 需要先進行library建構;
- 适合多組分析、後期差異比較組可能會改變的實驗設計;
- 建議獨立的大樣本分析。
(6)各定量技術比較
從資料采集模式來說,iTRAQ/TMT和Labelfree都是傳統的DDA掃描,即在每個掃描周期内,隻采集豐度最高的10-20個母離子信号的子離子碎片,其他信号的子離子資訊丢失,是以覆寫率低、随機性高、重複性相對低;DIA掃描則在每個掃描周期内,将品質區間設定為多個區段window,每次采集window内所有母離子資訊及其碎片(掃描速度足夠快),是以具有高覆寫度、高重複性的特點。
定量技術 | iTRAQ/TMT | Labelfree | Labelfree分級 | DIA |
樣本數 | 少 | 少/多 | 少 | 多 |
樣品 | 一般pool | pool/individual | 一般pool | 一般individual |
樣品平行性 | 平行 | 平行/不平行 | 平行/不平行 | 平行/不平行 |
資料量深度 | 高 | 低 | 高 | 高 |
PRM驗證對接性 | 低 | 低 | 低 | 高 |
建庫 | 否 | 否 | 否 | 是 |
成本 | 較高 | 低 | 較高 | 高 |
拓展性 | 否 | 否 | 否 | 是(可根據library重新分析) |
采集模式 | DDA | DDA | DDA | DIA |
(7)搜庫軟體 |
流程回顧:
蛋白質酶切為肽段,經過色譜分離進入質譜儀,得到質譜實際譜圖,利用搜庫軟體與理論譜圖進行比對打分,對肽段和蛋白進行鑒定、定量和下遊資料分析。
-
Mascot
特點:收費;基于随機比對打分算法;整合FDR門檻值和Percolator算法;質譜資料檢索的黃金标準。
-
MaxQuant
特點:免費不開源;優勢在labelfree,RT校正,Match between runs提高鑒定數;配套的後處理工具Perseus。
-
Spectronaut
特點:收費;相對其他DIA軟體,準确性高、靈敏度高、速度快;實作超過1000個DIA原始檔案同時分析,極高譜圖解析率,資料校正平均峰面積CV<10%;蛋白FDR、肽段FDR和CScore三重标準。
2. 品質控制
(1)色譜質控
-
色譜的峰形,決定定量準不準
對稱?拖尾?
-
色譜的資料點,決定定量準不準
峰曲線上點多?少?
-
色譜的穩定性,決定定量準不準
RT是否偏移?使用iRT同位素内參校正色譜偏移
-
色譜的分離度,決定質譜的采集效率
(2)品質控制
-
基礎狀态考察
牛血清白蛋白(BSA):考察品質偏移、洗脫時間、峰寬、信号響應等;
細胞樣品:考察組學能力,如負責樣品蛋白和肽段數目鑒定能力。
-
複雜樣本鑒定重制性
三次重複鑒定的肽段DDA在60%以上,DIA在90%以上;
三次重複鑒定的蛋白DDA在70%以上,DIA在90%以上;
-
QC樣本
一般是将所有樣本等量混合成QC樣本。前後QC,中間每10個樣加一個QC。
統計分析QC樣本的CV分布、聚類、相關性分析、PCA得分、質譜穩定性。
(3)質控目标
-
全
鑒定數目多,覆寫率高。
-
穩
鑒定重制性高,穩定性好,尤其是大樣本的檢測。
-
準
定量準确性高。
3. 下遊分析
進行蛋白質組學的研究,可從以下角度來分析:
- 哪些蛋白質?
- 豐度如何?
- 有何功能?
- 在哪裡作用?
- 是否或如何互作?
-
結構?
鑒定層面就不再贅述,隻補充下搜庫的資料庫選擇。一是綜合性蛋白資料庫,如NCBI、Uniprot、Ensembl等;二是特定物種的蛋白庫,如拟南芥(TAIR)、水稻(RAPDB)、家蠶(silkdb)等;三是針對非模式生物,由已測序結果翻譯而來的蛋白序列資料。
(1)定量層面
-
定量資料概括
a. 表達量層次聚類熱圖:
在相似性的基礎上對資料分組、歸類。一般組内的資料模式相似性較高,組間相似性較低。
b. 樣品組間表達譜相關性分析:
樣本相關性熱圖。
c. PCA 分析:
多個變量綜合定量比較考察。
對高維資料降維,減少複雜性,對樣本進行分類及預測,易于解釋,分離信号和噪音,資料可視化。
-
趨勢聚類分析
即将蛋白根據表達趨勢進行歸類。趨勢聚類後,可以結合層次聚類、共表達網絡分析、功能分類、信号通路分類或染色體分析等方法進行更深入的挖掘,适合最佳時間、最佳濃度、最佳溫度等的選擇。
-
統計學分析
差異蛋白篩選:
設計 | 實驗設計 | 重複設計 | 統計學方法 |
兩組間比較 | 實驗 vs 對照 | >=3 | T-test |
❤️ | Significance A/B | ||
多組比較 | 梯度1 vs 梯度2 vs 梯度3... | >=3 | One-way Anova |
case*2 vs control*2 | >=3 | Two-way Anova |
(2)功能層面
-
亞細胞定位預測
生物體内的蛋白質必須要運輸到細胞的特定位置才能發揮生物學功能。研究未知蛋白生物學功能的第一步通常是獲得蛋白亞細胞定位資訊。
傳統的電子顯微法、熒光顯微法等實驗驗證方法進行亞細胞定位,結果準确但費時費力,是以可通過機器學習算法實作大規模蛋白的亞細胞定位預測。
線上工具:
CELL:http://cello.life.nctu.edu.tw/
-
功能分析
根據相似性原理,具有相似序列的蛋白也可能具有相似的功能,是以将blast所得的相似蛋白的功能資訊轉嫁到目标蛋白上,可輔助對于目标蛋白尤其是研究程度不足的物種的目标蛋白的功能注釋。
GO(Gene Ontology)基因功能标準化詞彙術語,三大學體BP,CC,MF。
BlastGO大規模注釋GO。
注釋是一個評判打分的過程,這個打分系統會綜合考量目标序列和比對序列的相似性、GO條目來源的可靠度以及GO有向無環圖的結構,隻有滿足預設分數的GO term才會被注釋給目标蛋白序列。
保守motif預測:通過InterProscan搜尋EBI資料庫中與目标蛋白比對的保守基序(motif),并将motif相關的功能資訊注釋給目标蛋白序列。
線上工具:Motif-x:http://motif-x.med.harvard.edu/
-
通路分析
KEGG Pathway共7大類。介紹略
多通路整合——>發現分子調控機制。
-
蛋白互作網絡
在生物體中,蛋白質并非孤立存在的,其功能的行使必須借助于其他蛋白質的調節和介導。這種調節或介導作用的實作首先要求蛋白質之間有結合作用或互相作用。
蛋白質互作網絡對于揭示蛋白功能具有重要意義。例如,高度聚集的蛋白質可能具有相同或相似的功能;連接配接度高的蛋白質可能是影響整個系統代謝或信号轉導途徑的關鍵點。
分析工具:IntAct、MINT、String、Cytoscape......
術語:edge、node、cluster、degree、module.......