天天看點

蛋白組學定量值得比較說明

原生態

蛋白組學定量值得比較說明

1. Maxquant的iBAQ和LFQ,該用哪個?

我們使用Maxquant做Label Free蛋白質組學定量分析的時候,在Maxquant的參數設定時,會遇到兩個參數,LFQ和iBAQ,那麼,選擇哪個好呢?

如果你都選上,在最終的proteingroups.txt中,會出現三列:Intensity、IBAQ、LFQ intensity,這三列中的數字,也就是蛋白的定量強度,并不一樣,那麼,到底那一列比較準呢?

首先,讓我們來看一下三者的計算原理是什麼?

> Intensity是将某Protein Groups裡面的所有Unique和Razor peptides的信号強度加起來,作為一個原始強度值。

> iBAQ是在上面的基礎上,将原始強度值除以本蛋白的理論肽段數目。

> LFQ則是将原始強度值在樣本之間進行校正,以消除處理、上樣、預分、儀器等造成的樣本間誤差。

假設有兩個蛋白,A和B,A和B在樣本中的量是相等的,也就是等量。 假設A的長度是10個肽段,B的是100個肽段,假設鑒定結果中,覆寫度都是30%,那麼蛋白A的強度是3,B的是30,。這時候我們對比一下,B是A的10倍,但是,A和B原本是相等,這樣就存在較為嚴重的誤差。

這時候,如果我們将其原始強度值除以理論肽段數目,A的強度變成了3/10, B的強度變成了3/10。 A = B,Perfect!

上面就是IBAQ的原理和用處。

但是在定量蛋白質組學中,我們并不做蛋白A和 B之間的定量,假如你有一個藥物處理前的細胞和藥物處理後的細胞的對照型樣本做的定量蛋白質組學實驗,我們關注的蛋白A在處理前和處理後的變化,至于A和B之間的比值,并不重要。

是以,如果是樣本内對比,當然用iBAQ,因為其表征的是蛋白的摩爾比值(copy number)。如果是樣本間對比,當然是LFQ(正式名稱為MaxLFQ,也就是搜庫結果中的txt檔案中的LFQ Intensity)[1]

當然,如果你執意要用iBAQ,你可以手工校準樣本件誤差,方法很簡單:蛋白IBAQ值除以此樣品所有蛋白的強度的和,計算比例(這也是組學中“等品質上樣”和“等體積上樣”的核心差別,等品質上樣來看的是比例,但是計算比例是有壓縮效應的)[2]。

最後,總結一下:

同一個(或者說同一針)樣品内部的蛋白互相比較,用IBAQ;

不同樣品間互相比較(不管是重複還是不同的處理組),用LFQ。

Reference:

[1]Cox J, Hein M Y,Luber C A, et al. Accurate Proteome-wide Label-free Quantification by DelayedNormalization and Maximal Peptide Ratio Extraction, Termed MaxLFQ[J]. Molecular& Cellular Proteomics Mcp, 2014, 13(9):2513.

[2]Shin J B, Krey JF, Hassan A, et al. Molecular architecture of the chick vestibular hairbundle[J]. Nature Neuroscience, 2013, 16(3):365-74.

2. 關于資料标準化方法的描述【thermo 配帶的PD2.2為例】

1). 從原始的abundance到abundance(normalize),是利用樣品總面積進行normalize的【total sum intensity normalization】。

ref1:Sialana F J, Wang A L, Fazari B, et al. Quantitative proteomics of synaptosomal fractions in a rat overexpressing human DISC1 gene indicates profound synaptic dysregulation in the dorsal striatum[J]. Frontiers in molecular neuroscience, 2018, 11: 26.

ref2:Dittenhafer-Reed K E, Richards A L, Fan J, et al. SIRT3 mediates multi-tissue coupling for metabolic fuel switching[J]. Cell metabolism, 2015, 21(4): 637-646.

>abundance到abundance(normalize),是利用樣品總面積進行normalize,計算如下:

a. 計算3個樣本Sample1,Sample2,Sample3中蛋白總量(sum行),

b. 選取其中一個樣本(這裡選取Sample3)的總量當作參考,進行其他兩個樣本系數(Sample1總量/Sample3總量,Sample2總量/Sample3總量)的計算;

c. 每個蛋白豐度值除以相應樣本的系數,獲得normalize數值;最終,達到個樣本的總量相一緻;

protein Sample1 Sample2 Sample3 Sample1.norm Sample2.norm Sample3.norm

P1 96263572.85 104019086.7 154492068.8 188852720.2 195452761.3 154492068.8

P2 49830964.66 46392160.22 67074679.03 97759858.15 87171269.3 67074679.03

P3 143632391.8 137680969.2 194423852.5 281782268.3 258703728.9 194423852.5

P4 46985091.01 50239488.8 28002701.31 92176739.18 94400432.89 28002701.31

P5 62493244.91 78469297.48 339179377.8 122601093.5 147444486.9 339179377.8

sum 399205265.2 416801002.4 783172679.3 783172679.3 783172679.3 783172679.3

系數 0.509728283 0.532195534 1 1 1 1

2).abundance(group)或scaled是在abundance(normalize)基礎上均一化之後的結果,主要是為了友善提取資料,把資料映射到一定範圍之内,使資料大小更直覺,計算如下:;

a.蛋白a在三個樣品中abundance(normalize)的結果為分别為Sample1.norm,Sample2.norm,Sample3.norm,平均值average=(Sample1.norm+Sample2.norm+Sample3.norm)/3;

b.是以蛋白a在三個樣品中abundance(group或scale)(即均一化)分别為:Sample1.norm/average,Sample2.norm/average,Sample3.norm/average;

c.為友善資料分析,将結果擴大100倍,蛋白a的三個樣品中abundance(group或scale)結果為100Sample1.norm/average,100Sample2.norm/average,100Sample3.norm/average;

3). 關于組内樣本蛋白總量的波動性評估,看了一篇文章,文章公布了 label-free quantification【LFQ】的資料。在一組重複資料中,有變化的倍數能達到2倍多。如附件1-s2.0-S2211124717311889-mmc3 - 副本.xlsx。

ref:Itzhak D N, Davies C, Tyanova S, et al. A mass spectrometry-based approach for mapping protein subcellular localization reveals the spatial proteome of mouse primary neurons[J]. Cell reports, 2017, 20(11): 2706-2718.【A Mass Spectrometry-Based Approach for Mapping.pdf】