天天看點

Nat. Commun | 用于全基因組藥物重定位的系統網絡算法

Nat. Commun | 用于全基因組藥物重定位的系統網絡算法

1. 背景

DNA/RNA測序的最新進展實作了通過“精确”定位個性化疾病子產品來快速識别新靶标并重新利用已準許的藥物治療異質性疾病。基因組學時代,藥物開發已成為高度內建的系統性問題,互補多組學與計算方法成為新的研究範式,由于基因組學和系統生物學最新技術和計算方式的進步,使得利用導緻人類疾病的癌症類型特異性機制來識别新靶向藥物與治療藥物成為可能。基于網絡的方法通過度量藥物靶标與人類蛋白互相作用組中疾病蛋白的接近度,為藥物重新定位靶标和聯合療法提供了可能性。

為了利用基因組資訊實作個性化藥物重定位,凱斯西儲大學Cheng課題組開發了一種全基因組定位系統網絡(GPSnet)算法,通過針對特定患者的DNA和RNA測序圖譜的特異性靶标,擷取疾病子產品來重新利用藥物。Cheng課題組研究了來自癌症基因組圖譜的15種癌症類型,約5000名患者的全外顯子組測序和轉錄組譜。研究表明,GPSnet預測出疾病子產品可以預測藥物反應,并對140種已準許藥物的新适應症進行優先排序。Cheng課題組通過實驗驗證了已準許的心律不齊和心力衰竭藥物ouabain特異性靶向HIF1α/LEO1-mediated細胞代謝途徑,在肺腺癌中顯示出潛在的抗惡性良性腫瘤活性。

2. 方法

2.1全外顯子組測序資料

Cheng課題組從三個來源下載下傳了患者的正常惡性良性腫瘤成對體細胞突變資料(1).Elledge Lab website at Harvard University  (2).Sanger website  (3).COSMIC: Catalog of Somatic Mutations in Cancer .為了減少備援并確定本研究中體細胞突變資料的品質,本研究僅關注上述三個資料集中TCGA惡性良性腫瘤正常比對樣本體細胞突變,并且從GDC網站下載下傳了15種癌症類型的RNA-seq資料。

2.2建構藥物-目标網絡

Cheng課題組從六個常用資料源中為FDA準許的藥物內建了高品質的藥物靶标互相作用,并使用報告的親和力資料定義了藥物靶标互相作用,抑制常數/效價、解離常數、中值有效濃度、中值抑制濃度。從DrugBank資料庫,治療目标資料庫和PharmGKB資料庫獲得了藥物-靶标互相作用。

2.3建立人類蛋白質互相作用組

為了建構目前可用的全面的人類蛋白質互相作用組,Cheng課題組建立了15個常用資料庫,其中包含多個實驗證據與内部系統的人類蛋白質互相作用組。

2.4GPSnet模型簡介

GPSnet算法包含兩個主要部分,癌症類型特異性疾病子產品識别與計算藥物再利用。疾病子產品應該與從RNA-seq序列中衍生出的共表達癌症類型蛋白質互相作用網絡高度相關,其中疾病子產品中的基因應傾向為高度突變的基因,通過随機搜尋方法來識别GPSnet中的疾病子產品。

首先對每一種癌症類型中的每一個基因i初始化一個分數,其中,是在相應的癌症類型中基因的突變頻率,是基因中cDNA的長度,為了消除稀疏的體細胞突變資料的影響,使用網絡平滑方法在整個網絡上傳輸分數。其次,重新啟動随機行走過程(RWR)用于計算平滑基因得分,随機遊走開始于基因i,随機遊走将有的機率随機移動到基因i的鄰居基因,或者在每個疊代時間步中有機率回到原來的出發的基因i,其中是随機遊走過程中的驅動重新開機機率。研究中使用來平衡度偏差,t時間步的向量分數與傳播過程定義如下:

Nat. Commun | 用于全基因組藥物重定位的系統網絡算法

(1)

其中是每個基因初始化分數向量,是轉移矩陣,如果基因i與基因j有互相作用則,如果沒有則,其中是網絡中基因j的鄰居節點數,傳播過程的理論解是:

Nat. Commun | 用于全基因組藥物重定位的系統網絡算法

(2)

其中向量中第i個元素是基因i中的平滑分數。

識别出的疾病子產品定義為特定癌症類型共表達PPI網絡中的一個子圖,子產品M的分數根據式(2)計算,其中m代表子產品M中基因的資料量,是對應癌症類型的整個基因集的平均得分。以下步驟用于執行随機搜尋過程以生成原始子產品。最初,随機選擇一個基因作為“種子”基因。

在人類蛋白質互相組中,使用表示子產品M中互相作用的基因集。對于每一個屬于集合中的基因i,使用式(4)計算其在特定癌症類型PPI網絡中的連接配接度

Nat. Commun | 用于全基因組藥物重定位的系統網絡算法

(3)

Nat. Commun | 用于全基因組藥物重定位的系統網絡算法

(4)

對于每一屬于集合的基因i,如果其基因i被添加到子產品中,通過式(5)電腦擴充子產品分數,重複搜尋步驟,直到沒有更多的基因可以添加到相應的子產品中,進而獲得一個原始子產品。這項研究中,Cheng課題組為每種癌症類型建構了大約60000個原始子產品,使用這樣的方式,人類蛋白質互動作用網絡的每一個基因被随機選擇了五次。删除了少于10個基因的原始子產品,并收集了得分最高的前1%的子產品(約300個)。通過計算每個基因出現在這些子產品中的次數來表明基因的可信度。最後,選擇了基因置信度值大于0.5%的基因,在特定癌症類型特異性共表達PPI網絡中,将這些基因中最大的連接配接元件組裝起來,作為每種癌症類型的最終疾病子產品。

Nat. Commun | 用于全基因組藥物重定位的系統網絡算法

(5)

2.5藥物基因組學模型

Cheng課題組從GDSC資料庫下載下傳了癌細胞株中基因批量表達譜和藥物反應資料.使用預設參數與線性核的LIBSVM R軟體包建構回歸模型,預測藥物的IC 50值。

2.6基因集富集分析(GSEA)

Cheng課題組從Connectivity Map中收集藥物基因标簽。CMap包含來自于培養的人類細胞株的7000多種基因表達譜,在不同濃度下,這些人類細胞株用不同的生物活性小分子進行了處理,總共涵蓋6100個個體。是以,CMap提供了針對給定探測集差異表達程度的度量。幅度(a)定義公式(6)所示,其中t是藥物治療組的标度和門檻值平均內插補點,c是對照組的門檻值平均內插補點,是以,a = 0表示無差異表達,a> 0表示治療後表達增加,而a <0表示治療後表達減少。

Nat. Commun | 用于全基因組藥物重定位的系統網絡算法

(6)

2.7網絡鄰近度

給定疾病蛋白集S與藥物靶标集T,,在人類蛋白質互相組中,結點s與最接近疾病蛋白t之間的平均最短路徑長度定義為最近的距離 測得的最接近距離d(s,t),表達式(7)式:

Nat. Commun | 用于全基因組藥物重定位的系統網絡算法

(7)

為了評估藥物與特定疾病之間網絡距離的重要性,研究人員建構了一個參考距離分布,在網絡中,該距離分布與原始疾病蛋白和藥物靶标大小和程度分布相同的兩組随機選擇的蛋白之間的預期距離相對應。

2.8途徑富集分析

Cheng課題組使用ClueGO對經典KEGG途徑中基因進行了富集分析。

2.9.細胞培養

所有細胞均在37°C熱氧化碳濃度在5%的潮濕培養箱中培養。NSCLC細胞株A549,H522,H596,H1975,HCC827和PC9從American Type Culture Collection 獲得,并在Roswell Park Memorial Institute (RPMI) 1640 Medium培養基中培養,培養基中添加了10%胎牛血清(FBS, Gibco)和青黴素鍊黴素。肺正常細胞株MRC5和WI38獲自the Shanghai Cell Bank of the Chinese  Academy of Sciences ,并維持在Eagle最低基本培養基中,該培養基補充了10%胎牛血清(FBS,Gibco)和青黴素- 鍊黴素。對細胞系株進行支原體檢測測試,并通過短串聯重複序列(STR)進行鑒定。

2.10細胞活力測定

以3000–5000個細胞每孔的接種方式,将細胞接種到96孔闆中12 小時,然後與所示化合物培育48 小時。根據相關協定,使用Promega的CellTiter 96 AQueous One Solution檢測細胞活力。使用Graphpad Prism 7從劑量反應曲線計算的值。

2.11菌落形成

将A549或H522細胞以每孔1500個細胞的密度接種到6孔闆中,加入2 ml的1640培養基中,其中添加了10%FBS和青黴素鍊黴素。細胞粘附後,将不同濃度的ouabain與細胞結合。每2天更換一次培養基,7天後,将菌落固定在4%多聚甲醛中,并用0.2%結晶紫染色。

2.12免疫印迹和抗體

用含有100 mM Tris-HCl、150 mM NaCl、1 mM EDTA、0.1%SDS、1%脫氧膽酸鈉、1%Triton X-100蛋白酶抑制劑與磷酸酶抑制劑的混合溶液溶解細胞。使用BCA測定蛋白質濃度。将等量的蛋白質樣品在SDS聚丙烯酰胺凝膠電泳上電泳,并轉移到硝酸纖維素膜上。将膜在含5%BSA的TBST中密封,并用一抗和相應的熒光偶聯二抗探測。

2.13實時定量PCR(RT-qPCR)

根據相關協定,使用Trizol試劑分離總RNA。cDNA的合成使用ReverTra Ace qPCR RT Master Mix進行。使用SYBR Green Real-Time PCR Master Mixs在CFX-96TM上進行qPCR反應。檢測每個基因的量并通過GAPDH量進行歸一化。

2.14轉錄因子網絡分析

Cheng課題組從之前的兩項研究中收集719個據報道的HIF1A轉錄因子靶标。為檢查HIF1A轉錄因子在LUAD中的潛在功能,研究人員利用LUAD患者惡性良性腫瘤樣品中RNA-seq讀數計數資料與DESeq2資料中TCGA比對正常樣品進行比較,計算719個基因的差異表達。研究人員使用調整後的P-value<0.05來定義差異表達基因。

2.15代謝物豐度與基因表達的相關性

Cheng課題組從先前的研究中收集了在約70個NSCLC細胞株中測試的絲氨酸或甘氨酸的豐度。接下來,研究人員從CCLE資料庫中收集了NSCLC細胞株的全基因組基因表達譜。代謝物豐度與基因表達水準之間相關性通過Pearson相關系數計算,P-value用R平台F-statistics計算(v3.01,

http://www.r-project.org/)

2.16組織特定子網分析

Cheng課題組從GTEx V6(

https://gtexportal.org/home/

)下載下傳了32個組織的RNA-seq資料(RPKM值)。對于每個組織(例如,肺),研究人員将超過80%樣本中RPKM≥1的基因視為組織表達基因,其餘基因視為組織未表達的基因。為了量化組織表達基因i在組織t中的表達意義,研究人員計算了在所有考慮的組織中,該基因的平均表達和标準差,基因表達在組織t中的重要性定義為。對于LUAD,研究人員通過将肺與GTEx中其他31種不同組織全基因組表達譜進行比較,建立了肺特異性蛋白質互相作用網絡。

2.17生存分析

Cheng課題組下載下傳了226種人類原發性I–II期肺腺癌的微陣列資料和生存概況。根據歸一化表達水準,将患者分為前50%低表達(藍色)組和前50%高表達(紅色)組。使用GraphPad Prism 7軟體中log-rank test确定Kaplan–Meier生存分析的P-value。

2.18統計分析

研究中的資料是從至少三個獨立的實驗中獲得,不同實驗組中所有資料均表示平均值±平均值的标準誤差。使用Student’s t-test和P-values分析了兩組之間的差異。當P<0.05時,認為具有統計學意義,本研究使用GraphPad Prism 7軟體進行統計分析。

3. 結果

3.1  基于GPSnet識别癌症類型特異性疾病子產品

Cheng課題組通過将患者全外顯子組測序和RNA-seq資料反複整合到人類蛋白互相作用組中,計算确定所有15種癌症類型的最終癌症類型特異性疾病子產品,如圖1所示。

Nat. Commun | 用于全基因組藥物重定位的系統網絡算法

圖1.基于GPSnet網絡發現矽基藥物再利用流程

3.2  基于GPSet識别新藥物基因組學生物标志

為了研究GPSnet網絡潛在藥物基因組學應用,Cheng課題組從癌症藥物敏感性基因組學(GDSC)資料庫17下載下傳了1065個細胞株的健壯多陣列(RMA)基因表達譜和藥物反應資料。Cheng課題組根據GPSnet網絡識别的疾病子產品的RMA基因表達譜為特征,建構回歸模型,對三種特定的癌症(BRCA, LUAD,SKCM),進行藥物反應預測。基于多種因素的專業知識,集中研究了這三種癌症類型的7種藥物,其AUC性能名額如圖2所示。

Nat. Commun | 用于全基因組藥物重定位的系統網絡算法

圖2.基于gpsnet網絡預測的疾病子產品藥物基因組學驗

3.3  基于GPSnet疾病子產品的藥物高可吸收性

相較于傳統的統計學方法SMG,基于GPSnet網絡預測模基因産物更有可能被準許的藥物或臨床試驗藥物的靶向目标,圖3.在兩種特殊的癌症中基GPSnet識别的疾病子產品藥物目标富集分析。

Nat. Commun | 用于全基因組藥物重定位的系統網絡算法

圖3.在兩種特殊的癌症中基于GPSnet識别的疾病子產品藥物目标富集分

3.4  基于GPSnet發現已準許藥物的新适應症狀

研究使用了網絡距離法與基因集合富集分析法驗證在已準許藥物中識别的新的适應症,結果如4所示

Nat. Commun | 用于全基因組藥物重定位的系統網絡算法

圖4.基于網絡的有機矽藥物再利用與實驗驗

3.5  Ouabain在NSCLC細胞中抑制HIF1α/LEO1路徑

Cheng課題組通過在肺特異性人類蛋白質互相作用組的網絡分析,研究了藥物ouabain在NSCLC中的作用機制。結果如圖5所示

Nat. Commun | 用于全基因組藥物重定位的系統網絡算法

圖5.網絡的實驗驗證藥物ouabain在NSCLC的作用機制

4. 結論

本研究提供了一種基于網絡的藥物再使用方法,并通過實驗驗證了ouabain與 niclosamide作為治療NSCLC的潛在藥物是有效的,并且Cheng課題組通過實驗發現藥物ouabain的作用目标是NSCLC細胞中蛋白質HIF1α/LEO1-mediated 細胞代謝路徑,GPSnet是一種基于網絡的方法,內建了大規模患者DNA/RNA-seq資料與人類蛋白質互相組資料,在癌症和其他疾病領域有望能夠加速藥物靶向識别與藥物開發的過程。

Data availability

http://ccsb.dana-farber.org/interactome-data.html.

Code availability

thttps://github.com/ChengF-Lab/GPSnet.