天天看點

港大張清鵬團隊提出個性化癌症治療新思路:用 AI 控制癌細胞進化過程

作者:第一賽馬網
港大張清鵬團隊提出個性化癌症治療新思路:用 AI 控制癌細胞進化過程

現代癌症治療裡耐藥性的發展常常是導緻治療失敗和惡性良性腫瘤進展的原因,每個患者的耐藥情況與惡性良性腫瘤特征更是具有高度個體化的特征。

為了解決傳統間歇性雄激素剝奪療法(IADT)在前列腺癌治療裡的缺乏個體化處理能力的局限性,香港大學的張清鵬團隊聯合華中科技大學,美國Moffitt癌症中心以及普林斯頓的研究團隊建立了一個基于資料驅動的強化學習方案。

首先,他們基于進化機制的異質性和藥物對個體患者的藥代動力學開發了一個時變的混合效應GLV(tM-GLV)模型。然後,他們提出了一種強化學習支援的個體化IADT架構,即(Individualized IADT),來學習個體患者的前列腺惡性良性腫瘤動态并推導出最佳給藥政策。使用臨床試驗資料的仿真實驗表明,在減少藥物劑量的情況下顯著延長了前列腺癌患者的病情進展時間。此外,的方法同樣适用于其他癌症,因為它可以根據臨床資料進行适應性調整。

綜上所述,是一種可用于個性化治療不同類型惡性良性腫瘤的,有前景的個性化治療工具。

1

正文

前列腺惡性良性腫瘤是全球發病率第二高的癌症,治療方法通常包括放射治療和激素治療。激素療法如ADT可以有效治療晚期前列腺癌,但也會産生副作用。耐藥性是治療前列腺癌的難點,傳統的給藥政策可能會導緻耐藥細胞的迅速擴散。是以,人們提出了間歇性雄激素剝奪療法(IADT),并且在大量的臨床試驗中得到了驗證。

傳統的IADT存在兩個設計上的問題,即誘導治療和嚴格的治療時間表。最近的研究表明,不進行誘導治療,根據預先确定的PSA門檻值來停止和恢複ADT給藥的方法可能更成功。然而,這樣設計的IADT療法還沒有充分利用患者的個性特征和其他大量的臨床資訊,例如多組學資料。

港大張清鵬團隊提出個性化癌症治療新思路:用 AI 控制癌細胞進化過程

是以,張清鵬團隊提出了強化學習支援的個性化數學惡性良性腫瘤學模型架構(),該架構從實際患者資料中學習患者的特異性的惡性良性腫瘤進化動态,并提出了一種基于進化與競争的最佳療法,該方法将患者特異性、治療特異性和惡性良性腫瘤特異性整合到進化模型(tM-GLV)中,來模拟反應性惡性良性腫瘤和耐藥性惡性良性腫瘤之間的競争與共存機制。并利用強化學習來進一步考慮患者異質性和惡性良性腫瘤競争進化機制,并為個體患者推導出最佳給藥政策。

港大張清鵬團隊提出個性化癌症治療新思路:用 AI 控制癌細胞進化過程

論文位址:https://academic.oup.com/bib/article/25/2/bbae071/7630480?login=false#deqn01

由于存在複雜的互相作用的因素,前列腺癌的進化動态無法全面地描述。但是根據系統控制論的方法,我們可以将癌生态系統建構成一個數學模型,捕捉癌水準的關鍵過程,包括有選擇、競争、突變、适應等。

研究團隊建立了一個具有上述過程的時變混合效應廣義洛特卡-伏特拉(tM-GLV)模型(1)。惡性良性腫瘤本身具有異質性,研究團隊根據實驗假設前列腺癌細胞在治療前存在兩種表型,即反應型(依賴激素)和抗藥型(不依賴激素)細胞。抗藥型癌細胞最初是少數,但在雄激素抑制條件下,它們可以獲得生長的優勢。同時,由于這兩種表型對資源(氧氣等)的需求很高,在惡性良性腫瘤微環境中競争激烈。研究團隊創新地将靜态的關系矩陣動态化,用于捕捉在藥物與競争作用下癌症的演化過程中的變異以及抗藥性的不斷積累。

港大張清鵬團隊提出個性化癌症治療新思路:用 AI 控制癌細胞進化過程

通過上述模型要精确地預測抗藥性的演變,并且延遲抗藥性的積累延長病人的存活時間仍然是一項挑戰。在這項工作中,研究人員采用了強化學習來學習給藥的政策,智能體Agent作為一種控制器來幫助控制抗藥性的進化與發展。

強化學習算法可以分為基于值和基于政策的算法。研究人員測試了幾種現代強化學習算法,包括DDPG、TRPO、PPO和SAC。然而,每種算法都有其優勢和局限性。

DDPG 是一種确定性off-policy算法,隻能應用于連續狀态和連續行動空間。TRPO 是一種on-policy的強化學習算法,它使用 KL 散度來控制從舊政策到新政策的更新,但是它的二階優化使得微調超參很困難。SAC和PPO都是易于實作且十分靈活的算法,适用于離散或連續的行動狀态空間,研究人員通過實驗發現PPO在學習效率以及收斂性較SAC更優。

強化學習是一個連續的過程,Agent智能體在離散的時間步長内與環境互相作用,在每一步,智能體接收環境的狀态

港大張清鵬團隊提出個性化癌症治療新思路:用 AI 控制癌細胞進化過程

并根據政策選擇一個行動

港大張清鵬團隊提出個性化癌症治療新思路:用 AI 控制癌細胞進化過程

,環境更新狀态至

港大張清鵬團隊提出個性化癌症治療新思路:用 AI 控制癌細胞進化過程

和與行動相關的獎勵

港大張清鵬團隊提出個性化癌症治療新思路:用 AI 控制癌細胞進化過程

做出回應。每次循環後,智能體都會更新政策π和價值函數

港大張清鵬團隊提出個性化癌症治療新思路:用 AI 控制癌細胞進化過程

其中π将S狀态映射到行動空間A中,即

港大張清鵬團隊提出個性化癌症治療新思路:用 AI 控制癌細胞進化過程

在狀态-行動空間難以窮舉的 RL 問題中,為每一種可能的狀态存儲一個單獨的值函數是不現實的。有人提出了基于政策的政策梯度算法作為替代方案,即估計政策梯度并利用随機梯度上升算法來提升政策, 其主要特點在于直接對政策進行模組化并優化。PPO在梯度政策的基礎上優化了梯度的估計算法,使得政策的每次更新都必須控制在給定的一個最大偏差範圍内,而又不必計算新舊政策之間的KL散度,降低的算法的複雜度。PPO 的梯度估算算法平衡了強化學習中explore和exploit之間的權衡,防止新政策偏離舊政策太遠,進而實作穩定有效的學習。

确認了強化學習算法後,需要建構強化學習環境,研究人員基于tM-GLV模型建構了PCaC環境,包含惡性良性腫瘤的連續狀态空間,藥物控制動作,以及即時回報(獎勵函數)。是以,我們必須定義狀态、行動空間和獎勵函數,這是強化學習的三個關鍵要素。

研究人員提出的tM-GLV模型中(1)中包含了前列腺癌細胞的兩種表型和生物标志物名額(血清 PSA 水準)。是以,在每個時間步長 t 時,對細胞數量水準和 PSA 水準進行觀測,作為目前狀态 。的其他特征組合可為模型訓練提供更多資訊,準确地說,瞬時生長/衰減率

港大張清鵬團隊提出個性化癌症治療新思路:用 AI 控制癌細胞進化過程

可以作為 狀态函數的補充,反映了目前的藥物作用效果以及競争的壓力,并且可以直接從目前狀态中獲得。是以,PCaC 環境的狀态由

港大張清鵬團隊提出個性化癌症治療新思路:用 AI 控制癌細胞進化過程

給出。

此外,動作空間由兩種藥物的劑量構成,該工作使用的是離散動作空間,但他們提出該方法可以很容易地擴充到連續動作空間,即連續的給藥劑量及連續的給藥時間。

最後,獎勵函數涉及藥物療效和競争強度,并加入了對給藥劑量的懲罰。其中,需要注意的問題是劑量不足可能導緻一種次優政策,即Agent會讓反應型癌細胞群體不受控制地增殖,一方面抑制了抗藥性癌細胞的增殖,但是導緻癌症轉移和疾病進展。為了解決這個問題,研究人員為獎勵函數配置設定了惡性良性腫瘤無進展的時間獎勵,并使用了轉移機率模型來模拟癌細胞的轉移作為停止标準,以避免反應型癌細胞群體的無限擴張。

2

實驗結果

港大張清鵬團隊提出個性化癌症治療新思路:用 AI 控制癌細胞進化過程

上圖結果顯示,由強化學習推導出的能顯著推遲耐藥患者的進展時間(TTP)。圖(2)左側顯示了的給藥政策和治療結果,右側顯示了對應患者的相應标準IADT的用藥政策以及TTP,其中灰色柱子表示停藥時間,紅色柱子表示用藥時間。其中我們發現,與标準IADT存在下列差異。

港大張清鵬團隊提出個性化癌症治療新思路:用 AI 控制癌細胞進化過程

首先,與标準的 IADT 相比,每個治療周期的平均時間縮短了:1.3個月而不是13。4個月;停藥:3.5個月而不是16.5個月。

如上圖(b)所示,在這種通過強化學習獲得的自适應給藥政策下,反應型癌細胞群在耐藥性發生前在一個相對較高的水準上振蕩。有反應的癌細胞的競争優勢也呈現出這種振蕩模式,表明所提出的 I2ADT 可以通過給有反應的癌細胞施加競争壓力來抑制有抵抗力的癌細胞。

如圖(c)所示,在中,通過縮短治療期,避免了在IADT中通常觀察到的雙相模式。在傳統IADT治療下觀察到的雙相模式表明,在開啟治療一段時間後,連續6-8個月用藥治療的效果會下降。

其次,通過強化學習學到的是動态的,是根據每位患者的需求量身定制的。在治療的初始階段,與IADT和傳統的持續ADT相比,為反應型癌細胞提供了比耐藥癌細胞更大的競争優勢。随着治療的進展和瘤内競争的持續,反應型癌細胞的競争優勢在 IADT 和 ADT 中都逐漸下降到零。然而,在中,顯著的競争優勢仍然存在,這使得反應型的細胞能夠與耐藥癌細胞競争,最終延長了耐藥患者的生存時間。

為了比較與IADT或ADT的療效,我們使用了下列名額:進展時間(TTP)和無進展生存期(PFS)以及用藥總劑量。TTP 的定義是單個患者的模拟達到模拟結束(EOS)的時間。FPS 是指從開始治療到疾病進展(EOS)發生的時間。當耐藥癌細胞占其容量的 80% 或模拟達到最大步數(120月)時,就達到了 EOS。

仿真結果表明,通過在早期階段保持較高的競争優勢,與标準IADT或ADT相比,顯著延長了TTP和PFS率(P值=0.0019)。這些結果表明,自适應給藥可以作為一種有效的政策來延緩耐藥性的發生并改善患者的預後。

港大張清鵬團隊提出個性化癌症治療新思路:用 AI 控制癌細胞進化過程

考慮到激素治療期不可避免的不良反應,隻要病情得到控制,最好還是減少劑量的使用。表(1)中我們比較了CPA、LEU各周期平均劑量的下降比率以及與标準IADT的總體治療時間占比。

港大張清鵬團隊提出個性化癌症治療新思路:用 AI 控制癌細胞進化過程

結果表明,治療中CPA和LEU的用量均明顯減少,治療期的比例也有所降低,表明I2ADT可降低前列腺癌患者治療不良反應的發生風險,提高患者的生活品質。

3

結語與展望

AI使得大資料的探索和利用成為可能,同時結合傳統的生物實體數學模型使得模型具有更強的解釋性。特别是在癌症治療領域,海量的資料等待着我們的挖掘與利用。

在這項工作中,張清鵬團隊提出了一種針對前列腺癌的治療劑量政策,稱為。這種政策利用強化學習的方法,通過利用反應型細胞的競争優勢優來化對耐藥細胞的抑制。這一架構具有廣泛的适應性,可以用于優化其他癌症類型的治療。然而,針對不同癌症類型需要進行數學模型的調整和強化學習結構的調整,并且需要提供各種臨床資料來支援這種個體化治療方案的優化。

他們指出,人工智能模型在目前前列腺癌的間歇性療法應用中表現出了強大的性能,但由于所使用的訓練資料的特殊性,其通用性可能受到限制,并且尚未在不同的臨床環境中進行過測試。

他們也承認在資料方面存在限制,因為臨床試驗資料主要集中在給藥和PSA這一單一的生物标志物上,忽略了其他生理、遺傳和生活方式因素。是以,未來需要解決這些局限性,收集更多的資訊,并驗證模型在不同惡性良性腫瘤環境中的有效性和安全性。

此外,研究人員還提到他們的模型綜合了兩種藥物的作用,但對于這兩種藥物在疾病通路互相作用方面的微妙差異仍需進一步研究。

同時,為了提高模型的有效性,需要擷取更詳細的患者特異性臨床和病理資料,包括有關藥物聯合作用的資訊。文章還提到了将這些深度學習模型內建到臨床工作流程中的挑戰,并強調解決這些挑戰的重要性。

此外,文章還指出了該研究的一些局限性,包括缺乏綜合生物标志物面闆的資料和治療後患者血清睾酮恢複的考慮。

雖然目前的工作存在局限性和挑戰,但展望未來,我們相信資料科學家、藥理學家和惡性良性腫瘤學家的合作可以進一步優化和其他适應性治療政策。這種跨學科的努力對于充分發揮個性化醫學的潛力以提高癌症治療效果至關重要。

繼續閱讀