近日,美國威斯康星麥迪遜大學助理教授郭永祎和合作者提出了一種基于強化學習的個性化即時幹預(personalized Just-in-time Adaptive Intervention,pJITAI)方法。
圖 | 郭永祎(來源:郭永祎)
這種方法能被用于數字醫療之中,通過手機 App、調查問卷等靈活的形式,能夠以個性化的方式減少 18-25 歲青年的大麻攝入。
實際的臨床試驗已于 ClinicalTrials.gov 注冊(NCT05824754),并已在 2024 年 3 月開始。
在臨床試驗中,大約 120 名存在吸大麻習慣、想要戒除的青年參與。對其中每個使用者,在 30 天的參與時間内,他們将以每天兩次的頻率決定是否在其手機上顯示幹預資訊,進而幫助 Ta 減少大麻的攝入。
同時,研究人員也會使用調查問卷等方式,同步收集使用者的有關資訊,以便更好地對不同使用者進行個性化的優化決策。
相比強化學習的其他應用場景,在數字醫療領域尤其會面對樣本量不足、使用者差異性、使用者會喪失參與度等實際問題。
基于綜合考量,課題組使用 contextual bandit 來給這個問題模組化:即在一定時間跨度内的每個決策點,根據之前觀察到的資料,來決定是否對使用者進行“幹預”。
這裡幹預的具體形式即推送合适的幹預資訊。這些決策将與每個使用者的目前狀态和模型參數,來共同決定使用者的回報。
研究中,課題組通過與醫療領域專家的交流,共同制定了回報的名額,保證其與大麻攝入減少高度相關。同時,本次研究的目标之一是:最大化使用者在一段時間内的累積回報。
這一回報模型的特别之處在于:鑒于有限的使用者數量和決策次數,研究人員需要在資料利用效率和考慮使用者的差異性之間達成平衡。
具體來說,在模型參數的設計上,他們希望不同使用者回報模型中的參數既有所不同、又有共同的部分。
如此一來,在決策過程中針對每一個使用者,其他使用者的資料能幫助他們快速學習到該使用者回報模型中共有的部分。
同時,他們也能特别針對該使用者的曆史資料學到 Ta 與其他使用者的不同之處。
其中,課題組使用混合效應模型來描述不同使用者的回報模型。固定效應是使用者共同的部分,随機效應是每個使用者不同的部分。
針對以上回報模型,該團隊使用 Thompson sampling 算法來做自适應決策,在學習使用者回報的同時優化決策的品質。
與之前方法不同的是,他們通過采用投影梯度下降、以及經驗貝葉斯來更新所學到的模型資訊,確定算法在較多參數情況之下仍能自主、穩定地運作。
同時,課題組從之前臨床試驗的資料中,确定了算法中特定參數的先驗分部。
此外,從之前的臨床試驗中,他們還提取和完善了模拟使用者,并基于此建立了多種模拟環境,例如具有不同程度的幹預效果、不同程度的使用者習慣化等,以用于測試所使用算法的表現。
在各種環境之下,本次算法都能有效識别使用者的異質性、以及利用使用者的共同點,進而達到優化回報的目的。
與其他算法相比,本次算法在使用者異質性較高的情況下尤其能展現出優勢。
這在本次成果的應用中非常重要,因為研究表明不同人對成瘾性物質的攝入習慣、以及攝入行為與心理狀态的關系具有很大的差異[1]。
研究期間,為了確定臨床試驗的使用者體驗,團隊中的部分成員還下載下傳和測試了試驗期的手機 App,并給出了許多回報。
例如,他們意識到使用者習慣化在實際應用中幾乎是不可避免的,單個幹預資訊對使用者的影響幾乎都是正的(即能幫助使用者減少大麻攝入)。
而過于頻繁的幹預資訊卻會讓使用者對資訊變得不敏感,甚至解除安裝程式。是以,他們在實驗中添加了多種使用者習慣化場景,并将其作為測試算法表現的重要名額。
最終,相關論文以《reBandit:基于随機效應的線上 RL 算法減少大麻的使用》(reBandit:Random Effects based Online RL algorithm for Reducing Cannabis Use)為題發在 arXiv[2]。
圖 | 相關論文(來源:arXiv)
在臨床試驗結束後,他們需要對資料進行統計分析,其中最重要的是對幹預效果的統計推斷,進而驗證幹預方案的有效性。
相比傳統的統計分析,無論對于時間點、還是對于不同使用者,本次研究中的資料都不是獨立的。是以,需要開發新的統計推斷方法,目前他們正在解決這一問題。
參考資料:
Benson, Lizbeth, et al. "Associations between morning affect and later-day smoking urges and behavior." Psychology of Addictive Behaviors (2023)
2.https://arxiv.org/pdf/2402.17739.pdf
營運/排版:何晨龍