天天看點

Qlib全新更新:強化學習能否重塑金融決策模式?

(本文閱讀時間:16分鐘)

編者按:2020年,微軟亞洲研究院開源了金融 AI 通用技術平台 Qlib。Qlib 以金融 AI 研究者和金融行業 IT 從業者為使用者,針對金融場景研發了一個适應人工智能算法的高性能基礎設施和資料、模型管理平台。一經開源,Qlib 便掀起了一陣熱潮,相關開源項目在 GitHub 上已收獲了11.4k顆星。作為一個通用技術平台,Qlib 不僅大大降低了行業從業者使用 AI 算法的技術門檻,還為金融 AI 研究者提供了一個相對完整的研究架構,讓他們可以基于專業知識探索更廣泛的金融 AI 場景。

微軟亞洲研究院對 Qlib 的研究并未止步于此,經過兩年多的深入探索,Qlib 迎來了重大更新,在原有的 AI 量化金融架構基礎上,又引入了基于強化學習和元學習的新範式以及訂單執行優化和市場動态性模組化的新場景,幫助相關從業者使用更先進和多樣的人工智能技術來應對更複雜的金融挑戰。

金融業務的目标複雜性和順序決策流程的特殊本質,讓建構有效的金融決策模型成為一項十分困難的任務。一方面,金融市場的交易規則及其互相作用十分複雜,給金融政策的模拟和評估帶來了巨大挑戰。并且,政策模型優化往往涉及收益最大化和風險最小化,是一個多目标優化問題,這進一步增加了獲得監督信号的難度。

另一方面,金融市場一系列決策之間互相依賴,這些決策共同決定了最終的政策表現,這使得一系列機器學習算法的獨立同分步(Independent and Identically Distributed,IID)假設無效,導緻傳統的監督學習、半監督學習、無監督學習方法很難适用于這些金融場景的決策。

而基于強化學習(Reinforcement Learning, RL)的學習範式不需依賴标注樣本,可通過智能體與環境的互動來收集相應的樣本(如狀态、動作、獎勵)進行試錯學習,進而不斷改善自身政策來擷取最大的累積獎勵。這種通過不斷試錯和探索環境來進行學習,以尋找更好政策的學習範式更有利于滿足上述金融決策的需求。

“在應用強化學習時,應用環境需要具有一定的沙盒屬性。因為強化學習是通過反複試錯的機制進行學習的,如果結果正确它就會得到強化。在現實世界中,遊戲和金融領域的回測都是典型的沙盒場景。是以,我們希望能夠利用強化學習來幫助解決金融決策的問題。”微軟亞洲研究院進階研究員任侃說。

基于這一認知,Qlib 團隊的研究員們針對交易決策和投資組合管理政策展開了研究,并在全新更新的 Qlib 中增加了基于強化學習的單智能體訂單執行優化和多智能體批量訂單聯合優化的示例算法及其相應的平台支撐功能。

Qlib全新更新:強化學習能否重塑金融決策模式?

OPD先知政策提取:更好的訂單優化政策

訂單執行優化是算法交易中的一個基本問題,目的是通過一系列交易決策完成預設的元交易訂單(meta-order),如平倉、建倉及倉位調整。從本質上講,訂單執行的目标是雙重的,不僅要求完成整個訂單,而且追求更經濟的執行政策,實作收益最大化或資本損失最小化。針對訂單執行的順序決策特點,強化學習方法可以發揮優勢捕捉市場的微觀結構,進而更好地執行訂單。

但簡單、直接地使用強化學習會遇到一個問題——原始的訂單及市場資料中存在大量噪聲和不完美的資訊。噪聲資料可能導緻強化學習的樣本效率低下,使學習訂單執行政策的有效性降低。更重要的是,在采取行動時,可以利用的資訊隻有曆史市場資訊,缺少明顯的線索來對市場價格或交易活動的未來趨勢做準确預測。

為此,Qlib 團隊提出了一個通用的訂單執行政策優化架構,引入了全新的政策提取方法 OPD(Oracle Policy Distillation,先知政策提取),來彌合噪聲和不完美市場資訊與最優訂單執行政策之間的差距。該方法是一種“教師-學生”(teacher-student)的學習範式,“教師”在獲得完美資訊的情況下,會先被訓練成一個可以找出最佳交易政策的“先知”,然後“學生”通過模仿“教師”的最佳行為模式來進行學習。而當模型訓練階段結束進入到實際使用階段時,OPD 會在沒有“教師”或未來資訊的情況下,使用“學生”政策進行訂單執行的規劃。而且,與傳統強化學習方法隻為單一股票訓練單一模型的思路不同,Qlib 團隊提出的這一強化學習算法可以利用所有股票的資料做聯合訓練,進而極大緩解學習過程中的過拟合問題。

Qlib全新更新:強化學習能否重塑金融決策模式?

圖1:OPD 先知政策提取示意圖

實驗結果顯示, OPD 的性能顯著優于其它方法,證明了 OPD 的有效性,也證明了傳統基于金融市場假設的方法在真實場景中并不适用。此外,其它基于訓練的資料驅動的方法因為未能很好地捕捉到市場的微觀結構,是以也無法相應地調整政策,導緻政策性能相較 OPD 方法較弱。

Qlib全新更新:強化學習能否重塑金融決策模式?

表1:OPD 方法實驗結果(數值越高性能越好)。

多智能體協作方案MARL:顯著提高批量訂單的執行性能

在量化金融中,對資産管理的一類主要目标是通過在市場上連續交易多種資産來最大化長期價值。是以,除了訂單執行外,投資組合管理也是量化金融中一個基礎的場景,其目标是在一定的時間範圍内,完成投資組合管理政策指定的大量訂單,進而實作本輪的投資組合持倉調整,并盡可能降低換倉的成本甚至通過訂單執行提高整體收益。

在多訂單執行的聯合優化中存在三個問題。首先,訂單數量及交易金額每天都會根據投資組合的配置設定而變化,這要求訂單執行政策具有可擴充性和靈活性,以支援多種不同的訂單情況。其次,現金餘額有限,所有的買入資産操作都會消耗交易者有限的現金供應,而出現的現金缺口隻能通過賣出資産操作來進行補充。另外,現金不足可能會使得投資者錯過更好的交易執行機會,是以投資者要在買入及賣出之間實作平衡,避免交易決策因為現金短缺導緻交易執行業績不佳。

盡管市場上存在許多用于訂單執行的工具,但這些工具很少能夠同時解決上述三個問題。為了解決這些挑戰,Qlib 團隊推出了多智能體協作強化學習(Multi-Agent Reinforcement Learning, MARL)方法,讓每個智能體執行一個單獨的訂單,再以分解聯合行動空間(joint action space)擴充到多個不同的訂單,并且所有智能體協作可以在較少的決策沖突情況下實作更高的總利潤。為了加強各智能體之間的協作,研究員們還提出了一種新的多輪意圖感覺通信機制,以了解每個協作階段智能體的行動意圖,該機制使用了新的行動價值歸因(value attribution)方法,可以直接優化和細化每一輪智能體的預期行動。

Qlib全新更新:強化學習能否重塑金融決策模式?

圖2:多智能體強化學習算法中多輪意圖感覺機制示意圖

圖2:多智能體強化學習算法中多輪意圖感覺機制示意圖

實驗表明,在 A 股及美股資料上共6個不同測試時間視窗裡,MARL(即表2中的 IaC^C 和 IaC^T)相比于單智能體強化學習、簡單的多智能體強化學習及傳統金融模型方法都在各項名額上有顯著提升。此外,意圖感覺通信機制大大降低了 TOC 度量(用于衡量多訂單執行中買、賣操作不均衡帶來的現金短缺情況),這表明采用通信共享意圖行動的方法比以前的 MARL 方法提供了更好的協作性能。并且研究員們提出的 IaC 方法的效果,遠遠超出了此前一些利用通信共享智能體意圖的方法,這表明在單個時間段内細化多輪的行動意圖對于智能體在複雜環境中實作良好協作來說至關重要。

Qlib全新更新:強化學習能否重塑金融決策模式?

表2:MARL 在 A 股及美股資料上6個不同測試時間視窗裡五個關鍵性名額的實驗結果。

強化學習在金融領域的研究離不開專用架構的支撐

研究新算法通常需要快速地進行反複疊代,而疊代效率則在很大程度上取決于研究架構的完善程度。為了更好地推進強化學習在金融領域的前沿研究,Qlib 針對金融領域的特性,提供了全面的架構支援。

Qlib全新更新:強化學習能否重塑金融決策模式?

圖3:全新更新的 Qlib 架構示意圖

Qlib 新釋出的金融領域強化學習架構提供了三個關鍵特性,以解決強化學習在金融領域應用的常見問題。

1. 在金融領域使用強化學習時,使用者往往需要對接金融強化學習環境,通過設計馬爾可夫決策過程(Markov Decision Process, MDP),內建強化學習政策算法。整個過程需要大量的工程工作,同時也需要大量的金融專業知識和實戰經驗,非常費時費力,導緻研究人員無法專心于研究問題本身。Qlib 直接提供了涵蓋上述問題的完整技術棧,免去了研究人員大量繁瑣的重複工作。

2. 強化學習是通過與環境互動試錯來優化政策的。但模拟環境與實際市場環境之間往往存在較大差異,這種差異可能導緻模拟環境的最優解與真實環境的最優解存在很大的差距,這是強化學習研究落地的難點之一。這種差距一方面來自于真實交易包含了大量繁瑣的規則,而一般用于學術研究的交易架構常常會忽略這些規則;另一方面,真實交易中通常是不同層次的交易互相結合使用(如日頻交易和高頻交易),忽視這部分互動影響也會對模拟産生偏差。Qlib 在設計時盡可能考慮到了各種規則,并将嵌套決策架構(nested decision making)用于模拟真實交易時不同層次交易政策的互相影響,進而最大限度地減少模拟誤差。

3. 強化學習需要大量計算資源,涉及與環境的互動和試錯,可能需要多次疊代才能達到最優政策。特别是在金融市場的複雜規則下,這些互動可能非常耗時,需要大量記憶體和計算。為了加速強化學習的研究疊代,優化訓練和測試流程至關重要。Qlib 提供了不同仿真程度的模拟器,使用者可以在訓練時在不同的階段使用不同仿真程度的模拟器(例如,在訓練早期使用低仿真度但運作效率極高的模拟器,在訓練後期使用高仿真同時資源開銷較大的模拟器),進而實作在獲得高仿真環境下的最優政策的同時,節約計算資源并加快訓練速度。在測試環節,通過 Qlib 可靈活排程強化學習智能體的訓練及測試環境的這一功能,實作提高回測并行度以加速政策的評估。

實時市場動态模組化:更有效地預測未來資料分布

在現實世界的真實場景中,人們處理的資料往往是随時間順序收集的流式資料,但機器學習算法能夠被廣泛應用于現實世界一般依賴資料獨立同分布的假設。然而,金融領域的資料是非獨立同分布的,它的規律會随着時間産生變化,這就導緻傳統的依賴獨立同分布假設的機器學習模型難以在不同時間上同時進行有效預測。這種流資料分布以不易預測的方式發生變化的現象被稱為概念漂移。

為了處理概念漂移,此前的方法是先檢測概念漂移發生的時間,再調整模型以适應最新資料的分布,但是這類方法無法應對資料分布在下一個時刻繼續發生變化的問題。Qlib 團隊的研究員們發現,除了一些極端難以預料的分布突變,概念漂移常常以漸進地非随機方式演變,且這種漸進的概念漂移在某種程度上是可預測的,即概念漂移本身就存在一定的趨勢和規律。而實際上這種場景在流資料中十分常見,但大多數現有研究都較少關注這一方向。是以,Qlib 團隊通過預測未來的資料分布來關注可預測的概念漂移,并提出了新的方法 DDG-DA(Data Distribution Generation for Predictable Concept Drift Adaptation),來有效地預測資料分布的演變,并提高模型的性能。其具體的思路是,首先訓練預測器來估計未來的資料分布,然後利用它生成訓練樣本,最後在生成的資料上訓練模型。

Qlib全新更新:強化學習能否重塑金融決策模式?

圖4:DDG-DA 算法示意圖

DDG-DA 方法已經在三個實際任務中進行了實驗:股票價格趨勢、電力負荷和太陽輻照度的時序預測,并在多個廣泛使用的模型上獲得了顯著的性能提升。

Qlib全新更新:強化學習能否重塑金融決策模式?

表3:DDG-DA 在概念漂移可預測場景中的 SOTA 表現

微軟亞洲研究院進階研究員楊骁表示,“如果使用者在使用工具時沒有考慮到時間上資料分布的動态變化 ,那麼最終的模組化将是不完善的。我們的動态市場模組化方法可以動态調整資料分布,讓模型更好地學習和适應目前市場的規律。相比于傳統使用曆史資料構模組化型進行預測的方法,DDG-DA 能夠根據實時的市場規律變化,使用與未來分布更相似的資料模組化,進而可以更準确地預測未來。”

元學習架構助力市場動态性模組化

在市場動态性研究中,DDG-DA 通過調整資料分布間接地影響預測模型的訓練過程,進而影響最終的預測結果。這種訓練模式本質上是在學習如何訓練一個模型,可以歸結到元學習(Meta Learning)範疇。Qlib 提供了一套元學習架構,定義了元學習中任務、資料、模型的接口規範。

使用這套架構,研究者和從業人員不僅可以訓練模型,還可以設計元模型(meta model)來自動地學習如何更好地訓練模型,這為開展 DDG-DA 類似的研究工作提供了極大的便利。未來,Qlib 團隊希望這個架構能夠為更多的元學習算法提供支援,從市場動态性研究開始,擴充到更多的場景和問題。

更新版Qlib已開源,全新功能等你來探索

內建了最新功能的多範式 Qlib 現已在 GitHub 上釋出。其新增的架構群組件能更好地支援強化學習這一學習範式在金融領域中進行智能決策相關的研究和應用。同時 Qlib 團隊還釋出了基于 Qlib 架構在訂單執行這一典型場景下,基于強化學習的先知政策提取 OPD 及多智能體協作 MARL 的兩個示例算法。而對元學習範式的支援也使得類似于市場動态性模組化這類依賴元學習範式場景上的相關研究得以高效地開展并且更友善于實際應用,為智能金融決策又增加了一個成功的砝碼。

Qlib全新更新:強化學習能否重塑金融決策模式?

圖5:新版 Qlib 更新内容

“從資料處理到算法支撐,再到模型的訓練與驗證,此前的 Qlib 在縱向深度上為金融 AI 研究者和金融行業從業者提供了一個全方位面向 AI 量化投資的研究架構,而更新後的 Qlib 則在橫向廣度上為智能金融決策提供了更多新的學習範式,能夠幫助使用者更精準地比對金融業務及相關研究的需求。全新更新的 Qlib 将更多的 AI 算法、學習範式與更廣闊的金融任務、場景相連接配接,提供了一個更易用、更高效的量化金融研究平台。”微軟亞洲研究院首席研究員劉炜清表示。

視訊加載中...

相關論文:

Universal Trading for Order Execution with Oracle Policy Distillation

https://arxiv.org/abs/2103.10860

DDG-DA: Data Distribution Generation for Predictable Concept Drift Adaptation

https://arxiv.org/abs/2201.04038

Learning Multi-Agent Intention-Aware Communication for Optimal Multi-Order Execution in Finance

https://arxiv.org/abs/2307.03119

GitHub連結:

https://github.com/microsoft/qlib

繼續閱讀