天天看點

中金 | 機器學習系列(1):使用深度強化學習模型探索因子建構範式

作者:中金研究
強化學習模型作為機器學習模型的重要分支在各領域應用廣泛,從AlphaGo到ChatGPT均不乏其身影。在金融領域強化學習同樣具備無需獨立同分布假設等優勢。本文結合強化學習和特征提取的結構生成的選股因子在多個股票池中均取得良好選股表現,且模型表現對參數敏感性較低,樣本外穩定性高。

摘要

為什麼在量化中嘗試強化學習模型

作為機器學習重要的發展分支之一,不論是在近幾年讨論度較高的LLM大語言模型還是在圍棋領域戰勝世界冠軍的AlphaGo中都不乏強化學習的身影。強化學習已被證明在不同應用場景下對多種任務都有較好表現。我們認為強化學習在金融領域特别是量化政策中可能将具有良好效果,主要出于強化學習模型以下四個特點:1.适合處理序列決策任務;2.輸入資料無需遵從獨立同分布的假設;3.通過與環境互動探索來不斷優化目前政策;4.資料無需具備标簽。

因子建構的本質:資料與操作符的有機結合

資料+操作符:因子挖掘的過程本質上屬于尋找資料與操作符的結合方式,挖掘方式可以被分為人工挖掘或模型挖掘兩種。我們在之前的一系列因子手冊中展示的因子均為通過一定邏輯采用人工建構的方式得到。而通過人工建構的方式在确定性上雖然比機器更高,但效率理論上來說遠不及機器學習模型。

特征提取子產品+強化學習模型:為尋求機器挖掘因子的高确定性,我們通過結合強化學習模型和特征提取子產品,建構了包含6個常見日度價量特征的資料集,并定義了22個操作符算子和19個常數算子的資料集合。特征提取子產品将主要通過對因子表達式進行線性或非線性方法提取特征,強化學習模型則主要負責學習如何将資料特征和操作符以及常數算子有機結合起來,高效尋找合理因子範式。

TRPO樣本外穩定性較高

在我們的測試架構下,強化學習模型在樣本外的表現均明顯優于作為比較基準的遺傳算法和傳統機器學習方法。其中TRPO_LSTM和A2C_Linear兩種組合方案在中證1000範圍回測結果表現突出:ICIR約為0.90,樣本外超額夏普均超過1.1,并且在今年年初市場快速回撤環境下表現仍然平穩。相比之下,兩組對照方法的收益淨值曲線在今年年初出現了明顯的回撤,超額收益不足2%。

機器學習模型的穩定性也一直是投資者關注的重點之一。我們分别固定強化學習模型和特征提取子產品,統計合成因子在樣本外回測的ICIR及超額收益的平均表現。實驗結果表明,TRPO、A2C和PPO模型參與因子範式挖掘得到的合成因子具有較為穩定的ICIR表現,均超過0.80。特征提取子產品中,Transformer參與組合的模型輸出的因子具有相對最好的ICIR表現,達到0.79。

TRPO相對穩定的模型結構解釋:1)相較于其他強化學習模型,TRPO使用了信任域優化的方法,通過限制政策更新的步幅,確定政策改進過程的平滑和穩定。2)TRPO在每次更新時會自适應地調整學習率來保持政策更新在信任域内,是以其對學習率參數不是特别敏感。3)TRPO優化的目标函數使用了廣義優勢估計(GAE)來估計政策梯度,并且結合了值函數的估計來減小方差,該設計使其對于獎勵函數中的噪聲和估計誤差敏感性降低。

風險

模型基于曆史資料建構,未來可能存在失效風險。

正文

量化領域下的強化學習

為什麼選擇強化學習模型

作為機器學習重要的發展分支之一,不論是在近幾年讨論度較高的LLM大語言模型還是在圍棋領域戰勝世界冠軍的AlphaGo中都不乏強化學習的身影。強化學習已被證明在不同應用場景下對多種任務都有較好表現。強化學習的具體原理詳見報告原文。

我們在使用傳統統計模型和機器學習模型時,經常容易忽略的一點就是關于資料的假設。例如對于線性回歸、邏輯回歸、樸素貝葉斯以及KNN等機器學習模型來說,一個基礎的假設就是輸入資料需要服從獨立同分布。而對于金融資料來說,獨立同分布很多時候都是一個過于嚴格的前提。

► 時間相關性:金融資料通常是時間序列資料,相鄰時間點的資料之間可能存在相關性。例如,股票價格在短時間内可能會呈現出一定的自相關性或者相關性結構。

► 波動性聚集:金融市場中的波動通常會出現波動性聚集(volatility clustering)的現象,即波動性的大幅度變化往往會聚集在一起,而不是均勻分布。這意味着金融資料的波動性不是獨立同分布的。

► 異方差性:金融資料中常見的異方差性(heteroscedasticity)表現為不同時間點的資料具有不同的方差。這違反了獨立同分布的假設,因為方差并不是恒定的。

► 非正态分布:許多金融資料并不遵循正态分布,而是具有偏态、厚尾或者其它非正态的分布特征。

由于這些特殊性質存在,我們将金融資料應用在使用機器學習或深度學習模型時,需要謹慎考慮其适配性,而不是強行将資料直接輸入模型中。但強化學習則不需要輸入資料滿足這一要求。此外強化學習通過與環境互動進行試錯探索,進而對目前政策進一步優化的模式與量化政策的更新疊代也有諸多相似之處。

我們認為強化學習在金融領域特别是量化政策中可能将具有良好效果,主要出于強化學習模型以下四個特點:1.适合處理序列決策任務;2.輸入資料無需遵從獨立同分布的假設;3.通過與環境互動探索來不斷優化目前政策;4.資料無需具備标簽。

圖表1:強化學習發展曆史

中金 | 機器學習系列(1):使用深度強化學習模型探索因子建構範式

資料來源:Wind,中金公司研究部

如何尋找因子的建構範式

因子建構本質:資料與操作符的有機結合

本文利用強化學習模型來尋找有效的因子建構範式,因子建構範式具體指代包含量價等資料特征和數學操作符的因子表達公式。在實際操作中,我們使用樹結構來表示因子範式:非葉節點代表操作符,節點的子節點代表操作數,本文将每個節點稱為算子(token),并借助逆波蘭表達式的思想将樹結構儲存為其後序周遊的序列,有效發揮了逆波蘭表達式不含歧義,以及易于被計算機程式解析和計算的優勢。與直接預測收益率任務相比,該任務具有更好的解釋性。

圖表2:資料與操作符的結合方式--逆波蘭表達式

中金 | 機器學習系列(1):使用深度強化學習模型探索因子建構範式

注:(A) 因子範式的示例;(B) 因子範式對應的樹結構;(C) 使用逆波蘭表示法(RPN)的結果,其中BEG和SEP表示序列訓示符;(D) 在一個示例時間序列上逐漸計算這個Alpha因子

資料來源:“Generating Synergistic Formulaic Alpha Collections via Reinforcement Learning.” Shuo Yu等(2023),中金公司研究部

模型架構層面,本文将多因子挖掘任務及因子合成任務使用串聯的形式內建到端到端的強化學習架構内,發揮其強大的探索能力。具體來說,架構主要包含基于強化學習的Alpha生成器和Alpha組合模型兩個子產品。Alpha生成器的主要作用為挖掘因子範式,并将有效的因子範式加入到因子池中,賦予随機的合成權重。随後Alpha組合模型采用梯度下降的優化方式對因子池中的因子進行線性組合,優化各自權重。我們對組合模型輸出的因子進行回測,将IC結果用作獎勵信号,以訓練基于政策梯度算法的Alpha生成器中的強化學習政策。采用這樣的訓練架構和流程,能促使Alpha生成器在重複的訓練和優化中産生提升組合模型的因子,進而增強整體的預測能力。

圖表3:強化學習因子挖掘架構

中金 | 機器學習系列(1):使用深度強化學習模型探索因子建構範式

注:(A) 一個生成表達式的Alpha生成器,通過政策梯度算法進行優化。(B) 一個維護主要因子權重組合的組合模型,同時提供評估信号以指導生成器。

資料來源:“Generating Synergistic Formulaic Alpha Collections via Reinforcement Learning.” Shuo Yu等(2023),中金公司研究部

測試架構:特征提取+強化學習

Alpha生成器包含兩個核心子產品:強化學習子產品和特征提取子產品。

► 強化學習子產品:考慮到本文任務為挖掘因子範式,模組化的馬爾可夫決策過程中使用了定義在離散空間的動作集合,且每一次新的動作采取需要根據目前序列篩選合法的算子,是以我們主要考慮了采用Actor-critic架構的強化學習模型和Maskable(遮罩)機制。

► 特征提取子產品:特征提取子產品主要負責将離散的算子序列也即因子表達式轉換為連續的抽象表征,以作為強化學習網絡子產品的輸入。強化學習模型的價值網絡和政策網路共享一個輸入特征的提取子產品。

考慮到合成因子環節的可解釋性,本文僅采用傳統的線性組合方案,并未引入其他機器學習/深度學習的方法,因而該子產品的技術細節在此不做過多贅述,損失函數的含義及推導過程詳見原文附錄。

由于強化學習模型無法直接讀取離散形态的因子表達式,是以在本模型結構中特征提取子產品将主要通過對因子表達式進行線性或非線性方法提取特征,強化學習模型則主要負責學習如何将資料特征和操作符以及常數算子有機結合起來,尋找到合理的特征與操作符結合的政策。

圖表4:特征提取子產品和強化學習模型組合,前者負責提取因子表達式的抽象特征

中金 | 機器學習系列(1):使用深度強化學習模型探索因子建構範式

資料來源:Wind,中金公司研究部

TRPO+LSTM:兼顧收益與穩定

回測結果:TRPO+LSTM樣本外表現更優穩定性高

中證1000資料集樣本外回測結果中表現突出的組合方案是TRPO_LSTM模型。其輸出的合成因子IC均值為6.35%,多空收益為22.99%,具有7.83%的超額收益以及1.56的超額夏普率。與全樣本表現較好的A2C_Linear模型相比,通過多次随機數初始化參數訓練得到的TRPO_LSTM方法在樣本外具有更好的平均表現和穩定性。此外,在與常見因子相關系數的計算中,該因子的截面相關性均保持在0.5以内。

圖表5:強化學習和特征提取子產品組合模型的合成因子在中證1000範圍樣本外月度回測的有效性檢驗結果

中金 | 機器學習系列(1):使用深度強化學習模型探索因子建構範式

注:1)樣本區間為2021-03-01至2024-03-01;2)強化學習及遺傳算法模型均使用不同随機數初始化參數進行3次訓練,擷取平均結果

資料來源:Wind,中金公司研究部

強化學習性能與透明度更優

我們經過試驗對比發現強化學習模型在樣本外的表現均明顯優于遺傳算法和機器學習方法。其中TRPO_LSTM和A2C_Linear兩種組合方案在中證1000範圍内樣本外回測的平均結果較為突出:ICIR約為0.90,超額夏普均超過了1.1,并具有累計7.83%和5.32%的超額收益。相比之下,兩組對照方法的收益淨值曲線在今年年初出現了明顯的回撤,超額收益不足2%。

圖表6:強化學習模型(部分)及對照方法合成因子在中證1000範圍樣本外月度回測的有效性檢驗結果

中金 | 機器學習系列(1):使用深度強化學習模型探索因子建構範式

注:1)樣本區間為2021-03-01至2024-03-01;2)強化學習及遺傳算法模型均使用不同随機數初始化參數進行3次訓練得到平均值

資料來源:Wind,中金公司研究部

模型的參數敏感度分析

本節主要就因子表現對特征提取子產品和強化學習模型組合的敏感度進行分析。分别固定強化學習模型和特征提取子產品,統計合成因子在樣本外回測的ICIR及超額收益的平均表現。實驗結果表明,TRPO、A2C和PPO模型參與因子範式挖掘得到的合成因子具有較為穩定的ICIR表現,均超過0.80。特征提取子產品中,Transformer參與組合的模型輸出的因子具有相對最好的ICIR表現,為0.79。具體測試結果見報告原文。

本節主要從因子池和模型超參兩個角度探索TRPO_LSTM組合模型性能對參數的穩定性。相較于其他強化學習模型,TRPO的性能表現較為穩定,對于參數變化較為不敏感。我們認為主要可能有以下原因。從TRPO的設計原理出發:

► TRPO使用了信任域優化的方法,通過限制政策更新的步幅,確定政策改進過程的平滑和穩定,進而減少了因大幅度更新而導緻的性能崩潰的風險。

► TRPO在每次更新時會自适應地調整步長(或學習率),以保持政策更新在信任域内。由于它會自動調整步長以滿足KL散度的限制,該算法對學習率不是特别敏感。

► TRPO優化的目标函數使用了廣義優勢估計(GAE)來估計政策梯度,并且結合了值函數的估計來減小方差。該設計使其對于獎勵函數中的噪聲和估計誤差敏感性降低。

本文所采用的強化學習模型始終貫徹着計算效率和存儲開銷間的平衡。誠然更大的網絡隐藏層次元及更深的網絡層數有可能帶來更好的拟合效果,但複雜的網絡結構面臨着計算效率的降低及模型過拟合的風險。是以在實際應用中,如何權衡這兩者間的關系也是不可忽視的問題。

圖表7:TRPO_LSTM模型主要參數設定及影響分析

中金 | 機器學習系列(1):使用深度強化學習模型探索因子建構範式

資料來源:“Generating Synergistic Formulaic Alpha Collections via Reinforcement Learning.” Shuo Yu等(2023),Wind,中金公司研究部

文章來源

本文摘自:2024年4月7日已經釋出的《機器學習系列(1):使用深度強化學習模型探索因子建構範式》

周蕭潇 分析員 SAC 執證編号:S0080521010006 SFC CE Ref:BRA090

鄭文才 分析員 SAC 執證編号:S0080523110003 SFC CE Ref:BTF578

陳宜筠 聯系人 SAC 執證編号:S0080122080368 SFC CE Ref:BTZ190

劉均偉 分析員 SAC 執證編号:S0080520120002 SFC CE Ref:BQR365

法律聲明

中金 | 機器學習系列(1):使用深度強化學習模型探索因子建構範式

繼續閱讀