天天看點

西蒙斯的賺錢秘籍:隐馬爾科夫模型(HMM)的擇時應用

摘要:

西蒙斯是被量化圈所廣為追捧的量化之神,旗下的大獎章基金創造了無數神話。成立初期的創始人中,有一位科學家發明了廣泛應用在語音識别等領域的鮑姆-威爾士算法。隐馬爾可夫模型(HMM)已經被成功應用在工程領域,并取得了具有科學意義和應用價值的重要成果。

本文将西蒙斯大獎章基金的利器-隐馬爾可夫模型應用到我國股市的預測中,通過對股票資料序列的模式識别來對大盤走勢進行預測。

一、前言:從大獎章講起

西蒙斯是被量化圈所廣為追捧的量化之神,在全球金融危機的08年,大部分對沖基金都虧損背景下,其收益高達80%。

西蒙斯創辦的文藝複興科技公司擁有一群實體學家和數學家,這群人聚在一起到底搞出了什麼賺錢利器?一直是外界所猜測。衆說紛纭,而其中隐馬爾科夫模型也由于一些原因被推舉出來。

本文将隐馬爾可夫模型應用到我國股市的預測中,通過對股票資料序列的模式識别來對大盤走勢進行預測。

二、HMM範例及原理

先簡單回顧一下馬爾科夫鍊。馬爾可夫鍊,是指數學中具有馬爾可夫性質的離散事件随機過程。馬爾科夫性用數學公式表示如下:

西蒙斯的賺錢秘籍:隐馬爾科夫模型(HMM)的擇時應用

馬爾科夫經典範例:

根據目前天氣的情況來預測未來天氣情況。一種辦法就是假設每天的天氣狀态都隻依賴于前一天的狀态。以下展示了天氣預測的馬爾科夫模型狀态轉移圖:

西蒙斯的賺錢秘籍:隐馬爾科夫模型(HMM)的擇時應用

假設天氣預測模型的狀态轉移矩陣如下:

西蒙斯的賺錢秘籍:隐馬爾科夫模型(HMM)的擇時應用

這個矩陣表示,如果昨天是陰天,那麼今天有25%的可能是晴天,12.5%的機率是陰天,62.5%的機率會下雨,很明顯,矩陣中每一行的和都是1。

為了初始化這樣一個系統,我們需要一個初始的機率向量:

西蒙斯的賺錢秘籍:隐馬爾科夫模型(HMM)的擇時應用

這個向量表示第一天是晴天。到這裡,我們就為上面的一階馬爾科夫過程定義了以下三個部分:

狀态:晴天、陰天和下雨。

初始向量:定義系統在時間為0的時候的狀态的機率。

狀态轉移矩陣:每種天氣轉換的機率。所有的能被這樣描述的系統都是一個馬爾科夫過程。

 然而在某些情況下,馬爾科夫過程不足以描述我們希望發現的模式。基于觀測序列及隐含變量建立HMM模型,在模式識别上有一定優勢。

HMM(隐馬爾科夫)經典範例:

假設有3個不同的骰子。骰子1有6個面,稱為D6,每個面對應數字出現的機率是1/6;骰子2有4個面,稱為D4,每個面對應數字出現的機率是1/4;骰子3有8個面,稱為D8,每個面對應數字出現的機率是1/8。

西蒙斯的賺錢秘籍:隐馬爾科夫模型(HMM)的擇時應用

現在擲骰子10次,并假設得到這麼一串數字:1 6 3 5 2 7 3 5 2 4,這串數字叫做觀測序列。但是在隐馬爾可夫模型中,我們不僅僅有這麼一串可見狀态鍊,還有一串隐含狀态鍊。在這個例子裡,這串隐含狀态鍊就是你用的骰子的序列。比如,隐含狀态鍊有可能是:D4 D6 D8 D6 D4 D8 D6 D6 D6 D4。

一般來說,HMM中說到的馬爾可夫鍊其實是指隐含狀态鍊,因為隐含狀态(骰子)之間存在轉換機率。

在我們這個例子裡,D6的下一個狀态是D4,D6,D8的機率都是1/3。D4,D8的下一個狀态是D4,D6,D8的轉換機率也都一樣是1/3。這樣設定是為了最開始容易說清楚,但是我們其實是可以随意設定轉換機率的。比如,我們可以這樣定義,D6後面不能接D4,D6後面是D6的機率是0.9,是D8的機率是0.1。這樣就是一個新的HMM。

可見狀态之間沒有轉換機率,但是隐含狀态和可見狀态之間有一個機率叫做輸出機率。就我們的例子來說,六面骰子(D6)得到每個數字的輸出機率都是1/6(假設骰子沒被動過手腳)。

西蒙斯的賺錢秘籍:隐馬爾科夫模型(HMM)的擇時應用

在上面的這些情況下,可以觀察到的狀态序列和隐藏的狀态序列是機率相關的。于是我們可以将這種類型的過程模組化為有一個隐藏的馬爾科夫過程和一個與這個隐藏馬爾科夫過程機率相關的并且可以觀察到的狀态集合,就是隐馬爾可夫模型(Hidden Markov Model),簡稱HMM。

HMM的三個問題及算法:

對于股市我們也常常面臨以下的問題:我們希望基于能觀測到的有限的資訊(股價、成交量及波動率)來預測我們所無法得知的股價背後驅動因素,乃至預測股價的漲跌原理,這個預測的模組化過程與HMM不乏有許多相似之處。

HMM模型的建構,重點在于分别解決三種問題:

問題1:知道骰子有幾種(隐含狀态數量),每種骰子是什麼(轉換機率),根據擲骰子擲出的結果(可見狀态鍊),我想知道每次擲出來的都是哪種骰子(隐含狀态鍊)。

問題2:知道骰子有幾種(隐含狀态數量),每種骰子是什麼(轉換機率),根據擲骰子擲出的結果(可見狀态鍊),我想知道擲出這個結果的機率。

問題3:知道骰子有幾種(隐含狀态數量),不知道每種骰子是什麼(轉換機率),觀測到很多次擲骰子的結果(可見狀态鍊),我想反推出每種骰子是什麼(轉換機率)。

西蒙斯的賺錢秘籍:隐馬爾科夫模型(HMM)的擇時應用

三、HMM在股市預測中的應用

HMM在語音識别中的應用流程:

(1)首先,從輸入的語音中提取相應的數字特征序列,并對模型進行訓練,得到局部最優參數估計。HMM語音識别模型訓練過程如下圖:

西蒙斯的賺錢秘籍:隐馬爾科夫模型(HMM)的擇時應用

(2)其次,輸入需要進行識别的語音,通過提取相應的數字特征序列,再運用向前-向後算法對各類模型進行似然估計,得到最大機率的模型輸出,進而實作識别功能。HMM模型語音識别過程如下圖:

西蒙斯的賺錢秘籍:隐馬爾科夫模型(HMM)的擇時應用

基于HMM模式識别模型的股市走勢預測:

(1)首先,按照事先分類,選取曆史上屬于同類走勢的日期以及該日期之前若幹個星期的股票資料,提取股票資料中某些特征名額(成交價格,成交量,等等)形成相應的序列作為模型的輸入,并應用Baum-Welch算法對各類模型進行訓練,訓練過程如下圖:

西蒙斯的賺錢秘籍:隐馬爾科夫模型(HMM)的擇時應用

(2)其次, 根據訓練好的HMM模型,選取若幹個星期的股票特征名額(成交價格,成交量,等等)序列作為輸入,應用向前-向後算法計算各個模型發生的機率,選取最大機率對應的模型,進而得到下一階段股票走勢的識别結果。識别過程如下圖:

西蒙斯的賺錢秘籍:隐馬爾科夫模型(HMM)的擇時應用

四、HMM政策實證結果

4.1、政策說明

擇時指數:滬深300指數;

時間區間:2007/07/20至2016/09/09;

我們分别基于大盤的漲跌幅、換手率、成交金額以及每日的主動買賣盤金額等資料構造不同的觀測序列變量如下:

X1: 股票日收益率;

X2: 資金日淨流入占當日所有流動資金的比例;

X3: 日總流動資金環比;

X4: 标準化資金流,即:(日總流動資金-過去一年平均流動資金/過去一年流動資金波動率。

X5: 換手率日環比;

X6: 成交金額日環比;

X7: 标準化成交金額日。

從中選擇不同的變量構造觀測變量組合,并根據标的指數周漲跌情況将所有樣本劃分為兩類(分别對應漲、跌),分别運用觀測變量組合訓練不同的HMM模型。

4.2、基于HMM的指數擇時原理

基于不同類型(分漲、跌兩類)樣本資料分别訓練得到對應的模型:HMM1和HMM2,根據最新觀測變量輸入之後的機率高低作為下周大盤漲跌的判斷依據,對指數進行多空操作。此外,為了避免模型連續預測錯誤導緻的政策較大虧損,我們加入了信号止損機制:當最近一次信号開倉起來,政策累計虧損達到某個閥值(如5%),則對目前倉位進行平倉,直到下一次出現相反信号再重新開倉

4.3、政策表現

(1)不考慮做空

若當信号為空時,指數空倉,不考慮做空,則在2007年07月20至2016年9月9日共450周間,共發出了62次買入信号和61次賣出信号,信号止損信号8次。平均每3.8周一次買賣信号。其中,預測結果準确為250周,準确率為56 %,政策累計收益率為183%,年化21.1%。

西蒙斯的賺錢秘籍:隐馬爾科夫模型(HMM)的擇時應用

(2)考慮做空

若當信号為空時,指數開空倉,則在2007年07月20日至2016年9月9日共450周間,共發出了62次買入信号和61次賣出信号,信号止損信号16次,由于止損而空倉31周。平均每3.8周一次買賣信号。其中,預測結果準确為250周,準确率為56 %,政策累計收益率為899%,年化103.9%。

西蒙斯的賺錢秘籍:隐馬爾科夫模型(HMM)的擇時應用

五、總結

5.1、研究意義和創新點

本報告首次提出将HMM模式識别模型引入到股票價格波動預測問題中,通過解決HMM模型中的學習問題和識别問題,建立了一個基于股票日收益率以及日資金流等變量的對股票指數擇時模型,經實證檢驗,無論是預測準确率和擇時政策收益,該模型都取得了比較不錯的效果,具有相當的理論和現實意義。

由于HMM模型的相關算法相當成熟,且具有效率高,效果好以及易于通過已有的資料進行模型訓練等特點,是以選用HMM模型進行股票波動模式識别不僅是一個較大的創新,更是一個值得探讨的選擇。

5.2、模型的不足

(1)模型的預測準确率有待進一步提高;

(2)輸入向量的選擇是HMM模型的關鍵,本文僅針對股價、換手率以及資金流等構造輸入變量,所能提取的股市資訊存在局限。

-------------------------

拓展閱讀:

1.一個量化政策師的自白(好文強烈推薦)

2.市面上經典的量化交易政策都在這裡了!(源碼)

3.期貨/股票資料大全查詢(曆史/實時/Tick/财務等)

4.幹貨| 量化金融經典理論、重要模型、發展簡史大全

5.從量化到高頻交易,不可不讀的五本書

6.高頻交易四大派系大揭秘

繼續閱讀