天天看點

資料窺視偏差:政策優化陷阱

資料窺視偏差

資料窺視( data-snooping )是指從資料中發現統計上顯著但實際并不存在的關系,是金融分析裡面非常普遍和嚴重的一個問題。在金融分析中,因為我們可以對同一個資料集進行無數次的實證研究,如果有足夠的時間、足夠的嘗試和足夠的想象力,我們可以不需要考慮經濟上的合理性而直接尋找金融變量統計上的關系,這樣我們幾乎能從任何資料集中推斷出任何規律。通過資料窺探,我們可以讓資料分析結果更顯著來支援自己的立場,這些行為往往讓實驗無法重複。

例如,在Wikipedia上的一個例子顯示了拼字比賽獲勝單詞中的字母數(紅)與被毒蛇殺死的美國人的數量(黑)之間的正相關關系,這種關系實際上并不真實。

資料窺視偏差:政策優化陷阱

Timothy Crack [1] 在文章裡通過月相和股市波動率之間的例子,Andrew Lo [2] 在文章裡通過一個以Carmichael數字來選股的例子,都說明了資料窺視偏差在金融分析應用中的危險性。

由于投資政策的一個小偏差常常會導緻投資業績的巨大差異,資料窺視偏差( data-snooping bias)可能會導緻嚴重的後果。在回測投資政策時,不管我們有沒有選股思想,我們都可以不斷通過調整現有參數或加入新的參數使某一政策在曆史資料測試集的表現很好。從機器學習的角度來看,這即是過度拟合(Overfitting)。經過過度優化,投資政策雖然在回測資料上表現不錯,然而實盤交易的表現卻會明顯不一樣。

如果不通過實驗證明而僅僅通過資料推理,資料窺視偏差将不可避免。特别對于非線性模型來說,由于模型可以選取各種自由度,資料窺視偏差不能完全消除。可以說,隻要我們使用資料,我們就會面臨資料窺視偏差的問題。

資料窺探偏差在幾種情況下最有可能出現。

1、當大量資料存在時,它更可能發生。顯然,這适用于金融市場。

2、當許多分析師使用完全相同的資料集。這種情況也适用于金融市場。

3、缺乏經濟理論、經驗、直覺和判斷。

4、個人态度:認為隻要資料推理能用就行,而不管為什麼能用。

資料窺視的本質在于,關注有趣的事件與試圖弄清哪些事件是有趣的是完全不同的。前者可以通過統計來完成,後者則需要額外的理論支援。認識資料窺視偏差、了解資料窺視偏差的影響是處理這個問題的最重要的一步。為了避免資料窺視偏差,我們必須了解為什麼可以使用該模型來解釋資料,通過采用經濟理論、心理學理論,等理論架構或者分析師的直覺、判斷和經驗來了解模型與資料。實際操作中,可以采用不斷試錯(trial and error)的方法來進一步學習資料。

樣本外測試

我們的投資政策最終是要面向未來市場環境的。政策的曆史回測結果,僅僅是這個政策在過去的業績,更多是給自己看的,沒有必要過于追求政策過去的收益率而過度優化模型。我們應更加深入的認識了解市場,通過對市場的認知來了解模型與資料,來設計投資政策。在實際政策回測中,我們可以使用樣本外測試來減少資料窺視偏差對投資決策的影響。

為了減少回測結果隻是偶然發生的機率,我們可以把用于測試資料分為2個樣本資料。

1、樣本内資料(in sample),用來設計投資政策,選出表現較好的政策。

2、樣本外資料(out-of-sample),用來測試樣本内資料選出的表現好的投資政策。

資料窺視偏差:政策優化陷阱

樣本外測試充當一個過濾器,其中在樣本外測試中表現的不如樣本内測試的投資政策将被拒絕,隻有同時通過這兩個測試的政策才被接受。這種方法極大地降低了投資政策遭受資料窺視偏差不利影響的可能性。

例如,我們可以從2010-2015年的資料作為樣本内資料測試投資政策,并利用2015-2017年的資料進行樣本外測試。在完成樣本内測試時,選擇符合我們的盈利标準的幾個最佳政策,并建立政策清單。然後分析這個清單中的政策在樣本外資料裡的表現。

我們應該仔細選擇上述兩個測試樣本中使用的資料時間段。選擇的兩個樣本期内最好不發生牛市/低迷的市場,通貨膨脹/通貨緊縮等市場機制(market regime)變化。

最後,我們可以引入第三個測試周期,即紙面交易(paper trading,或稱模拟交易)。如果我們的投資政策通過了樣本外測試,我們可以在真實的市場化環境中進行模拟交易,如果政策表現優秀,我們就可以轉換成實盤交易。

參考:

1、Timothy Falcon Crack: A Classic Case of “Data Snooping” for Classroom Discussion,  1999

2、Andrew W. Lo: Data-Snooping Biases in Financial Analysis, 1994

繼續閱讀