天天看點

中國人工智能學會通訊——機器學習與量化投資

中國人工智能學會通訊——機器學習與量化投資

我那天和柳博士在星巴克聊得很嗨,聊的就是政策,上次我們是3月份,現在是5月份,兩個月過去了,我的想法有很大的改變。為什麼現在我不嗨了,那次我們聊時正好我們在做一個機器學習的量化政策,當時東西剛出來我特别興奮,弄出來的Sharpe Ratio我很興奮。但是回過來我發現很多政策、很多機器學習的方法、很多學生每天在實驗室裡泡着,每天看着圖像給一個例子,如果得到的圖像不盡人意的話,他會在朋友圈裡抱怨一下,淩晨12點出來一個好圖像,其他同學就給他歡呼,這就是現在在學校裡做機器學習的一種傾向。後來我反思,這樣做出來的東西我如何控制、我敢不敢用,這就是我兩個月的思考。現在冷靜下來了,我發覺政策本身不重要,機器學習是非常強的拟合搜尋引擎,非常強大,給任何的資料可以拟合出非常漂亮的曲線,但是這個不重要,重要的是怎麼樣控制過拟合,這就是今天我要講的。

這是一個非常難的問題,在你不知道真實答案時,在你不知道這個市場上有多少錢可賺時,你不知道你的limit在哪裡。當你不知道limit在哪裡時,很難控制Type II、Type I error。回答這個問題之前,我知道這個問題在量化投資裡永遠沒辦法回答,剛才柳博士說深度學習,有些領域确實可以不在乎,在量化投資領域我們非常在乎,因為金融資料裡信噪比是非常低的。當你在金融裡做一個回歸時,如果能得到R2=2%、1%就非常高興了,性噪比隻有50~100。我從另一個角度看看别人怎麼做的,美國人怎麼做的,現在行業裡的标準在怎麼做,我還想看看這樣的問題不隻是量化投資裡,實體學、生物學、藥學裡同樣存在非常大的問題;我想看行業裡到底怎麼做,給我們量化投資未來在這個行業、在這個方向有一些啟示,這就是我今天要講的。

我搜尋了一下量化投資的商業模式,大概可以分這三種,我不說非常傳統的共同基金,我們就說從現在機器學習發展開始引入量化投資,以及量化投資飛速增長的這幾年來看,我們到底有哪些模式。

第一種模式是Smart Beta,這個模式涵蓋了所有過去傳統的投資,包括基金、指數投資。Smart Beta現在變得更加smarter,得益于機器學習,但是它如何控制它的過拟合,這是個行業的問題。現在所用的Smart Beta有兩個典型的公司,大家都知道,叫DFA和AQR。這兩個公司是美國第一、第二大基金,除了純指數,這兩個是基于主動和被動之間。他們大概的規模是幾千億美金。

第二種模式是Alpha factory,典型的代表公司,清華任何一個工科同學,對量化感興趣的都知道。Alpha本身并不是一個新概念,如果你認為市場有錢賺,市場是非有效的,通過發現非有效性就可以去挖掘超額收益,Alpha就是超額收益。為什麼會有factory,這就得益于機器學習。

最後一個是Data Science,就是王總公司所做的非常超前的領域,這是一種非常新的模式,但其還未成形,從資料手機到産生政策、進行組合到投入應用還有很長的路要走。

我們首先講講Smart Beta,也叫聰明Beta,它是在傳統指數投資的基礎上,采用系統性方法,對選股政策進行優化,達到跑赢傳統指數投資目的政策。舉一個簡單的例子,買小股票一定可以跑赢大股票,長期來看怎麼看怎麼好,隻要有中國A股市場經驗的人都知道小而美,但前年的11月到12月有一小段視窗期可能會有些輾轉。我們可以通過不同的權重來做倉小盤股,進而獲得超額回報。從Smart Beta的市場來說,這是一種被動投資,其優勢就是管理費用低、資訊透明度高,普通人在投資前不需要告知要做什麼,這一點非常透明。以美國的經驗來看,此類投資将會是主流。現在絕大部分散戶的錢,因為監管原因,基本會投資在此類型産品中。但是如果我們重新定義Smart Beta,所有這些稱之為指數型投資、Smart Beta型投資或者小股票型的投資,其本質特點是什麼?規則事前已确定,在招股說明書中也已确定投資人。從小股票指數開始,所有内容都寫在了學術檔案中,可随時查詢,所有人都知道他在做什麼,市場上誰做得最好,誰的規模最大。

我們所讨論的機器學習方法,也是在選擇一種規則,這種規則要在投資前就确定好,要将各樣政策的測試呈現給投資人,投資人根據政策測試的結果進行投資。目前這個行業最大的問題,即如何判斷政策測試的結果是否有效。

Smart Beta是金融資産定價理論的直接産物,這是一種采用因子模型的直接的機器學習。量化流程便可通過機器計量方法進行各種優化組合。當剛開始接觸機器學習的方法,我特别興奮,因為它就是金融計量方法的延伸,可以從線性模型到非線性模型、低次元到高次元,運算速度非常快,可采用的工具很多,但所有問題的核心仍然是資料。美國的可靠資料是從1929年開始收集的,而中國可靠的資料卻是從1995年開始收集的,更可靠的股權分置改革以後資料的收集時間就更短了,僅僅隻有10多年。因為我們的資料非常稀缺,是以非常珍惜資料。

若一個模型有95%的機率是正确的,這叫選擇偏差。這是2000年諾貝爾經濟學獎獲得者Heckman的獲獎成果,選擇偏差在社會科學研究中廣泛存在。以抛硬币為例,若抛硬币10次硬币都是正面朝上的機率非常小,重複實驗2次機率依然很小,實驗10次?實驗1 000次、1萬次?則在這1萬次連抛10枚硬币試驗中出現1次硬币都是正面的機率會大大增加,抛的越多則能得到我們想要結果的機率會大大增加。這一點和我們做實驗是一樣的。若我們選擇一個政策,不行,再繼續實驗,看看什麼地方不對,這是我們一直在做的,也是各種各樣的研究都在做的。這些工作以前是人工來做的,現在由計算機幫我們做,所有計算機都可以在1秒鐘内計算10萬次。那麼這個問題就非常嚴重了,如何控制不吻合的情況,如何使得結果可信,我們自己都不知道真正的範圍在哪裡,這是個嚴重的問題。

我們來看一下其他領域怎麼做的。我以前是學粒子實體的,粒子實體的實驗噪聲非常大,2倍的T是不夠的,那T等于3夠不夠?T等于3是八幾年做出來的,同行否掉了,這個領域4還是不夠,最後一錘定音的是T等于5。那麼得到準确結果的機率是多少?這就是我們同行做實驗的标準。

在藥品領域,國外有AllTrial Campaign,要進行各種實驗,且要持續很多年。這樣的實驗一般都交由藥企來做,是存在選擇性偏差的。我做的不好的就不告訴你,做好了再告訴你。所有的實驗在操作之前都要告知公衆是如何去做的,每次試驗的結果也須公布,這才是所有的資訊。我們這個行業進行此類控制非常困難,我不告訴你你就不知道,這需要制定标準,即實驗前就需要告知想法從哪裡來,需要做什麼類型的實驗。

這是一個很典型的美國資料,機率為0.92,遠遠高于0.3,但它夠不夠?用更嚴格的統計檢驗來看是不夠的,這是5年的資料,如果算T的話它到了3,從正常的角度來說它是可以接受的,但是實際是不夠的。

機器學習總的來說在Type I和Type II之間,我們希望尾巴越短越好,T越高越好,當T越高,就可能失去了很多機會。藍色曲線代表的是真實的,真正市場上可賺到的錢,以合法的方式可賺到的錢,最高也就是這個Sharpe率,标準越高這部分就失去了。這部分是真正的政策,但是它顯示不出來。我們要保證所有資料清洗得很幹淨,不希望這些資料被反反複複使用。要告知實驗的出發點是什麼;基于行為金融或某些制度的缺陷,要告知其經濟學理論和通過市場觀察的結論是什麼;不能反複使用,要告知實驗需采用哪些資料,實驗計劃進行次數,實驗特點。從長期的非高頻的角度來看,太高的Sharpe需重新審視。對樣本外資料進行檢驗的統計方法,是行業中最熱門的方法,如何設計各種檢驗方法,盡可能提升結論的可靠性研究,一直在持續進行。

講一下Alpha factory,這個模式很新。其典型代表是Spinoff,他是個白俄羅斯人,是Millenium的交易員,看上去就非常強勢。他太優秀了,想要自己幹,公司說不行,你還留在我這吧,我給你機會,現在他還是Millenium的大股東。這個模型怎麼樣,從資管的角度來看它規模很小,但是其很有代表性。它是個Alpha factory,在全世界招最好的學生,也在印度等一些欠發達國家招募,這些學生招來後在本地就有辦公室,給他一台筆記本就能幹活,他提供資料及各種回測的方式。這些學生或研究者在世界各個角落均可使用,我認為較低水準的Alpha信号都在他的資料庫中,他說将來要搜集到100萬的Alpha信号,他們抓取所有的信号,放到他的流水線上,這都是信号。他有一套方法能夠把信号變成政策,把政策變成組合,然後把組合變成産品,這就是整個的一條流水線。

他的成功有兩點。第一,他把世界上所有最好的頭腦進行整合,他的人力資源分布在世界各地,我們的學者使用成本很低,印度的更低,他們把所有好的想法都召集起來,這些想法是海量的,但品質并不高。等會兒我說背後的邏輯是什麼,這個邏輯和我們剛才的邏輯完全相反。他這樣做得很成功,最關鍵的是他需要有一個很好的風險控制能力,做到在背景識别這個信号是真是假,這是他的商業模式裡最秘密的部分,是不公開的。所有這些Alpha大家都知道,我們同學隻要有一個同學做了,那麼清華的所有工科生都會知道。

他的邏輯是什麼?他的邏輯就是主動管理的法則。我若想達到期望的投資回報,一方面可以改進預測的手段、提升預測精度,這就是所有的理論、實驗所要達到的目的;另一方面我不需要很高的IC,可以招很多人,做各種各樣的實驗。隻要每個人是獨立的,則做出來的東西就是獨立的,BR就增加,可以用廣度代替深度,這就是他的想法。如果在廣度上下了工夫,在深度上可以放棄一些。深度最典型的代表是巴菲特,他投幾個股票,一投就持股十幾年,他有他的特色,很多人做不到這一點。若方向正确,則隻需要擴大廣度,在全世界範圍内找人來做,在他的平台上就可以實作這一點,是以平台內建是非常重要的。

最後一個是我最不了解的,也是現在非常熱門的一個。阿裡、百度、騰訊都在這方面下工夫,他們有這樣的優勢。舉個例子,一個公司如果有衛星雲圖,能夠看到停車場上的停車情況,就能判斷這個月的車輛銷售額是多少,用各種各樣奇怪的大資料就能夠大概地在他的年報或季報出來之前,得到公司相關的預測,隻要在他之前就能預測出品質比較高的信号,那就可以戰勝市場。

這種資料非常多,比如社交媒體的資料、衛星雲圖的資料。在此引用Bridgewater CEO的話,它可以加速你的決策過程。但是如果大家隻看到幾個模型,最終要走到産品這個模式還有很長一段路要走。我很興奮,我能在這個時點、在這個領域裡有一些工作,我認為當産品是公衆産品時,其行業标準會更高,更加透明的标準會寫在CFA的章程裡。相對于人腦的計算能力,計算機做得更快,人要做的就是控制計算機做的事情,你告訴它要做什麼,在事後要告訴它結論是否正确。當然這個過程還在做研究,研究完成後也可以自動進行。人要做的永遠是那部分最難的工作,當它做完以後就可以把自動化交給機器。在市場上,賺錢越來越難。清華裡有很多搞機器學習的實驗室、教授對金融資料都特别感興趣,他們認為金融資料好像是一個另類,和其他資料都不一樣,這是他們的感受。我們大家都一起學習。

(本報告根據速記整理)