天天看點

【幹貨】牛津博士講大資料和量化金融

演講全文:

很高興來到這裡,我是第二次參加這種會議了。我這次是以第二個身份來的,就是牛津大學NIE金融大資料實驗室,代表實驗室過來,今天主要分享一下我們實驗室做的關于量化金融的思考跟案例。

首先簡單介紹一下我們的大資料NIE實驗室,是一個全新的實驗室,是2013年11月正式成立的,我們實驗室的定位是世界主要大學的第一個以金融大資料為研究方向的實驗室。

我們是交叉學科的實驗室,目的是把資料科學運用到金融領域,包括很多學科交叉在一起。因為我們的接口是牛津大學金融數學系,這個系架構上有金融、計算機、統計,我們緻力于做一個産學研交流合作的平台。

【幹貨】牛津博士講大資料和量化金融

我們主要研究的方向:包括行為金融學、第二個是機械學習在金融領域的應用。

第三是一些金融的模型,特别基于資料的金融模型,資料來源主要是結構和非結構化資料。

第四就是金融決策,就是我們說的情感分析,怎麼用網際網路包括社交媒體大資料幫助我們做一些金融決策。最後就是風險控制,也是我們常說的網際網路金融怎麼樣能夠把風險控制下來。

【幹貨】牛津博士講大資料和量化金融

我們主要的提出的問題是幾個挑戰:

金融大資料對行業帶來的挑戰是什麼?

大資料具體在金融領域的主要應用是什麼?要真正對行業起到推進作用。

金融更多是關注未來的東西,怎麼樣能夠更好預測未來的東西,降低風險?

最後是決策,怎麼設計科學合适的機制,基于大資料機制,最終通過人或者機器進行自動化的決策

回到我們的主題,金融行業首先核心它是一個決策的機制。一個交易員,自己買股票每天要面對很多決策,是買這個股票還是賣,是買這個基金還是賣這個基金,買是什麼時候買,賣是什麼時候賣,買還是賣是一個問題,而且這個問題很難找到答案,而且這個問題還是跟時間相關,就是你的時間點要拿捏非常好,如果買得早或賣得早有可能對你金融的盈利模式産生影響。

是以最終歸根到底不管是交易員的交易還是機器交易,最終金融數學,包括機器交易,核心是一個決策的問題。

一提到決策的問題千百年來有很多決策都是通過人來進行的,這位是諾貝爾經濟學獎的得主,他是心理學家拿到經濟學獎,他有一個理論就是每個人都有趨利避害的心理,對我有利的東西永遠願意接受,對我有害的東西我永遠不太容易接受。

這個在學術包括心理學有很多現成的案例,最簡單的比方,中國的很多股民都是普通的散戶,包括我自己的母親也是,她買了股票以後股票一跌就不願意賣了,就放在那裡了,股票繼續跌,你現在賣了也是在賺錢,你賣得早可能虧得更少,但是她的趨利避害的心理導緻她股票一掉就放在那不管了,相反股票一漲她也不願意賣,覺得會漲更好。

是以無論是很資深的交易,還是散戶,每個人與生俱來都有趨利避害的心理,他永遠希望看到好的事情發生,不好的事情永遠不願意看到。

是以這就導緻我們所說的機器交易的發展,因為機器是沒有感情的,你跟機器交易,一百塊錢和一個億對機器來說隻是一個數字,而且機器不會受情感的影響,也不會受外界環境的影響。

是以在西方,特别是華爾街産生一個新的工業就叫機器交易,或者說叫高頻交易,這是一個簡單的流程。

高頻交易的曆史簡單介紹一下,人類第一個股票交易所是在阿姆斯特丹,那時候資訊不發達,通過信鴿傳遞資訊,進行套利交易。

1983年用了三千萬元投資發明了曆史上第一個實時的市場資料電腦系統,可以通過這個系統進行金融的計算,是以到今天彭博社在這個領域還是很領先的,在歐美很多的交易員還是非常熟悉彭博社提供的終端。

在1996年美國的證監會通過立法允許了這種電子交易,最新的一個數字是美國華爾街時報有一個統計,說現在全世界在西方的金融市場70%的交易都是通過機器進行完成的。

【幹貨】牛津博士講大資料和量化金融

這位是我們的一個前輩,大家知道叫西蒙斯,他建立的一個公司叫文藝複興,他前身是一個數學家,MIT畢業,然後去美國國防部的機構研究密碼,後來跟上司不愉快,就回到美國的大學任數學系主任,做了一段時間覺得沒有意思就進入了金融市場,他的公司叫文藝複興公司。就是全世界做量化投資做得最好的,而且它的平均業績每年可以達到30%以上的市盈率,它的基金的市盈率是遠遠超過像巴菲特他們的基金的。

他的基金成功的唯一秘訣他是不會跟别人講的,但是他有一個案例跟大家分享過,他的基金就是通過機器交易,沒有任何人的參與,他在華爾街雇了很多高端的理工科畢業生,進行大量計算,通過模型交易,他說人不可信,隻有通過機器交易才可以。

【幹貨】牛津博士講大資料和量化金融

這是高頻交易的顯示度,不到一分鐘做了1.8萬次交易,頻率非常高。高頻交易的行業有過一個萎縮的情況,因為高頻交易行業進入了一個瓶頸,這個瓶頸就是随着進入這個行業的人越來越多,門檻會提得很高,最後實際很多算法和模型都是基本上公開或者半公開狀态,最後拼的是你的硬體和速度,高頻交易是和時間賽跑,你的系統的速度怎麼樣,運算速度怎麼樣,包括寬帶接口速度怎麼樣可能決定你最後的盈利。

最後大家很多公司都是花了很大的錢投資于硬體和網絡,實際是以速度的內插補點賺錢,最終導緻很多小的對沖基金進行大量的投資還是競争不過大基金,最後就倒閉了。

是以對沖,整個高頻交易行業進入了一個怪圈,有點像當時美國跟俄羅斯的軍備競賽的形式,最後大家花了很多錢投資硬體,通過速度領先于同行業對手,通過速度內插補點賺錢,是以這個也就是一個高頻交易從2013年開始有點慢慢在萎縮的部分的原因。

【幹貨】牛津博士講大資料和量化金融

我們這裡講主要說高頻交易現在既然有瓶頸,我們能不能跳出金融的量化的模式,從另外一個角度看,從大資料角度看能不能找到一個新的途徑。

是以我們就說從高頻交易到大資料,大資料現在實際對整個行業,包括金融交易帶來一個新的機遇,就是現在我們可以擷取的資料遠遠不是以前的金融的交易,包括買賣的資訊。我們可以跳出這個行業,在網際網路的社交的領域能夠看到有沒有其他的可能性。

【幹貨】牛津博士講大資料和量化金融
【幹貨】牛津博士講大資料和量化金融

這是一個簡單的例子,在一個銀行釋出的報告,提出在谷歌的搜尋引擎裡,它可以通過搜尋房地産中介關健詞流量的變化,可以準确預測英國房價的變化,兩者有很高的關聯性。

基于這個理念也是我的一個朋友,他原來是波士頓大學,現在在英國華威大學,他提出通過谷歌搜尋引擎做交易的一個模型,大家可以看到下面是标普500的走勢,可以通過不同的關健詞,上面是谷歌的關健詞的流量變化,可以看到雷曼兄弟關鍵詞大幅變化的時候,标普500有一個下跌的走勢,因為當時是雷曼兄弟破産。

這樣的話就給大家一個很直覺的印象,就是有可能搜尋量的變化可能會跟股指變化會有很強的相關性。

【幹貨】牛津博士講大資料和量化金融
【幹貨】牛津博士講大資料和量化金融

這個就是我的同僚托馬斯提出的一個模型,通過谷歌的關健詞,就是負債務變化,通過谷歌搜尋會給你一個流量。

這樣的話黑線就是美國的道瓊斯指數的變化,紅色的是負債流量的變化,可以看到紅色的流量進行大幅度的增加的時候,實際上随之相應的是道瓊斯指數也會産生劇烈的變化。

基于這個理論可以提出基于谷歌關鍵詞的模型,這個模型非常簡單,就是如果這個關健詞在這個星期的流量的變化是降低的時候就可以買股指期貨,如果關鍵詞在升高的時候就可以賣股指期貨。

基于這個模型最後可以分析它總共的市盈率,大家可以看到這個藍色的都是基于谷歌交易的模型市盈率,從2004年持有到2011年不停地通過每周的交易,最終可以達到300%左右的市盈率。

如果是用紅色的話,買了之後放在那裡隻有16%的市盈率,是以說網絡上的大資料的模型是遠遠可以跑赢的。

【幹貨】牛津博士講大資料和量化金融

這個交易模型最關鍵就是你怎麼找到所對應的關健詞,能夠跟相應的金融市場或指數波動有很好的吻合度,是以最後設了幾百個關健詞,然後跟金融市場的波動和吻合性做了排名,最終發現跟負債相關的關健詞跟金融市場吻合度最高,它的市盈率也是最高的。

【幹貨】牛津博士講大資料和量化金融

同時我們說如果谷歌搜尋引擎可以用來交易的話,那麼其他的網際網路資料能不能做交易呢?這是用相同的交易模型,隻不過用不同的資料,就是維基百科的資料進行交易,大家可以看到藍色的收益分布是遠遠高于平均的基礎水準的,大概能達到1左右,這樣的話就從某種理論上證明雖然它不如谷歌的收益率這麼高,但也是正的,是以通過維基百科的資料進行交易也有可能獲利。

【幹貨】牛津博士講大資料和量化金融

基于以上兩個模型,這是我的一個學生,這樣的話我們能不能把這個工作做得更細?我們就把維基百科三千個上市公司的所有的浏覽量取得以後,從過去的浏覽量分析,發現裡面很多大的公司尤其在維基百科上浏覽量非常大的公司,比如蘋果、谷歌這種非常有名的公司,它的市值其實遠遠被高估了,我們發現三千多個股票裡有一些小公司浏覽量很低,但它的市值遠遠被低估了。

通過這個模型我們可以把三千個公司劃分為五個種類,浏覽量高、浏覽量适中,還有沒有浏覽量,還有完全沒有網頁的,還有浏覽量低的。然後設計一個套利模型,就可以賣浏覽量高的公司,因為它的市值被高股了,然後買浏覽量比較低的公司,按這個模型最終我們的市盈率也可以達到200%左右,這也是一個很好的機會。

【幹貨】牛津博士講大資料和量化金融
【幹貨】牛津博士講大資料和量化金融

剛才分享了一些怎麼用網際網路和大資料進行交易,下面就是另外一個主題了。就是在整個大資料領域非常熱的,就是怎麼把機器學習用到金融裡面。

這個是一個非常簡單的機器學習的模型,我們叫機動向量機,主要做分類的問題,怎麼樣把圓點跟方框區分開來,它的理論就是距離最大化,找一個數量模型可以讓點之間的距離最大化。

【幹貨】牛津博士講大資料和量化金融

最基礎的像SVI模型,拿一個輸入,很多的資料訓練這個模型,訓練到一定程度之後再拿一部分沒有被訓練的模型去做預測,最終達到輸出。

【幹貨】牛津博士講大資料和量化金融

我們所提出的,因為大家知道,單一的模型很簡單,對很多非常複雜的金融現象可能不會完全被解釋,我們整合很多單一的模型,最後達到整合的機器學習和目的。

是以我們把很複雜的問題,比如你要預測明年的金融,可以把它劃分成非常小的問題,這些小的問題可能跟他的指數相關,我們可以看他的相對的指數,可以看他的交易額,然後把一個大的問題劃分成小的時候,然後把小的問題輸入到不同的機器模型做分析,然後做分析之後這個機器模型就會給我們一個分類的問題,最終我們通過最終每個機器模型小的分類整合起來,最終達到全局的分類,這樣就是我們所需要的結果。

這個模型的好處是不光可以克服單一模型的缺點,可以把很多模型整合在一起,把他們的優勢也可以整合在一起。

【幹貨】牛津博士講大資料和量化金融

這個是剛才給大家提到的SVI的模型,這個紫色和藍色的線是我整合的模型的誤判率低于單一的模型,模型的平均的誤判率是遠遠低于單一的模型,這樣從理論上證明把更多模型整合在一起有這個可能性可以降低誤判率,進而提高決策精準度。

【幹貨】牛津博士講大資料和量化金融

這個是我們用外彙交易的資料,通過網際網路的情感分析的資料,通過機械學習可以掌握外彙整編的信号,通過信号輸入機器,可以進行買和賣的最終的決策,現在這個模型我們還是在開發之中。

第三個就是想跟大家分享一下我們的案例,就是網際網路的一些情感分析,網際網路包括社交媒體有大量情感,大家在裡面有大量讨論,讨論之後有很多情感引路。比如大家看跌還是看高這個股票,是看高還是看低這個行情?其實有很多情感在裡面。另外一個重要因素怎麼把情感從現有的網際網路分析出來,看它跟金融市場行情的走勢聯系。

【幹貨】牛津博士講大資料和量化金融
【幹貨】牛津博士講大資料和量化金融

這個是一個例子,現在國内也非常多,很多人通過操縱媒體釋出虛假消息,對某支股票進行控制,通過這個管道進行獲利。

這是在2013年的時候,在美國的美聯社的推特網的帳号被黑客攻擊的時候,釋出一條消息,白宮有兩次爆炸,奧巴馬受傷了,釋出消息的時間點應聲就下落了一百多個點,一個虛假消息導緻這麼大的波動,這一個消息就導緻上百億就蒸發了,是以媒體對金融市場有非常大的影響。

【幹貨】牛津博士講大資料和量化金融

這是彭博社的網站,推特網被攻擊之後,黑客做了一個釣魚網站,就是跟彭博社的網站一模一樣,所有的内容都一模一樣,隻不過裡面有一條虛假消息,就是說有一個公司要通過300億美金收購推特網,結果導緻推特網當天就漲了8%,其實這是釣魚網站,不是彭博社的官方網站,但是設定跟彭博社一模一樣,隻是網址有一點差别。這樣一個虛假消息很快可以推動金融市場的波動。

【幹貨】牛津博士講大資料和量化金融

是以我們這麼多情感有真有假,怎麼把這些情感拿出來機器做分析之後通過它做一些交易,或者是進行一些長期的預判,能夠幫助我們決策。這是美國一個基金他們的資料,當時開會他們分享給我的,他們希望通過西方媒體的情感分析,分析全球所有的股市包括金融市場的走勢。

這是他們對所有的中國的去年10月份到今年6月份網上情感的分析,一個紅色的是一個負面的看法,綠色是一個正面的看法,這樣大家可以看到基本上整個媒體對股市比較看多的時候其實市場是在往上走的。

最有意思是今年6月份的股災實際上在西方6月初已經在唱空了,通過他們機器模型的分析有很強的做空的信号了,是以6月的股市大跌也是他們理論上通過這個情感可以部分預測出來的。

【幹貨】牛津博士講大資料和量化金融

最後就是我們跟香港的金融資料有限公司合作的一個項目,他們開發了一系列外彙交易,包括股指期貨,包括手機軟體,通過手機軟體産生了大量的交易資料,我們有一個理念,一個好的交易員肯定有一個好的交易習慣,這些交易習慣怎麼表示出來?就是通過這些資料都可以反映出來。

是以我們幫忙他們怎麼通過大量手機平台産生資料,可以找到有潛質的交易員,有的交易員很有潛質自己都不知道。是以也是一個金融的人才的挖掘跟孵化和培養的計劃。

謝謝大家!

原文釋出時間為:2017-03-10

本文來自雲栖社群合作夥伴“資料派THU”,了解相關資訊可以關注“資料派THU”微信公衆号

繼續閱讀