天天看點

“機器學習就是現代統計學”

數學最重要的魅力在于幫助我們提出解決問題的思路或途徑。

而機器學習在一定程度上正是數學和工程的完美結合,畢竟用數學裡面的機率論、随機分析等工具研究AI早已不是什麼新鮮事情。例如機器學習的四個基本原則性的問題,即泛化性、穩定性、可計算性和可解釋性就可以用數學工程手段來解決。

“機器學習就是現代統計學”

在近期的一次學術報告中,北京⼤學的張志華教授對機器學習和數學工程的内在關系進行了闡述。在報告中,他提到:統計為求解問題提供了資料驅動的模組化途徑;機率論、随機分析、微分方程、微分流形等工具可以引入來研究 AI 的數學機理等等。

除此之外,張志華教授還回顧了機器學習發展的⼏個重要階段,以及重點強調機器學習和人工智能之間并不能畫等号,畢竟機器學習實際上是研究算法的學科,而人工智能旨在模拟人的思維和行為。

在回答現場觀衆問題的時候,他也提到機器學習就是統計學的一個分支,機器學習比統計學更接地氣。

機器學習發展現狀的認識

機器學習與人工智能有着本質上的不同,前者的重點不在模拟人的思維和行為,主要是想通過經驗和互動的方式改善性能,是基于規則的學習。機器學習實際上是研究算法的學科,算法是基于資料型算法,然後回報到資料中去。    可以簡單地把機器學習的過程看作這樣一個思路,然後可以基于此看看機器學習發展的曆程:

傳統方法:基于規則學習

“機器學習就是現代統計學”

第一個曆程是基于規則的學習,它的目的就是為了建立規則,有規則它就可以做預測。但是重點不是怎麼形成規則,而是資料到表示,即通過認知的手段,把人對資料的認識過程,用計算機記錄下來,進而成一種形式化的方式,自然而然就有一種規則和邏輯的方式去做預測。它主要代表有兩個,一個是專家系統,包括知識庫和推理機,其中重點就是知識庫。另外一個是句法模式識别,模式識别的目的也是怎麼樣把一個對象通過一種形式化的方式表示出來。

“機器學習就是現代統計學”

但這一階段也暴露出一些問題,其一便是基于規則學習的方法雖然對于淺層推理比較有效,但遇上深層推理需求,如果形成規則過多,在其中搜尋就容易出現“維數災難”問題。

為了解決問題,學界提出用一個強大的非線性學習模型來弱化資料到表示過程的作用,基于這樣的理論,機器學習發展至第二個階段。

統計機器學習黃金發展的十年

“機器學習就是現代統計學”

第二階段是90年代中期到2005年左右十年的時間。在這一階段為了解決維數災難,出現了一個數學理論:即将基于規則的方式,換成一個非線性模型,或者用計算的手段運作模型,然後反過來可以弱化資料到表示的過程。

這一階段的神經網絡(80 年代就已經出現神經網絡模型)則進入了相對比較低落的時期,表現平平,發展遇冷。主要原因在當時的機器學習方法比神經網絡要更為簡單,性能也要更好,自然而然地就取代了神經網絡。

但随着統計方法發展到一定階段,大家發現“資料到表示”這件事情還是繞不過去。而應對這一問題的一個簡單的思路就是通過學習的途徑來求解表示問題,進而弱化研究者對于領域背景知識高度掌握的要求,也就是通過一個自動化的方式來解決這一問題。

基于深度表示的學習

“機器學習就是現代統計學”

大模型+大資料+大計算使得這種思路變得可行。機器學習也進入了第三階段。AlexNet 網絡的提出為問題帶來了突破性進展,很多做計算機視覺的人在網絡方面不停跟進,這些發展主要是基于視覺識别的。

其後在機器翻譯、自然語言處理的方向,自然而然也想到深度學習既然可以解決視覺問題,當然就可以把深度學習的方法拿到機器學習上來,是以現在在機器學習裡面它的主要的模型也是基于深度學習。雖然模型可能不是卷積神經網絡,但是核心仍包含LSTM這類算法。但是不管怎麼樣,相對于機器學習在視覺識别上的應用,其在自然語言處理上的效果或者它的作用遠遠沒有那麼好。

在上述時期,用深度學習的目的還不是為了表示,而是為了非線性的拟合。在自然語言處理領域,個人了解目前為止還沒有找到一種非常有效的,像卷積神經網絡一樣有效的處理圖像的網絡,是以導緻自然語言處理效果沒有像處理圖像那麼強大。

這整個過程,我們都知道是在一個有監督的架構裡去做的,本質上就是把資料到表示用一個模型和計算的方式來處理。而表示到預測、決策也是通過模型計算的,整個從資料到預測的過程可以看作是端到端的優化學習過程。

深度學習目前現狀:無監督問題突出

深度學習發展到現在,主要講是有監督的學習。但是現在很多問題是無監督的,就是無監督的問題遠遠比有監督的問題要多,而且要複雜。那麼一個簡單的思想就是要把無監督的問題轉換成與有監督類似的學習過程。比如有一個優化的過程,我們想用機器學習的方法來解決,在統計裡面,現在假設X要生成Y,那麼如果X是連續的,可以假設X是符合高斯分布的。如果X來自高斯假設很強,但是可以說X是來自什麼?是一個高斯混合體。如果X是一個連續的向量,那它總是可以用一個高斯混合體去逼近它,這是沒有任何問題的。

但是時候發現X是一個抽象的數學意識,并沒有具體的實體意義,那麼自然神經網絡這些技術可以對具體圖像進行處理,對語言進行處理,但能否對數學意義上的X去進行處理呢? 現在發展比如有一個生成對抗網絡,它就是解決這樣的問題。它不僅可以處理一個抽象數學意義上的X,還可以生成我們從未制造過的圖像或者語言。它的核心算法是通過多個神經網絡互相博弈來進行非監督學習。

強化學習目前的複興是因為深度學習

另一個發展方向是強化學習,強化學習是什麼呢?它利用規則與環境互動或者獎賞,然後形成一個學習優化問題。

對于強化學習,不是最近才發明出來的。其主要的數學手段是馬爾可夫決策過程。它通過馬爾可夫決策過程去描述問題,描述問題之後要去解問題,發現問題最優解,最後把它定成貝爾曼方程。我們去求解貝爾曼方程的時候發現其可以用不動點定理來描述。那麼有了不動點定理支撐,現在主要是有兩個思路,第一個思路是基于Value,也就是用Value疊代找到最優值。另外一種就是Policy疊代,因為本質上不是找Value,是找Policy,是以就直接在Policy方面去做疊代。

現在很多實際問題實際上假設環境是未知的,也就是說對卷積機率是不會知道的。這時候發展就是一個所謂的Q-Learning,實際上Q-Learning定義了一個新的函數叫Q函數。那麼在Q-Learning基礎上,就發展出來深度Q網絡,目前現在主要做的比如像Policy的梯度方法,這是強化學習或者深度強化學習目前發展的一個主要結點。

“機器學習就是現代統計學”

機器學習的技術路線

機器學習有三個問題。一個是有監督、無監督和強化學習。原來認為機器學習是統計的分支,現在認為機器學習就是現代統計學。機器學習和統計學有各種微妙的關系,比如機器學習是分類問題,而統計是回歸問題,分類和回歸其實也沒有太本質的差別。

第二,機器學習往往會形成優化問題。剛才說要形成優化過程,它跟其他的優化理論是什麼差別?一個優化理論的學者,可能更純粹就關注找到最優值。但是對于機器學習的學者來說,最重要的可能是要找到預測資料。

現在看來,現代的機器學習它主要成功就在于表示,就是深度學習是一個表示,它不是單純的是一個非線性模型,而主要是一個非線性的表示。當然提到機器學習,我們知道它的另一個重要目的是預測,而預測是通過模型得出的。

但是深度學習也遇到很多挑戰,第一個是需要大量的資料。大家網絡是非常多,是以往往導緻過參數化的問題。另外就是在做表述是基于多層的表述,是以問題是高度的非凸化的。

另外,現在機器學習要關注的重點問題有四個方面。第一個是可預測性、第二個可計算性、第三個是穩定性、第四個就是可解釋性。可能現在認為主要重點就是在穩定性和泛化性方面,因為覺得神經網絡可以沒有可解釋性。

最後,張志華教授就機器學習和數學工程之間的關系給出了這樣的闡述:

統計為求解問題提供了資料驅動的模組化途徑;

機率論、随機分析、微分方程、微分流形等工具可以引入來研究 AI 的數學機理;

無論從統計角度還是從數學角度來研究 AI,其實際性能最後都要通過計算呈現出來:

1.數值分析,即求解連續數學問題的算法;

2.離散算法,即求解離散結構問題的算法;

3.大規模計算架構

— — — — — — E N D — — — — — —

往期文章:

Numpy處理tick級别資料技巧

真正賺錢的期權政策曲線是這樣的

多品種曆史波動率計算

如何實作全市場自動盯盤

AI是怎樣看懂研報的

真格量化政策debug秘籍

真格量化對接實盤交易

常見高頻交易政策簡介

如何用撤單函數改進套利成交

Deque提高處理隊列效率

政策程式設計選Python還是C++

如何用Python繼承機制節約代碼量

十大機器學習算法

如何調用政策附件資料

如何使用智能單

如何掃描全市場跨月價差

如何篩選政策最适合的品種

活用訂單類型規避頻繁撤單風險

真格量化回測撮合機制簡介

如何調用外部資料

如何處理回測與實盤差别

如何利用趨勢必然終結獲利

常見量化政策介紹

期權交易“七宗罪”

波動率交易介紹

推高波動率的因素

波動率的預測之道

真格量化可通路:

https://quant.pobo.net.cn

“機器學習就是現代統計學”

真格量化微信公衆号,長按關注:

“機器學習就是現代統計學”

遇到了技術問題?歡迎加入真格量化Python技術交流QQ群  726895887

“機器學習就是現代統計學”