天天看點

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

6月24日下午,钛媒體和杉數科技主辦的2017 ai

大師論壇在京舉行,論壇邀請了五位算法優化、機器學習領域的頂尖教授、學者出席并發表學術演講。論壇上,五位科學家圍繞算法、資料、應用,結合各自的研究領域,暢談了現狀和未來的發展。紐約大學商學院助理教授陳溪參加此次論壇并發表題為“從機器學習到智能決策“的演講。

雷鋒網(公衆号:雷鋒網)了解到,陳溪博士目前是紐約大學商學院助理教授,carnegie

mellon 大學機器學習系博士,也曾跟随機器學習泰鬥berkeley教授michael i jordan

做了為期一年多的博士後研究。同時,陳溪博士拿過 google faculty research

award,在2017年還獲得了福布斯雜志全美 30 under 30

最有影響力的青年科學家稱号。陳溪博士的主要研究領域為:機器學習、高維統計和運籌學。 

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

在演講中,陳溪博士表示,機器學習是從資料出發,更關心的是預測的問題,或者說更好地去了解這個資料的模式。比如說深度學習,非常擅長對資料的模式進行識别,但是對于不确定的因素下的智能決策、邏輯上的推導,ai還是比較薄弱的。“決策是非常重要的,僅僅有預測是不夠的。要把兩者有效地結合起來。”

雷鋒網(公衆号:雷鋒網)在不更改原意的基礎上做了删減整理:

陳溪:非常感謝在禮拜六的下午來到這個現場,我給大家分享一下我對機器學習的了解,我會講到這個decision making,預測不是我們最終的目的,我們希望能通過機器學習最終幫助企業做出智能決策。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

我的經曆也是比較廣泛,我先在carnegie

mellon 大學的運籌學讀了碩士學位,後來我在carnegie mellon

university 攻讀計算機學院下機器學習的博士,後來在berkeley 計算機和統計系跟随michael i. jordan

做博士後。我的研究興趣非常廣泛,包括機器學習(尤其是線上資料的學習和決策決策問題, multi-armed

bandit)、大規模的高維資料統計推斷,另外在運籌營運的管理領域也做過一定的工作。這些方面看似是不相關的,但是其實呢,現在看起來是非常有聯系的,最根本的聯系是我們所有的學科都是用資料驅動的,并且最後都是要為資料服務的,要挖掘資料核心的價值并用以決策。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

而且我認為這三個領域結合起來才能對這個資料有一個更深更好的了解,并且做出有效的決策。

這個圖大家可能不陌生了,現在很多人都讨論大資料,有三個不同的特點。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

一個是量越來越大,從mb一直到pb,而且它的速度越來越快,以前是隔一段時間,現在這個real

time,給傳統的統計和機器學習提出很大的挑戰,傳統的資料是收集好,放在硬碟上進行一些挖掘,但是現在這個資料頁都是實時進來的,比如你在百度或者做一個搜尋,或者購買一個線上産品,資料就進入伺服器,是以資料是不斷地線上更新的,第三是資料的多樣化,以前都是比較簡單的,可以放到文本或者data

base,現在更多包括社交資料,手機的資料,視訊的資料,也都是沒有非常好的結構,資料多樣化的趨勢越來越明顯。

大家提出資料科學,這個圖是我們nyu yann le cun 教授機器學習課程用的第一張課件。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

就是說僅僅是相當于傳統的統計和計算有機結合起來,就産生了機器學習,但是光有這個機器學習是不夠的,光發明了這個算法,或者說你光有這個深度學習的結構,這并不是資料科學,要跟實際的問題結合起來,像剛才李建老師、王子卓老師講到的,把機器學習和定價問題結合起來,線上出行結合起來,才成為資料科學。這裡需要很多專業知識,比如哪些地方是交通高峰期,哪些地方人口密度大,這些應用需要把計算,統計,和實際具體問題結合起來才能産生價值。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

什麼是機器學習,首先是資料,然後是學習算法,然後我們需要模組化對資料的産生是有一定假設的,在機率模型和假設的基礎上建立算法,就可以預測資料的銷量,出行的時間,但是更重要的是我們可以通過預測去真正了解資料,比如說回報出來,這個模型到底适不适合這個資料。那麼機器學習一般會分為兩類,一個是有監督的學習,和沒有監督的學習,當然最近我們還有很多新的學習領域,像半監督學習,active

learning, 強化學習等等。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

監督學習的核心思想是非常簡單的,首先就是通過x對y進行預測,x是你淘寶或者京東以前曆史購物的資訊,這時候給你一個網頁預測你會不會買,或者說放一個廣告頁面在上面,你會不會點開這個廣告頁面。有好幾個不同的廣告,看看有什麼樣的機率你會點開這個廣告頁面,是點開還是沒有點開。然後我們是對這個function

class有一個假設,我們假設這個是屬于h,然後這個學習算法就拿進來,在這些training examples,通過learning

algorithm就得到這個g,但是這往往并不是真正的prediction function

f,但是我們希望找到一個h,使學習出來的g更加地接近f,當然我們需要有好的優化算法,因為你不可能窮盡h裡面所有的function。我們要有訓練樣本,到底買還是沒有買,根據曆史資料得到的,預測的值相當于老師告訴你的。是以叫有監督的學習。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

沒有監督的學習,舉個例子,就是把今天到場的人員進行分類,但是沒有絕對的标準,按照年齡進行的序列、性别進行的序列,按照到場的人員不同的行業進行聚類。根據不同的标準,到不同的聚類,這個時候叫沒有監督的學習,沒有一個絕對的标準,根據你不同的需求做出的聚類或者說價格。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

在機器學習未來20年的高速發展,大家多多少少看到這些詞彙,大家公認投票選出了10個最受歡迎算法,然後naive

bayes 分類器,然後是k-means 聚類算法,support vector

machine 分類器,在一個是線性回歸,還有一個logistic 回歸,神經網絡,随機森林。其實随機森林是非常強大的。比如說分類的話,随機森林比神經網絡有更好的可解釋性, 分類樹可以讓大家看到清楚的分類的過程。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

目前最火的機器學習的算法是深度學習。之是以這麼powerful,

一個重要的原因是我們有了new hardware,

gpu發現這個處理速度的快,各個之間的通訊非常便捷,比如說從一台機器到一台機器,從硬碟到硬碟的通訊非常緩慢,但是不同的gpu非常适合并行化,有了這個gpu才可以訓練非常大規模的deep

神經網絡,才導緻了算法革新。另外最近像ibm公司也提出 neuromorphic  chips,可能想突破這個馮諾易曼的這個體系。

這個機器學習還有一個很大的發展,就叫cloud

enabled。放在雲端,給各大企業提供一些接口,杉數科技也正在立這個方向,把很多相當于庫存定價方面的東西變成一個接口,這個接口不僅服務于大公司,還會服務于所有的中小型公司,當你有一個貨品需要定價的時候,也可以把你的資料交給這個機構。有新的資料進來很容易告訴你這個産品該給你多少錢,就慢慢變成更加廣泛的通用服務。

當然機器學習最近有很多成功的案例,比如說imagenet。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

這是ibm

watson,這比較早一些,當時jeopardy playing 是一個智力搶答的競賽,ibm的watson

能夠了解問題并在資料庫迅速找到答案,這裡可能要做一些邏輯的推理。比如說這個資料是“臨近北京的人口密集的地方是什麼”,因為有這個地理位置的資訊。這個是ibm

deepqa問答的總負責人,他說機器學習真正使得計算機變得更加聰明,使得計算機回答一些問題,并且在回答問題當中,他學習了這個問題的回答是錯誤還是正确的。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

這個大家也非常的熟悉。阿法狗,一開始戰勝了南韓的李世石,然後在圍棋上,相當于計算機超越了人類,但是大家對這個事情不必過于驚訝,硬體不斷發展,我覺得戰勝圍棋是必然的。圍棋看似複雜,其實規則比較簡單,你可以随時看到對方棋子的動态,比商業問題簡單的多。商業的決策可能有很多的資訊,并不像棋盤的黑白子,是你無法知道背後的原因的。其實星際争霸這樣的遊戲,可能比這個圍棋還要複雜。因為你不能完全知道對方的資訊,這對ai是一種挑戰。是以還有很多的問題需要我們解決。對于非常多的隐藏資訊,對于邏輯上的推導,ai還是非常薄弱的。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

機器學習廣泛地應用在商業當中,這裡是lukas

biewald 總結的一些商業世界裡面機器學習的應用。首先機器學習可以讓使用者産生的資料變得更加有價值,比如說pinterest,社交網絡的公司,會告訴你更有趣的是什麼。中國也有今日頭條,比如說yelp類似于美國的大衆點評,比如說吃了飯通過資料傳上去,哪些好吃的,使得使用者的資訊傳上去更有價值。另外機器學習可以讓你更快速地找到産品。然後機器學習可以跟你有更多的互動,以前打電話有一個接線員,現在打電話航空訂票,這個航班延誤就自動轉到比如說改簽的人那裡,否則以前要換好幾個接線員才可以改簽。另外,機器學習可以更好地了解使用者的行為,比如預測你是否喜歡這個産品,買東西是理智的還是剁手黨。

我覺得機器學習是從資料出發,更多關心的也就是預測的問題,或者說更好地去了解資料的模式,比如說深度學習,非常擅長對資料的模式進行識别,但是真正對于這個決策,我們做的還不夠。這個時候其實更需要把機器學習跟運籌結合起來,這樣通過資料到決策,因為在商業當中僅僅有資料預測是不夠的。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

是以第二部分是講從機器學習到決策。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

實際上我們有很多的商業問題都是需要決策的,管理中我們需要決策庫存,需要決策在什麼地方建廠,需要決定比如說滴滴的車、快遞、外賣要走哪一條路線,如何定價,如何決定在推薦系統裡,我們給你推薦什麼樣的産品,我們在金融裡我們要怎麼做一個financial

product portfolio。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

operations

research/management是以就提出一個要求,機器學習更在于資料和預測,而營運是用模型來進行決策。是以我們要有效地結合起來一起。我舉一個例子,你需要做一個随機的模型把你的價格跟使用者買的機率聯系起來。一般來講,我們的機率模型會認為價格高使用者買的機率低一些,價格低使用者買的機率高一些。當然有的時候并不這樣,比如說蘋果手機,大家在開始的時候覺得這個是身份的象征,即便價格很高需求量還是很大,不同的産品有不同的模型,把價格跟使用者需求建立起來,當價格和需求知道之後,就可以決定我怎麼能夠更好地進行定價。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

這是在去年的informs大會上key note speak 的一頁slides,用的一個gartner analytics的圖,從資料的描述,診斷,發現,預測,到最後要做決策,其實好的預測并不見得可以發揮最好的作用,決策才是落地的關鍵。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

我舉兩個例子,這是2016年informs

plenary

talk裡面的,比如說未來1年,機器學習我要預測未來的股票,但是在運籌學裡面我需要通過資訊決定最後我到底要不要買這個股票,什麼時候買什麼時候賣,這是決策的問題。光有漲跌的預測,80%的機率會漲,那麼我到底要買進多少?這是非常複雜的決策問題。

這是選址的問題,比如說你有這個風向的資料,大氣的資料,霧霾的資料,要預測,比如說明天的霧霾是怎麼樣的。但是可能有更好的決策問題,就是說,我要在什麼地方建立風力發電站,這樣我才能夠把能源更好地利用,就是說預測問題通過這兩個小例子可以給大家說明,決策是非常重要的,僅僅有預測是不夠的。

在2014年的調查中畢馬威說,有95%的cio和cfo認為并沒有把資料和決策的橋梁搭建好。我希望通過一個模型給大家講一個有趣的例子,使大家了解一下,如何把學習和決策有機地結合起來。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

這個算法起源于賭博,當然賭博在中國是違法的。我講一個數學的模型,有很多的老虎機,但是每個老虎機都不一樣,每拉一個老虎機就會得到一定的報酬,這個錢是随機的,有一個上下的幅度,作為想賭博的人,這麼多的老虎機,我要通過測試找到最好的老虎機,得到最多的錢。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

這裡面有很重要的問題。一開始給你的老虎機是陌生的,是以你需要勘探,通過試一試每一個老虎機得到更多的資訊,另外一個是開發,當我了解到這個老虎機效果不錯的時候,我就需要多拉這個老虎機,使得它可以得到更大的收益,那麼現實生活中問題更加複雜,每個老虎機并不是一成不變的。給你的錢随着時間變化,這樣我們就不停在勘探和開發中來進行轉換。

是以勘探就是要我們做一些随機的動作,使得我們知道每個老虎機是好還是不好,那麼開發就是當我知道這個東西很好,我就要不斷地利用,這兩者是缺一不可,因為你沒有足夠的勘探,選一個老虎機不停地去開發,如果你選的其實是不好的老虎機,你的效益會非常差。

是以一定要有長遠的目标,可能會犧牲短期的利益——你随機的測試會犧牲短期的利益,但是會換取長期的利益。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

比如說現在有兩個老虎機,玩了幾次,第一次拉5塊錢,第二次拉0塊錢,然後根據這樣的順序,我就應該去拉這個老虎機2,但是實際上不是這樣的,因為每次拉都給你5塊錢,但是第二個老虎機呢,其實可能有四分之一的時間給你100塊錢,剩下的給你0塊錢,如果多拉的話就會關注到這100塊錢,因為沒有足夠的拉第一個老虎機,以為第二老虎機是最好的,這就是勘探嚴重不足的例子,是以老虎機的例子非常典型。有些時候,這個使用者并是我想主要重點開發的使用者,但是我沒有足夠的勘探,那麼這樣就可能損失了重要的資訊,其實多探測幾次可能更有價值。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?
紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?
紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?
紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

這是葉老師和王子卓的一篇對于單産品定價的重要文章,我們一邊學習然後一邊做的,這邊商家我們要給一個最好的定價系統,得到他們的收入,是以需要了解價格和使用者購買機率之間的關系。勘探是我們要試更多的價格,想知道價格在使用者上的反應,開發是我們知道使用者對不同的價格進行選擇的時候,我們就要在這個使用者開發上下功夫。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

 crowdsourcing衆包最近非常火,能夠用很少的錢得到大量有标簽的資料。我在這方面做了很多工作,上面列舉兩篇發在機器學習最好的期刊的文章。和我microsoft實習導師dengyong

zhou一起完成的。第一篇也是和我的博士後導師michael i. jordan

一起合作的。舉個簡單的例子,把這些圖檔配置設定給每一個人,然後每個人坐在這個電腦前,就告訴你這個東西是正1還是負1,不同的人對圖檔的反應是不一樣的,兩個人說正1,然後一個負1,然後取majority

voting. 因為對于一個新人,需要給他圖檔來測量他的能力。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?
紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?
紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

 我們要知道每個人的資訊能力的時候,我們要把圖檔給最合适的工作者,當一個圖檔很難的時候我們需要決策到底要分給多少人。

這有兩篇在機器學習最好的會議上發表的文章,其中第一篇文章也是我跟李建老師還有周源老師研究的,也就是我們想知道最好的老虎機是哪一個或者哪幾個,或者我們想通過最少的圖檔知道哪幾個工作者擅長處理這些圖檔。這是一個排序的問題。另一個例子是,假設你有兩個廣告,你要知道哪個廣告的設計好,是最吸引使用者的,怎麼辦?随機測試這些使用者,通過最少的測試來知道哪一種廣告的設計是最好的,找到那個k-arms,每個arms對應一個廣告,然後我們用算法不斷的詢問,把好的留下來。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?
紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?
紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

這個可以有很多的應用,可以應用在醫藥、系統、廣告、拍賣,還有金融科技裡。 

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

這是一個和mit david教授以及他的學生合作的例子,他也是我非常尊敬的mit的大師,近幾年在營運管理和機器學習的交叉方向作了很多傑出的貢獻。他給我講過一個公司叫做stitch

fix,每個月甚至每兩個禮拜,定期給一個女士寄一個盒子,裡面有5件衣服,選擇一件留下來,把剩下的退回去,選中的那一件就要收錢。5件衣服都不喜歡,要退回去時會象征性地收一點郵費。那麼怎麼寄這些衣服?我們會有搭配。比如使用者的年齡,是男性還是女性,是職場還是學生。我們以前推薦的衣服,為觀察他買哪些衣服提供很多的資訊。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

比如新注冊的會員,我們有這樣的資訊來決定到底給他推薦什麼樣的産品。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

這個其實跟以前所謂的使用者簡單的聚類相比有非常大的優勢。因為以前的聚類我們是通過使用者的性别。對于新使用者,可能并不适合某一類,或者說使用者的資訊非常複雜,是以,機器學習的觀點引入高維的環境變量,就可以觀測到連續的使用者變化,相當于使用者的種類無窮多種。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

然後我們通過向使用者推薦産品,使得收益最大化。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

我們可以建立一個使用者的資訊庫,向他推薦來觀察他的決策,這是靜态選擇的過程,最重要的是learning while -doing。

最後我做一個簡單的總結。

首先我想說,商業是大量聚集在決策上的,是以傳統的機器學習一定是不夠的。我們一定要關注決策,也是杉數科技主要的理念——從資料到決策。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

真正的商業問題是極其複雜的,光有機器學習是不夠的,我們要把機器學習還有統計結合起來才會有新的資料産生。

紐約大學陳溪解析機器學習和智能決策:從一個高峰到另一個高峰還有多遠?

機器學習在圖像處理、文本處理方面有了很大的進步。商業大規模的公開資料集還是非常少的,以後有更多資料集、更多研究人員進入這個領域,這樣我們就可以得到更多的知識,大大地推動商業化下的機器學習或者決策技術的發展,謝謝大家!

本文作者:李雨晨

繼續閱讀