天天看點

第四範式戴文淵:大資料不再是AI發展瓶頸,未來企業赢在“次元” |2016 CAIIC

今天大家讨論比較多的人工智能,包括深度學習等這些技術為什麼會對我們有幫助?究竟背後在什麼地方能夠去改變這個世界?在今天于深圳舉辦的中國人工智能産業大會上,人工智能公司第四範式創始人兼ceo戴文淵就其專業研究以及産業實踐對這些問題做了闡述。雷鋒網也與其進行了訪談。

第四範式是一家利用機器學習、遷移學習等人工智能技術進行大資料價值挖掘的公司,其ceo戴文淵被業内認為是遷移學習全球領軍學者。據雷鋒網(公衆号:雷鋒網)了解,戴文淵2005年曾獲得acm國際大學生程式設計競賽世界總冠軍。他2009-2013年就職于百度,是百度廣告變現算法的核心負責人,也是百度鳳巢的總架構師,是最年輕的百度進階科學家,2012年獲得百度最高獎(百萬美元獎)。在其後的2013-2014年,戴文淵就職華為,任華為諾亞方舟實驗室主任科學家。

戴文淵表示,大資料不再是ai發展瓶頸,未來企業的機遇在于赢在“次元”。如果企業内部用人工智能知道企業經營,最重要的就是要去做高vc維模型,我們要不斷地提高模型的次元,使得training loss和test loss不斷的降低。vc次元是什麼?大腦的次元大概就是大腦腦細胞的個數,是以可以把vc次元了解為腦細胞次元。而機器的次元也需要更多的腦細胞,才能更聰明,才能學習更多的知識。機器的誤差随着模型次元的提升而降低。

第四範式戴文淵:大資料不再是AI發展瓶頸,未來企業赢在“次元” |2016 CAIIC

vc次元是什麼東西?學術一點來說是“vapnik-chervonenkis dimension”,一個由vapnik和chervonenkis于1960年代至1990年代建立的統計學習理論,它反映了函數集的學習能力——vc維越大則模型或函數越複雜,學習能力就越強。

第四範式戴文淵:大資料不再是AI發展瓶頸,未來企業赢在“次元” |2016 CAIIC

戴文淵以一個比喻解釋:大腦的次元大概就是大腦腦細胞的個數,是以為什麼人比狗聰明,狗比蟑螂聰明,因為人的腦細胞比狗多,是以可以把vc次元了解為腦細胞次元。同時這就可以了解:為什麼要把機器的次元做高——因為機器的次元也需要更多的腦細胞,才能更聰明,才能學習更多的知識。

第四範式戴文淵:大資料不再是AI發展瓶頸,未來企業赢在“次元” |2016 CAIIC

上圖是imgenet比賽的結果示意圖。過去對于這個比賽,大家關心最多的是黑線曲線——它表示着是每年冠軍的錯誤率。是以大家都知道,每年冠軍的錯誤率誤差都在降低。但是戴文淵看到的是另一個問題:很少有人關心黃色的曲線——它代表着每年冠軍模型的vc維。是以這是我們也可以發現,為什麼錯誤率會降低?是因為模型的次元在提升。随着模型次元的提升,我們的誤差開始降低。

第四範式戴文淵:大資料不再是AI發展瓶頸,未來企業赢在“次元” |2016 CAIIC

是以,今天的深度學習、強化學習都是要把次元做大。“深度學習其實是一種更好的去把vc維做高的算法,”戴文淵說道,“而為什麼要做強化學習?強化學習是一個不斷vc維做得越來越大的模型。舉個例子——谷歌的阿爾法狗,如果隻做深度學習,它是基于kjs的網站上棋局做的模型,那隻有30萬局棋;強化學習以後,通過自己和自己下,不斷地去提升,最後能夠達到8000萬局棋,是以這就是今天強化學習要做的事情,這都是要把次元越做越大。”

次元做得更高更細,分析才能做得更精細,效率才能夠提高。

去年亞馬遜的市值超過了沃爾瑪,更多的人會覺得亞馬遜超過沃爾瑪是網際網路颠覆傳統企業的。但這真的是網際網路方面帶來的厲害?“其實這背後是人工智能。在2010年前亞馬遜做的并不是比沃爾瑪成功的,但之後,亞馬遜基于其資料能夠讓大家看到亞馬遜的商品都是不一樣的,亞馬遜實際上是給每個人開了一家店。”

一家企業如何能同時開出3億多家個性化的店?亞馬遜有3億多的使用者,而沃爾瑪有一萬多家店,亞馬遜顯然是要解決一個比沃爾瑪複雜3萬多倍的問題。

“要解決3億多家店,就不是那麼好解決,不太可能人工去設計布置3億多家店,這由誰來解決?由機器解決。機器沒有精力的局限,人不是說如何去開更多的店,而是人沒有精力開那麼多店,用機器解決就是人工智能幫助亞馬遜超過沃爾瑪最重要的地方。”

是以,次元做得更高更細,分析才能做得更精細,效率才能夠提高。

除了客戶管理方面,倉儲也展現了亞馬遜人工智能分析次元的作用。

第四範式戴文淵:大資料不再是AI發展瓶頸,未來企業赢在“次元” |2016 CAIIC

戴文淵介紹,沃爾瑪的倉儲是所有的保管員、倉庫配貨員都會去倉庫整理東西,但是亞馬遜的機器人是——需要這個貨物就搬過來,如果亞馬遜有個n個配貨員就有n種不一樣的貨架,這樣的擺放也是基于資料來做的,最後造成的一個差别就是——亞馬遜比沃爾瑪提升4倍。

過去我們談網際網路,移動網際網路,現在談人工智能,其實網際網路和移動網際網路時代,有大量的空地,我們做一個網站,可以圈一批客戶,我們做一個app可以圈一批客戶,而到今天這個機會已經沒有了,未來的機會在哪?不是說還有更多的客戶可以去圈,而是我可以做得更好。如果要讓一家企業做得比競争對手更好,就會把預算搶過來,就像亞馬遜從沃爾瑪那邊搶過來一樣。
第四範式戴文淵:大資料不再是AI發展瓶頸,未來企業赢在“次元” |2016 CAIIC

另外一個案例是臉書(facebook),此前該公司因為變現能力受到質疑而股價一直往下走,但現在是很風光的狀态。戴文淵講起這背後的故事:

在2012年,戴文淵面試過一些來自臉書的工程師,面完了以後他發現,不是臉書不能賺錢,而是當時的技術不足以(實作)很高的變現效率。“我當時問了工程師一個問題‘臉書的廣告有多少的變量?’,他們告訴我有兩千多的變量,于是他就沒有通過面試,因為我們當時已經做到了一百多億的變量,這是巨大的差别。”

但是臉書發生了一個很大的變化,這是谷歌幫了他們。當年谷歌印度人與白人團隊的戰争,導緻白人團隊離開谷歌到了臉書,幫助他們把變量數從兩千多個提升多了兩千多億個。這一下子讓臉書的變現能力大幅度提升,之後他們的财報都超過了華爾街的預期。

是以這裡很關鍵的地方是次元。原來是用機器學習——也是用大資料做的廣告模型,但是做得不夠高不夠細,如果能夠把次元做得更高,你就能做得更精細,你的效率就能提升,獲得更多的廣告市場。

除了網際網路it這些資料密集型的行業,金融業也是資料量不可小觑、使用者群體涉及廣泛的行業,是以,這首先也成為了ai産業應用孵化的首選之地。

第四範式戴文淵:大資料不再是AI發展瓶頸,未來企業赢在“次元” |2016 CAIIC

“今天已經不再是亞馬遜、谷歌或者bat的時代,如果退回五六年前做ai,就隻能去bat,在美國可能是谷歌臉書這樣的公司,但今天其實有更多的企業擁有資料。”

戴文淵介紹了第四範式與銀行合作的案例,其客戶是一家深圳的股份制商業銀行。作為一家商業銀行,他們也有很多營銷資料,需要通過這些資料去精準識别所有客戶當中有哪些是分期客戶,曆史上有大量的客戶辦分期或者不辦分期,第四範式的任務是基于銀行的資料幫助他們更好地識别。

“過去他們不是不做營銷,他們也是做營銷的,但是他們的模型次元隻有兩百多個,而我們通過資料,通過機器學習,幫助他把次元提升到了五千萬,從兩百到五千萬的精細營銷,甚至我們可以幫他發現一些業務規律。比如當有一筆交易出現在某一個pos機,這個pos機一個月隻有兩百人使用的時候,是一個商機。是以,通過機器就能夠用更高效、更低成本的方式來識别出這些場景。”

根據前面講到幾個案例,戴文淵表示,最大的差别就是過去我們在做的事情是低維的事情,而現在做的是高維的事情。“這可能跟我在學生時代學習的一些基本原理是相違背的——過去我們學資料挖掘的時候,有一個叫奧卡姆剃刀原理,它講的是盡可能簡單,而不是做深維的事情,而我們現在不是做化繁為簡,而是把問題做複雜。”

第四範式戴文淵:大資料不再是AI發展瓶頸,未來企業赢在“次元” |2016 CAIIC

他繼續解釋說:

比如說(圖右)奧卡姆剃刀原理區分紅點和藍點的時候,到底是選擇綠色的線區分還是黑色線區分?過去的教科書是說黑色比綠色好,現在我們認為是綠色比黑色好。為什麼呢?過去的奧卡姆原理在做神經網絡的時候,為什麼我們要把神經網絡控制在三層以内?是因為那個年代的資料量不夠。
第四範式戴文淵:大資料不再是AI發展瓶頸,未來企業赢在“次元” |2016 CAIIC
那個年代的資料不多,是以資料不足以支撐我們把資料做大。在資料量不大的時候,我們要化繁為簡。而真正統計學習的基石并不是奧巴姆剃刀,不是說要控制三層,真正統計學習的原理叫valiant引理——這個公式我們可以就了解成,其實要做到的是模型的複雜度和規則數或者變量數,這樣一個資料量相比對。
第四範式戴文淵:大資料不再是AI發展瓶頸,未來企業赢在“次元” |2016 CAIIC
從這個原理我們會知道——為什麼過去做的模型簡單,為什麼神經網絡要深度學習?重點的原因就是現在資料量變大了。資料量變大了,模型的複雜度要和資料量成比對,要相關。
第四範式戴文淵:大資料不再是AI發展瓶頸,未來企業赢在“次元” |2016 CAIIC

是以,以往的定律、原理也許都是局限下的産物。“牛頓三大定律交給計算機做會怎麼做?可能不是三大定律,可能是做速度區間劃分,如果說總結出三千萬個定律的時候可能就不需要相對論了,這就是大資料時代,我們怎麼讓機器做到一些不一樣的事情。”

“從valiant引理來看,為什麼牛頓提的是三大定律而不是三百三千定律?就是人的記憶是有局限的,人腦裡面裝不了大資料,是以人能産出的就是簡單的模型。為什麼說過去的算法也很簡單?過去做決策,要減到五千以内,其實很重要的原因是過去的資料量有限。”

第四範式戴文淵:大資料不再是AI發展瓶頸,未來企業赢在“次元” |2016 CAIIC
今天整個時代變了,我們從網際網路上可以獲得大量的資料,傳統企業其實也有大量的資料,比如說華大基因要測百萬人的基因,中石油每天探測回來的地震波有500t,招行每月會有幾億的交易,這些都是非常大的資料。這時候如果還是套用valiant引理的話,資料量大了,模型會複雜。
第四範式戴文淵:大資料不再是AI發展瓶頸,未來企業赢在“次元” |2016 CAIIC

“‘奧卡姆’時代過去了。從工業界來說,如果我們企業内部做人工智能指導企業經營,最重要的就是我們要去做高vc維模型,我們要不斷的去提高模型的次元,使得training loss和test loss不斷的降低。”

現在也有在讨論遷移學習,遷移學習要做的是什麼呢?

第四範式戴文淵:大資料不再是AI發展瓶頸,未來企業赢在“次元” |2016 CAIIC

戴文淵向雷鋒網表示,遷移學習最佳的應用場景在于醫療。“不是所有場景都有大資料的,比如說醫療。再比如,很多人覺得今日頭條做的是個性化推薦,千人千面。其實他們不是在做個性化,而是做遷移學習。如果頭條隻有你的資料,絕對不可能給你服務得好,服務得好是因為有了你的資料,可以找到很多跟你相近的資料。今日頭條最強的是在于他能夠拿和你相近的哪些人的資料來幫助到你。是以它是一個遷移學習的問題,因為每個人提供的資料是有限的,不是一個大資料,真正的幫助是來自于周圍,遷移學習就是說小資料也能做到高緯度。”

第四範式戴文淵:大資料不再是AI發展瓶頸,未來企業赢在“次元” |2016 CAIIC

上述是人與人之間的遷移,另外一個例子是領域的遷移。領域的遷移是什麼呢?舉例來說,像金融。金融資産管理中,做一個業務資産也許幾十億上百億,但是如果換一個視角看,上百億的資産做小額信貸,資料量非常非常大。但是如果上百億資産拿來做大額信貸,比如說房貸,每個人貸幾百萬并沒有多大資料,那麼問題來了——大額信貸沒有大資料就很難用現在的深度學習來做。

“我們現在也在關注金融領域。遷移學習恰恰是可以幫助金融業企業利用各種各樣的信貸資料,無論是大額信貸還是小額信貸,來提升模型的效果。比如在銀行中,我們利用其小額消費金額的資料,幫助他做汽車貸款,也就是用别的領域的資料來提升效果,最後能夠幫助他的營銷提升。”

是以遷移學習要解決的是小資料實作超高維。另外一個資料是專家經驗,如果說既沒有資料,又沒有其他領域的知識,我們還可以用專家經驗來降低資料的使用量,提升小資料的模型次元。 我們今天會發現很多的話題在讨論人臉識别或者無人車,個性化推薦,有人讨論深度學習、強化學習,最關鍵的是所有事情都在解決一個問題就是次元。

本文作者:溫曉桦

繼續閱讀