天天看點

科技谷CEO陳思恩:用資料驅動決策,需要把算法和運籌學結合起來| CCF-GAIR 2017

雷鋒網消息,2017 年 7 月 8 日,由 ccf (中國計算機學會)主辦,雷鋒網與香港中文大學(深圳)承辦的全球人工智能與機器人峰會 ccf-gair 大會進入第二天。科技谷ceo陳思恩博士進行了題為“交通出行大資料——引爆智能商業新浪潮”的演講。他表示,公路、鐵路和民航等交通方式具有巨大的出行量,每年有數十億的需求,這其中就存在 ai 和大資料的需求,ai 落地的場景會逐漸在出行的領域滲透。

陳思恩還認為,算法必須要和運籌學結合起來,因為最終實作的是資料驅動決策,真正的ai是要跟大資料有一個有效的融合,去解決使用者的痛點。

科技谷CEO陳思恩:用資料驅動決策,需要把算法和運籌學結合起來| CCF-GAIR 2017

以下為陳思恩演講實錄,雷鋒網(公衆号:雷鋒網)做了不改變原意的修改。

陳思恩:大家好,今天上午的最後一個環節由我給大家介紹一下

ai+交通出行的方向,其實大家看到這個命題就知道在這個領域裡面肯定不會是一個僞命題,也不會是一個僞賽道,因為現在無論是創業公司還是投資機構都擔心做的方向錯了。科技谷公司選擇的方向是在公路、鐵路和民航的出行上。大家知道一年鐵路有

30 億人次的出行量,民航大概有 5 億人次,公路總共有 30 億人次,在這裡面有大量優化的需求。也就是說他會存在 ai 和大資料的需求。随着

ai 和大資料的推演, ai 落地的場景會逐漸在出行的領域滲透。

傳統的智能改造方向已經産生很多的應用,從早期的人工智能到現在的機器學習。機器學習是實作人工智能的一種方法,而深度學習是對機器學習技術的推進。科技谷本身專注在交通出行和大資料方向,在這個方向裡面,不管是航空公司還是機場都有大量的需求,大家可以看到,在營運方面還是在收益、營銷的體系建設方面都有需求所在,同時大資料的引入需求也是比較旺盛的,是以我們選擇的點主要是在收益優化和安防方向,也就是維穩這個方向。

可以看到在交通大資料和

ai

這個方向的結合是比較好的,因為交通資料比較容易開放,而且開放完以後比較容易産生價值。首先它也是需要遵循一定的規則,大資料前面這一波的熱潮出來之後使得很多交通資料形成了堆積,無論是使用什麼樣的大資料廠商提供的服務,都把資料彙總起來了,這是很關鍵的。後面就用統計和機器學習的方法去建立相關的模型,為算法做一些準備。我們認為算法跟運籌的最優解可以結合,因為最終是要實作某一個供應鍊的配置,比如說通過客流、民航、鐵路和公路找到最優解。同時能夠增加多種收益,比如說收放倉的控制,這種環節都需要用到一些比較核心的

ai 的算法,而且能夠自動化控制。

我們認為在交通出行領域需要三個要素才能夠比較好地實作整個環節,也就是說它首先是需要有大量的資料,無論是内部還是外部的,這裡面需要有大資料的掌控公司,同時還需要有大資料的中間商,也就是買賣、交易,現在國内做了很多的交易所,還有一種是大資料的技術公司,可能是從統計部分的機器學習,再加上計算機的原理去實作大資料的架構,到後面需要用深度學習的方法去落地,是以三個環節是很重要的,一個是大資料本身,另外一個是大系統,也就是前期在推使用的算法,要用什麼樣的構架來跑,還有你的伺服器用什麼方式來做。後面就是算法跟運籌優化這一塊結合,解決一些比較實際的使用者的痛點。

為什麼會跟運籌這一塊結合起來?因為你最終實作的是資料驅動決策,真正的ai是要跟大資料這一塊有一個有效的融合,去解決使用者的痛點,比如說如何更好地實作它的票價,更好地最優,會員日的如何更好地把優惠券以合理的價格、合理的時間推送到真正有需求的使用者手上,這些都是真正去解決它的實際痛點。

在交通出行這一塊的分布,我們也是采用了漸進式的方式。什麼叫漸進式?就是說它會采用除了pdca形成一個閉環,然後逐漸

實作的就是人工介入部分,把大資料落地。然後用工程的方式來做,是以我們把國外很多facebook、推特這些可以觸達旅客的點結合起來,比如說航空公司在訂票的時候,他根本不知道他的哪些顧客來自facebook,哪些來自推特。但是通過我們和他們合作,可以找到機票的使用者從哪裡來,下一次有優惠資訊的時候可以推薦到他的行程上。把國外的資料源帶到國内,對大的航企、12306都有很大的幫助,也就是直接帶客源進去,他在整個大資料的連接配接上面産生價值之後,就需要開始去做内部的資料深挖,這時候就需要用機器學習的方法,甚至是一些ai深度學習的方法去做。

外部的資料引入之後,就需要對某個人或者某個事件做畫像,這個航線要怎麼畫像,客源是怎麼來的,這些都要有深度的識别,對我們來說是上百個次元的識别。這些推演的背後就是機器學習,它是人工智能很好的實作方法,同時深度學習也是對機器學習很好的實作,就像《黑鏡》裡面的女主角通過機器學習的方式,在社交網絡上模仿她的男朋友的語态。你要更了解你的客戶,才能真正實作更好的政策。

剛才講的是大資料的資料部分,接下來是系統部分,微軟在這一塊有hd

 inside,我們也有自己的inside套裝,我們認為在企業需要混合雲來搭,就像12306在出行高峰的時候用阿裡雲的資源,降低它的主機的負荷。是以分布式架構用混合雲的架構會長期存在,而且對雲端的依賴會加大,就像華為進入公有雲的市場,中興通訊也有它的雲,國内是阿裡雲比較有名,我們也把我們的系統搭建在亞馬遜的雲上,通過混合雲的架構幫助客戶實作大系統的搭建。

接下來這是我們的大系統的架構,因為要跟雲結合,裡面包含了各種技術的組合,然後有我們自己的 sdk,封裝了很多方式,這種方法已經用在國内的很多大型的航空公司和鐵路的12306,這裡面還包括一些推薦的引擎和算法,這完全是to

 b的架構,但是它做的是b2c的方向。

這裡面有兩個重要的東西,一個是平台,在這個點上跟其它的平台是大同小異的,但是它會偏行業,因為行業的東西是比較不一樣的,特别是資料清洗這個環節,還包括在資料模組化。因為算法跑起來,模型是很重要的,還有限制條件、模組化的方式都是不一樣的。另外inside這一塊是比較有特點的,也就是我們的套裝化之一,這裡面含了畫像的場景、關系圖譜。知識圖譜裡面很重要的一個就是建rdf,也就是整個關系建立的套件,還有推薦引擎和算法。這裡面涉及到資料模組化的優化和神經網絡的東西,是以這個套件我們花了大概三四年的時間,而且這個很需要在大的資料庫裡面去練。因為我們做得比較早,在這個領域裡面,像12306,中國大的企業都是我們的客戶,是以我們這個産品得到了很好的曆練,它相對來說是能夠接受體量很大的資料場景去找最優解。

在這個之上,它這裡面涉及到大量的運算方式,比如說畫像的場景,它可以支援上千個次元的自動化,它是通過參數配置的,自動化形成多種算法的場景。同時在推薦系統上也是多種關聯,時間節點、分布式算法,同時對使用者行為進行預測。

之後我們關注在我剛才提到的三個要素,一個是資料,第二個是平台,第三個是算法。算法我們選擇的是收益這個環節,我們能夠真正幫使用者實作收益,也就是

這一塊新的優化。就像星河互聯的傅總講的,航空這一塊的自動化程度高,但是對創業公司也不意味着沒有太多的機會,國外做這一塊的就有好幾家公司,但是國産化的公司還沒有,酒店行業現在有幾家起來了,但是航空産業基本上是沒有的,我們會從航空和鐵路的收益環節去做,把大量的運算放在雲端,客戶用租用的方式就可以實作對算法的采購,用許可的方式和服務費、訂閱費的方式去支付我們的産品費用。

收益這一塊,我們也是大概6個月的時間可以幫助客戶實作從大資料的引入到平台的建設,到收益優化算法的建立。是以現在已經有比較大的合作夥伴在用這套系統,而且這個平台可以直接用于更多的平台性的客戶,比如說阿裡的飛豬、美團、滴滴,它需要做求解器,收益有關場景的使用者都會去用,我們會先從航空和鐵路這方面的客戶做起。

這裡面具體做什麼?在航空領域,它的

no-show

的模型也是要改變的,因為天氣資料現在都是開放的,這些次元的資料要實時的整合,你的算法現在不是靜态模型,而是需要動态模型,同時你在外部的行為都是動态的,這些環節都需要導入,導入完以後你對no-show這個環節,包括座位配置設定的環節,都要重新用機器學習的方式去做,最終實作一個最優化。對航空公司來說,雖然是最優化,但是它是基于機器學習的,最終它的

對比就是說我算得比别人更準,我的收益提高得比别人更高,最終它就達到了結果,而且全面國産化是一個很好的趨勢,因為很多央企也都非常支援這個事情,我們這個公司現在就是在立足做國産化的收益求解器。同時我們在做的時候是用工程的方式落地,而不是把産品推過去用雲的方式落地。針對大的企業級使用者,任務分解必須做得很細。這裡面需要航旅類的企業配合,需要it、營銷人員參與,當然任何做

ai 和大資料方向的都是公司的戰略決策,無論是首席資料官還是首席資訊官,或者是 ceo

都要參與這個事情。中間它就需要我們的大資料工程師和資料科學方面的人一起整合去做這個事情,長期疊代服務才能夠建立比較有效的環節,同時還要導入一些外部的資料,因為企業内部的資料遠遠是不夠的,包括

12306 都不敢稱自己是大資料公司,當然bat是真正的大資料公司,因為它的資料夠多元化。

對科技谷來說最主要的是要幫客戶創造商業價值,帶來創新。真正使這套技術落地,給客戶變現帶來收益,是以我們也是立足這個方向,持續做這個市場相關的東西。

通過這幾年的積累,我們也建立了非常多的合作夥伴和客戶,因為要成就一個比較好的公司,它需要有一個完整的上下遊的産業鍊配套,很多是我們的兄弟公司一起推動,對這種大的企業,單打獨鬥是很難在一個市場立足的。

我的報告就到這裡,謝謝大家。

本文作者:李雨晨                             

繼續閱讀