天天看點

無數學不資料,一場16年的堅守 | 資料科學50人·宣曉華

如今,我們每個人都在談論“資料科學”,《哈佛商業評論》雜志甚至将資料科學家定義為“21世紀最性感的職業”。在這個大資料時代,究竟什麼是資料科學?資料科學家又究竟是怎樣的一群人?他們在創造着什麼令人着迷的東西?DT君将在2018年走訪50位來自各行各業的頂尖資料科學家,希望能讓你們了解這些神奇的人和他們的神秘事兒,為你們一窺資料科學的未來與未知。

1990年的一天,一位即将博士畢業的華人學生站在加州大學伯克利分校的薩瑟塔(Sather Tower)上向遠方眺望。這所出過近百位諾獎得主的頂尖學府的标志性建築于1914年建成,見證了近一個世紀的潮起潮落。而将同樣被見證的,還有20年後橫跨太平洋的一場大資料變革。

這是個滿城盡談大資料的時代,各種大資料的創業公司多如牛毛。

但如果時間倒轉回16年前,情況可就不同了。當時,美國網際網路泡沫(Dot-com Bubble)剛剛結束,劉強東的京東還在中關村做着光磁産品代理,馬雲還在構思一個叫做淘寶的個人網絡購物網站。

這時候要是有人說要在中國做一家資料公司,你會怎麼看?

有個人就這麼做了,而且理由是“我想辦的公司要和數學相關,除了資料挖掘想不到什麼更合适的”。

說出這話的是那個曾經站在薩瑟塔上的華人學生,他叫宣曉華,一個押對了這場中國大資料變革的人。

無數學不資料,一場16年的堅守 | 資料科學50人·宣曉華

(圖檔說明:加州大學伯克利分校标志性建築薩瑟塔 | 圖檔來源:Hui Hui)

他2002年創立的華院資料,16年間,從幾人發展到近1000人,并且在公司體系内成功孵化了20多家各垂直領域的大資料創業公司。

在成立的前10年,公司沒有融資,卻成功度過了大資料的“萌芽期”。這背後,宣曉華是怎樣的一個人?華院又是怎樣的一家公司?

▍因為數學,愛上資料

上海中心城區東北角的楊浦五角場地區,一直以來都以高校衆多、創新氛圍濃厚著稱。12月初的一個午後,在離楊浦創新地标創智天地一路之隔的一幢大廈内,DT君見到了剛剛開完會的華院資料創始人宣曉華。他的另一個身份是中國工業和應用數學學會副理事長。

待人謙和、偶爾微笑、略帶浙江口音的國語,是他給DT君的第一印象。而在DT君接觸的華院幾位員工看來,低調、愛給員工講數學,則是宣曉華的另外兩個“标簽”。

宣曉華對數學的喜好,從小就開始了,後來一直延續到大學、碩士。再後來他又赴美國加州大學伯克利分校攻讀數學博士。這所名校曾經走出了國際數學大師、微分幾何之父、沃爾夫數學獎(數學界的諾貝爾獎)得主陳省身等華人數學家。

一切都順理成章,宣曉華走得原本是一條外人看來極為學術的路線,但因為在博士期間跟着導師接觸了相對偏向應用的計算數學(Computational Mathematics),跟美國工業界有了更多接觸,這條路線發生了轉變。

當時,計算數學雖然研究的主要是算法相關理論,與各種方程、算法打交道,但卻是當時美國工業界的大企業所迫切需要的。這門學科在電路仿真、航天航空、機械設計、金融等環節,都十分重要,在當時算是熱門的專業方向。

等到畢業後,宣曉華順利進入了當時如日中天的惠普公司,從事電路仿真方面的算法研究和大型軟體開發。

“當時惠普公司内部也有一些人在做類似資料分析的工作,但相對簡單。而我們做的事是怎麼樣通過計算,幫助工程師更快更好地做産品設計,有點像現在的機器學習中的一種底層的支撐。”宣曉華解釋道。

1997年中國香港回歸了祖國,在惠普工作了7年的宣曉華也做出了相同的決定——回國。

談及原因,宣曉華坦承,90年代中國蓬勃發展的形象已經讓他頗有感受。“當時,中國發展很快,我就想回去經曆一下,但說實話,在回國前其實并沒有什麼大的計劃。也許工作一段時間後,又回去(美國)了。”

在他看來,也許在惠普工作可以讓自己生活地很好,但卻少了些價值。“計算數學在美國的應用、電路仿真方面的人才相對較多,是個很成熟的領域。而在中國,這個領域一直很少人願意做。”

我們應該都聽說過百度李彥宏放棄美國的生活、被妻子逼回國創業的故事。

宣曉華的故事則是另外一個版本:他是主動回的國,而且一開始也沒想過要創業。

直到在國内企業做了幾年技術總監後,2002年,宣曉華才下定決心牽頭做些事情。他們在上海創辦了華院資料,員工一開始隻有幾個人,辦公室也不大,但宣曉華卻始終覺得,資料這件事,有未來。

在創業之前,對于做什麼,他其實也有過思考,但想來想去,還是要符合兩點:一是要和數學有關,因為自己的專業是數學,這也是自己希望繼續從事的;二是要有市場。

當時能同時符合這兩點的選擇很窄,最直接的就是資料挖掘(Data Mining),既能用到算法,也有一定的市場。

“那時,網際網路還不算是一個資料的主要來源,但資訊化卻是很多企業都有了的。銀行、證券業的核心業務系統等,都會産生一些資料。”

無數學不資料,一場16年的堅守 | 資料科學50人·宣曉華

(圖檔說明:宣曉華在一個簽約儀式上分享其對資料及人工智能的看法。)

宣曉華當時對中國大資料的未來很有信心。“我覺得資料量級趨勢是越來越大,不僅是公司裡面,在政府、企業、金融體系裡面,資料量越來越多。而這個時候,如果有一家公司能夠幫助企業把資料變成價值、增加收入,還能幫助決策,這樣的生意應該是可以做的。”

▍16年前為何無風來?

2002年,國内很少有人有大資料的意識。以現在的眼光看,當時要做一家資料公司肯定很難,但機會往往就在你認為最艱難的地方。

有資料意識的公司少,意味着你更不容易找到你的客戶。宣曉華找了兩個行業作為切入口,一個是金融,一個是電信。這兩個行業當時在國外已經有了相對成熟的資料挖掘經驗,而國内的企業也許會有通過資料分析服務于營銷、擴大市場佔有率的需求。

但進一步接觸後,宣曉華發現,當時的金融企業如銀行等,對資料的分析處理需求并不大,沒有這些“好像大家仍然活得很好”。而當時在國外,銀行對資料分析處理的意識已經很強烈了。

在服務過少量的金融客戶後,華院快速調整了業務方向,将主要突破口轉向電信行業,這一次,果然找對了路。

2000年之後,中國電信行業發展很快,這展現在使用者數的節節攀升。而其中,中國移動恰巧又是一家“好學”的公司,願意嘗試各種新的方法,最重要的是,這家公司也肯投入資金。這給華院這樣做資料分析的初創公司提供了很大的機會。

大的全國性業務難以拿下,那就從省級公司做起,“各個擊破”。新疆移動是華院的突破口,基于對方的内部經營分析系統留存的資料,做資料的整合分析,并分析使用者的消費行為、使用偏好等,進而給出營銷的具體建議。後來這樣的合作又擴充到幾乎所有的省級移動公司。

具體會給移動營運商提出哪些建議呢?宣曉華略有思索,回憶了兩個他覺得可能跟每個手機使用者都相關的業務:“比如會基于資料分析,向營運商提供資費套餐的建議,另外還推出了一種叫做“信用評分”的業務——也就是現在大家日常接觸到的話費授信額度。”

這樣的服務,華院一直做了7、8年。也正是靠着在電信行業的持續耕耘和穩定的業務來源,公司度過了大資料“萌芽期”,不僅穩定了下來,業務規模也越來越大,也開始進入新的業務領域,并且有能力孵化新的公司。

直到2010年,公司才真正意義上涉足第二個領域——電商。一來,當時中國電商開始起步,發展迅速,二來,曾經的移動業務也越來越不足以滿足公司發展的需求。

“電商和移動營運商不同,營運商可以一次性付100萬讓你做一個項目,但電商的付費能力相對較弱,可能隻是付幾萬塊錢。”對此華院有着不同的應對戰術。“你會發現這些電商商家的學習能力非常強,他們的競争非常激烈。是以隻要我們能推出好的解決方法,隻要能對他們的業務有意義,他們就會很樂意去使用。”宣曉華點出了電商商家的特點。

華院推了一些針對中小網商的資料分析産品服務,希望靠“長尾效應”在電商領域打開一片新天地。

不僅僅是電商,按照華院方面的資料,後來公司的業務陸續擴充到了金融、電信、醫療、零售、電商等多領域,到2016年,實施的各種項目總計已超過600個。

無數學不資料,一場16年的堅守 | 資料科學50人·宣曉華

( 圖檔說明:2012年,華院完成A輪融資,紅杉資本參與其中)

一般而言,創業公司對外部資金的渴求往往都十分強烈。但在華院資料的發展過程中,有一點值得一提:成立的前10年内,公司沒有對外融過資。

直到2012年,才有紅杉資本的A輪資金注入。

對此,宣曉華的回答很直接:“公司成立後的前些年也沒有人太關注資料這個領域,我們也沒有去積極找投資。”

“另一方面...”宣曉華稍有停頓,這也是他态度嚴謹的一面,“是自己對外部投資也有一些顧慮,拿了别人的錢,對方肯定希望你發展得很快,但我們當時覺得,并沒有那麼多的行業願意接受資料相關的産品服務。”

在DT君看來,圍繞自己興趣,不盲從接受外部資本的“指揮”,而是堅持自己的發展方向,這些特質和宣曉華的個性不無關系。

即便是公司規模越做越大、并且有了外部資本的助力,宣曉華對公司的發展仍舊有着堅持,并且做了一些獨特的嘗試。

2014年,華院資料開始深度孵化垂直領域的大資料公司,除了為創業者提供方向、資金、輔導外,華院顧問和技術團隊也參與孵化,與創業者探索商業模式和新技術。

到目前為止,在這套模式下,公司已經成功孵化了華院分析、杭州數雲、數尊等近20多家大資料應用公司,涉足網際網路金融、醫療、風控征信、智能教育、時尚文化等多個領域。

“這種模式可以說是我們獨創的,是一種新的企業管理模式,過去傳統的企業内部大多都是事業部的形式,我們打破了這種模式,采用的是成立許多獨立的公司,這是一種新的企業生态。”宣曉華曾經接受媒體采訪時如此說道。

▍下一步:資料+智能

在交談中,宣曉華毫不掩飾自己的數學情結。在他看來,數學本身是一個非常基礎的學科,也是更深層次的應用的基礎。包括人工智能等,都離不開基礎的算法理論支撐。

無數學不資料,一場16年的堅守 | 資料科學50人·宣曉華

(圖檔說明:宣曉華在中英開放資料與大資料論壇上演講)

他這樣想,也這麼做了。

他跟自己博士時的導師史蒂文·斯梅爾(Stephen Smale,1996年美國國家科學獎、數學菲爾茲獎和沃爾夫獎得主)合作,發起成立了斯梅爾數學和計算研究院(Smale Institute of Mathematics and Computation)。

研究院研究的是偏基礎理論的課題,但也是相對長遠的。“雖然是基礎的研究,不一定有經濟上的效益,但也許未來有一天,就可能在特定領域孵化出新的業務。”他補充道:“做這件事更多還是自己的興趣,我也希望我自己的員工能夠在做技術開發的同時,也能接觸一些更長遠的研究。”

無數學不資料,一場16年的堅守 | 資料科學50人·宣曉華

(圖檔說明:宣曉華(左)與導師史蒂文·斯梅爾(中),後者是1966年菲爾茲獎及2007年沃爾夫獎得主。)

一方面是加強基礎的研究,另一方面則是在最前沿的領域謀求突破。

宣曉華表示,“資料+智能”會是公司未來最重要的方向。目前,公司已開始着力研發一些相對前沿的産品,比如分維(Fra+)智能畫像引擎,通過小資料輸入,跨學科模型智能分析,刻畫立體的人,這已在金融、保險、營銷廣告、HR等領域實作應用。

另外,公司還開發了一款叫做華院智影的産品。這是一套基于人工智能的醫學影像輔助診斷系統,目前已和上海的一些知名醫院如上海胸科醫院、仁濟醫院等有了合作,希望能幫助醫生提升決策效率。

在宣曉華看來,如果人工智能技術真的能做到大規模的應用,那麼無疑是頗有意義的一件事。

他也表示,公司還将持續推動孵化生态的發展,孵化出更多垂直行業應用的大資料、人工智能方面的創新公司。

回顧過去16年在大資料挖掘和人工智能領域的經驗,宣曉華覺得,大資料是一種思維和方法,要有量化的思維。但是,資料有時候不夠成熟,在必要時候還需要加入人的判斷。

這不是他第一次提出這樣的思考,他進一步解釋:“我們不應該老是去關注到底有多少資料,大資料不是目标,怎麼樣去分析應用,讓決策更好、做事更有效率、世界更美好才是目标。換句話說,也就是更加智能。”

文 | 胡世龍 : [email protected]

題圖 | 視覺中國

▍關于資料科學50人

資料科學50人項目是DT财經旗下資料俠計劃重點内容産品,旨在與資料科學領域KOL共同挖掘資料内容的價值。我們從商業資料科學領域選出最具代表性的50位先鋒進行深度專訪,50人由DT财經獨立評審并釋出,第一财經資料科技及合作夥伴傾力支援。