天天看點

資料應用催生商業模式

h= jeff hammerbacher cloudera創始人

  c= cbnweekly

  c:你的資料挖掘工作始于華爾街投行bear stearn,那是怎樣一份工作?

  h:當時我是固定收益部的資料分析師,主要處理有關債權、抵押以及其他金融衍生工具的事務。我為交易員清理外彙期權的電子資料表。清除完成後,我還要通過複雜的随機微分方程把定價引擎應用到這些期權上。

  後來我得根據金融産品價格變動,維護它的固定收入的期限結構模型。期限結構模型是對收益率曲線發展的預測—很複雜的算法,每晚都得運作。我還開發了同步模拟通貨膨脹的期限結構模型。

  空下來的時候,我會去維基百科管理一下上面的答案。現在我是quora的活躍分子,就知識交換而言,quora比維基好得多。

  c:從你的工作經曆來看,你怎麼看待資料應用這個問題?

  h:我不是很了解許多大機構的宏偉目标,我隻能談談我的領域。在我開始為資料應用做貢獻前,還有一大堆的知識等着我去消化。我一直試圖找出更簡潔和更準确的模型來處理那些被篩選出來的重要資訊。

  曾有一件事,讓我真正明白了資料管理和複雜模型的價值。有天,我們丢失了路透社有關交易所的資料回報,所有的活動都被迫停止。但是負責資料回報 的那個工程師卻外出午飯去了,在他回到座位之前,我們完全束手無策。那時我覺得,沒有可靠的資料結構,華爾街賺不了錢,不管它有多少數學博士。

  還有另外一件事情讓我感到複雜模型的局限性。當時我們的一位交易員決定在某個金融産品上停用我們的模型,原因是模型預測的價格和其他交易員預測的價格有很大差異。這讓我明白,所有的模型都必須考慮它所針對的金融工具的背景資訊。

  c:後來你去了facebook,還組建資料團隊,工作性質變了嗎?

  h:2006年,我以研究科學家的身份進入facebook。就在我加入的前幾個月,facebook聘請了他們第一位分析總監。他搭建了 facebook第一個資料庫,加入後的頭幾個月我都在幫他幹這個活。同時,我也會負責一些資料分析項目,尤其是分析在news feed功能和開放注冊推出之後網站通路量的增長情況。

  幾個月之後,我便清楚我們的增長速度将使得我們的資料結構超出任何當時的商業軟體處理能力,于是我便向我的老闆,facebook的cto adam d'angleo建議,我們要有自己的、由結構工程師和研究科學家組成的資料團隊。我深刻地覺得,這兩種人一起工作對于開發早期資料結構軟體太重要了。

  此後,我的工作主要就是在世界範圍内招聘最出色的資料結構工程師,一起去證明我們的遠見。

  c:你在那些資料挖掘裡發現了什麼?

  h:這工作感覺太棒了:news feed釋出之後的第二天簡直就是瘋狂的一天。一整天我都在把facebook的流量數字更新給馬克·紮克伯格,佐證他當時的直覺—不管當時的新聞報道如 何唱衰,news feed對于使用者來說會是個好東西。最讓我興奮的還要數推出平台的那天。在接下來的那個星期,我第一次明白facebook會成功的,就像它今天一樣的成 功。

  然而最棒的時刻,是我們終于可以把軟體進行開源的那?天。

  c:但你後來又離開了,還說“最聰明的人都在讓人們把注意力轉到點選廣告上,真糟糕”。你為什麼會這麼想?

  h:正确的引用應該是:我一代中最聰明的人都在想着怎麼讓更多人點選廣告,這真是糟糕透了。這很容易了解:線上廣告已經成為了過去十年财富創造 最可靠的來源。把消費者和銷售者配對起來,以及創造新的消費者和銷售者,這對于任何市場來說都是最重要的問題。線上浏覽和線上購買都變得非常容易估量。當 你有估量方法,你就可以研究科學。在這種情況下,我這一代中最聰明的人則在推動科學的前?進。

  但不幸的是,我人生中大部分有朝一日可以被解決的問題,都不會因更精準的廣告而迎刃而解。我不确定如何整合我們的社會,才能讓緻力于解決長期挑戰的人覺得自己得到了應得的回報,但是這是一個值得問出口的問題。

  當然,廣告之外現在已經有了大量的其他資料應用,我現在就能脫口而出那些公司的名字:github讓開發開源軟體變得更容易;kickstar 讓項目可以更快地獲得資金支援;rock health和imagine k-12在教育和資助下一代創業公司應該把更多目光投向醫療和教育領域的實際問題;sage bionetworks正在創造一個軟體和資料的共享倉庫,幫助疾病模型的建立和藥品的開發;eyewire用衆包的方式研究大腦結構。有一些線上廣告公 司已經開源了工具包,比如facebook的open compute項目就是其中很有意思的一個。

  c:你現在工作的cloudera有什麼不一樣?

  h:cloudera的特别之處在于,我們的軟體可以和任何形式、任何規模的資料比對,并且是開源的。我們希望可以在資料分析的基礎上創造更為開放的平台。

  我們的主要産品是cloudera enterprise,它是我們的資産管理軟體cloudera manager最重要的組成部分。它的銷售一路走紅,讓我們得以從小團隊成長為200多人的公司,到今年年底可能會超過300人。做一個開源軟體還能賺錢 是一個讓人興奮的事情。最近我們新增了一些企業使用者功能,比如可以讓企業把被毀滅的資料恢複過來。

  cloudera更讓人興奮之處在于,許多公司的成功是建立在我們所提供的平台之上,投資我們的accel公司很看好這個平台,它催生機遇,目前accel在各種大資料領域的公司裡投資了将近1億美元。

  c:你在矽谷看到資料挖掘的趨勢是什麼?

  h:資料收據和資料挖掘最有趣的部分仍然發生在網際網路公司之内,廣告是構成這類公司營收最重要的部分。然而,在過去的幾年裡,這些公司當中有的已經成功地把開源工具商業化,創造了其他高收益的商業模式。我希望未來幾年,會有更多的革新出現在這些公司裡。

  現在發生了很多有趣的事情。在人工智能方面,許多算法已經被隐藏到了開源軟體平易近人的互動界面之下,比如scikit-learn,它能讓使用者很友善用各種模型做試驗;還有像vowpal wabbit、kaggle等等。

  浏覽器已經成為了資料可視化最棒的平台。java script, himl5和webgl,還有像d3和crossfilter等實驗室都讓數以億計的資料互動性更強、更可視化。當資料可視化在浏覽器上實作了以後,合作 将變得更便利,并随之催生出更多讓人興奮的新技術和工具。

  我可以說出許多在資料搜集方面很有意思的工具:learnstructure、schemadictionary、密歇根大學開發的fisheye,還有斯坦福和伯克利大學合作研發的一個叫data wrangler的工具。

  c:你現在怎麼看待資料的價值?

  h:我深信科學是社會一切美好事物的偉大來源。資料則是被科學管理着的世界的代表,是以收集越多的資料,我們就有能力做更多的科學研究。在廣告 于過去十年變得無比成熟的同時,許多産業甚至還沒有進入數字時代。其中最突出的是醫療産業。我并不認為醫療産業在2030年還會如今天的情況一樣駐足不 動。在cloudera,我們已經有了許多來自醫療行業的客戶,同時我也希望我們能在這個程序中保持領先地位,因為醫療數字化這一天一定會到來。

chaunceyhao

繼續閱讀