天天看點

從 Kaggle 困局,看國内資料競賽平台如何突圍

國内資料競賽市場,能做好的話,預測一兩年就會有繁榮景象。 ——datafountain coo 陳娟

要說本月開發者圈子的頭等大事,毫無疑問是 kaggle 被谷歌雲收購。作為全世界首屈一指的資料科學、機器學習開發者社群和競賽平台,kaggle 不僅開拓了一個全新市場(雖然該市場的目前商業價值有限),還為國内近幾年冒出的資料競賽平台樹立了學習、模仿的榜樣。

從 Kaggle 困局,看國内資料競賽平台如何突圍

李飛飛宣布谷歌雲收購 kaggle

目前看來,這場收購可謂是皆大歡喜。

kaggle 得到了谷歌雲的計算資源、資料資源和業界關系支援,也對投資者有了交代。谷歌得到了對該社群的直接影響力,以及一個谷歌雲的業務突破口。

但作為一個細分市場的霸主,kaggle

卻從未有過“霸主”的春風得意。自 2010 年成立至今,kaggle

耕耘資料競賽領域已有七年。這時間說長不長,說短不短,但足以打消風投和部分商業觀察家“超級獨角獸”的夢想。平台上的競賽數目,并沒有指數級地增長;其商業模式到底是不是衆包,業内也存争議;但最重要的一點,直接指向了

kaggle 的“七寸”:缺乏商業變現能力。

嫁給谷歌雲,或許已經是最好的結局。

于是我們不禁要問:一家在所處行業成為全球第一、沒有重量級競争對手、并踩在大資料風口的創業公司,為何“被收購”卻成為最佳選項?

(注:并不是說被谷歌收購不理想,而是許多人認為 kaggle 原本可以做得更好。)

在雷鋒網看來,這個問題折射出的現實情形,要比答案本身更有價值。相比 kaggle 的自身經營狀況,我們更關心資料競賽這個市場——究竟是貧瘠的鹽堿地,還是未經充分開墾的處女地?

太平洋的另一端,在中國,2014 年之後湧現出大大小小多家資料競賽平台。目前比較有名的,有阿裡雲旗下的天池,中科院孵化出的 datafountain,成都電子科大教授周濤創立的 datacastle,以及上海 soda 大賽的指定營運方科賽網。各家平台在将來的發展側重點各有不同,但當下的核心業務都是線上資料競賽。

大資料競賽究竟有多大的市場空間,行業前景如何,就成了至關重要的問題。

為此,雷鋒網采訪了datacastle

ceo 張琳豔, datafountain coo 陳娟,天池進階專家王一婷,以及“中國 kaggle 第一人”、商湯科技研發總監張偉;從

kaggle 商業化的努力,談到國内資料競賽的市場環境,以及最重要的:如何把這個市場做“活”?

我們先從 kaggle 被收購折射出的困局談起。

從 Kaggle 困局,看國内資料競賽平台如何突圍

kaggle 的商業化之路十分坎坷,這在業内廣為人知。

2013 年起,kaggle 就設立了能源咨詢業務。當時恰逢美國頁岩油、頁岩氣革命,kaggle

希望用大資料幫助能源公司進行石油勘探。這本将是一筆利潤頗豐的生意。可惜随後的全球原油價格暴跌,使得石油公司大幅減産;新的勘探、開采計劃紛紛被推遲或取消,相關研究也被擱置。kaggle

從能源行業入手,逐漸建立跨行業資料咨詢業務的計劃就此擱淺。更何況,人們逐漸意識到,資料咨詢業務的成長性實在有限,不适合風投參股的企業。

與此同時,kaggle 在 2013 年推出了 “kaggle connect”咨詢平台:将社群最精英的資料科學家介紹給有需求的公司,以解決不适合以競賽形式封裝的現實問題。

kaggle 還推出了招聘服務,這倒用不着多說。重點是,直到今年被谷歌收購,kaggle 在商業變現上始終沒有找到一個好的突破口。

是以,對于 kaggle 被收購,行業内認為理所當然者有之,驚喜者有之,惋惜者也有。

堪稱“中國 kaggle 第一人”的張偉,自 2012 年參與 kaggle 平台上的比賽。目前排名世界第十,曆史最高排名世界第六、中國第一。他認為,kaggle 尋求商業支援、被谷歌收購是水到渠成的事情。

從他的角度看,kaggle 一直在進行商業化的嘗試,業務上也面臨較大瓶頸,競賽的數量到現在也不是很多。這其中的一大問題,是與工業界的關系不夠緊密,不足以說服更多公司在 kaggle 平台上開放資料、舉辦競賽。借助谷歌對業界的影響力十分合情合理。這将有助于更進一步拓展平台使用者,把市場做到此前難以企及的規模。另外,大量 kaggle 參賽者使用亞馬遜 aws,如能免費提供谷歌雲,确是一件好事。

持相似觀點的還有阿裡雲天池。天池進階專家王一婷直截了當地表示:

“  kaggle 在曆經了六、七年的發展後始終沒有找到一個很好的商業模式,主要靠賣比賽收取服務費賺錢。但平台上的比賽頻率并不高,大部分獎金也很少,是以收益應該不高。雖然 kaggle 号稱沉澱了一批資料愛好者、開源資料集和算法模型,但沒有計算能力,資料的價值就無法真正變現。他們一定是需要尋找突破口的,是以現在被谷歌雲收購是最好的歸宿。”

值得注意的是,關于谷歌之于

kaggle 的價值,王一婷更強調計算資源。在她看來,無論在資料、ai

還是機器學習領域,企業的最核心競争優勢或者說行業門檻,都是大資料+雲計算。換句話說,隻有與谷歌雲的基礎設施結合,kaggle

才算是完成了生态鍊的閉環。是以,kaggle

加入谷歌是理所應當的戰略布局(對谷歌亦然)。而在這一點上,結合了阿裡雲計算資源的天池,同樣擁有巨大優勢。

同樣對 kaggle 關注已久的 datacastle ceo 張琳豔,則十分強調 kaggle 的資料科學家社群 dna。她向雷鋒網(公衆号:雷鋒網)表示:

“我的第一反應是驚訝。一直覺得 是不小心闖入商業圈子的資料科學聖殿,說是一股清流也不為過——感覺商業模式不賺錢,卻也堅持做了這麼多年而且越做越大,題目越來越豐富,必定有種堅持在裡面。一直感覺他們離商業和資本很遙遠,但是總體來說很高興,因為這個消息給我們帶來了很大的信心。”
從 Kaggle 困局,看國内資料競賽平台如何突圍

張琳豔十分認同谷歌雲計算資源對于

kaggle 的價值,無論是針對資料安全,還是提供更大規模的資料集,并表示“這很有可能是 google 對 kaggle

吸引力最大的其中一點”。但她同時指出,計算環境對不同語言、架構的支援,帶來了額外的公平性和技術問題需要考慮。

datafountain coo 陳娟的觀點,又與上述三位不同。她認為,加入谷歌固然帶來諸多優勢,但長期來看,kaggle 将專注于僅僅作為一個競賽平台,業務單一,因而有利有弊。另一方面,她反對将計算資源看做資料競賽行業一項關鍵競争力門檻的觀點。接入第三方計算資源并非難以做到,真正開放的平台也應該面向所有雲計算服務。

集合上述各位的表态與 kaggle 的現實情況,一條現實情形變得十厘清晰:隻做競賽和社群,在資本層面沒有多少想象空間。國内的資料競賽平台,除了背靠阿裡雲的天池(但阿裡高層也希望天池做到收支平衡),均要另找出路。

路在何方?

上文提到,平台很難通過核心的競賽業務賺錢。對此,張琳豔的解釋十分透徹:

“競賽是個小衆、低頻的行為,是以隻是單純的競賽業務是很難大規模商業化的,而且競賽對于出題機關的門檻也很高,更進一步的縮小了業務的可擴充和複制性。是以競賽隻是形式,通過競賽沉澱下來的方案、人才等才是真正有價值的。那麼變現管道就不僅僅是競賽傭金這一種形式,解決方案衆包、人才衆包、獵頭招聘等都是它的變現管道。”

雖然競賽是立身根基,但衍生業務才是平台活下去的手段。出于此,國内幾家主要競賽平台,均強調自身與 kaggle 定位的不同:并沒打算像 kaggle 那樣專注做競賽和社群,而要與其他服務對接、整合。

datafountain 與 datacastle 都打出了“培養下一代大資料人才”的口号。因而我們可以作出合理預期——教育訓練、招聘業務将成為他們的重點。

從 Kaggle 困局,看國内資料競賽平台如何突圍

而天池的定位則十分不同。天池最早是為阿裡巴巴集團内部服務的團隊,它的成立從一開始就考慮到滿足阿裡雲的戰略需要。天池的許多經典競賽,其實是原先阿裡内部的資料課題。天池打出的口号是:

“外腦+内腦”,利用“衆智”模式向外輸出大資料解決方案。

即把天池平台的個人開發者,與阿裡雲内部專家團隊的智慧結合到一起,向企業客戶提供最頂尖的資料、ai 咨詢服務。而阿裡 et 人工智能系統,便是阿裡雲咨詢業務的核心品牌。

從 Kaggle 困局,看國内資料競賽平台如何突圍

可以看出,天池的定位十分重視 b 端。甚至可以說,在根本上是為有大資料解決方案需求的企業客戶創造價值。而早在 2015 年,《連線》雜志就引用知情人士的發言,稱競賽的優勝方案有時不能給主辦企業帶來價值。這就牽扯出另外一個問題:

資料競賽和産品級的解決方案之間,究竟相隔多遠?

對此有一個圈内共識:kaggle 的競賽優勝方案,隻有很少一部分能直接應用于企業産品。對此的通常解釋是,比賽隊伍為追求極限,使用了大量 ensemble。而這對于實際産品非常雞肋,計算資源耗費過大。

“如果有任何公司認為,這些資料競賽能産生即刻能用的機器學習模型,他們一定腦子有毛病。這些參賽團隊把 hadoop 輸出的點流資料表(clickstream table)作為比賽輸入,然後給出一連串在 windows 上運作的 python 或 r 語言代碼——但他們壓根兒不知道用這些代碼做什麼。而這也不是 kaggle 的目标。資料競賽,是公司尋找技能人才,并做點品牌營銷的途徑,僅此而已。”

這就牽扯到了資料競賽的本質:到底是為競賽主辦方、企業客戶創造價值,為他們提供有實際價值的解決方案?還是偏向為參賽者提供價值,提供最佳的展示技能和練手的機會?

當然,這兩個方向并不沖突,也不互相排斥。但在實際操作中,比賽的方式尤其是排名機制,往往要求在開發實用解決方案方面做出犧牲,兩者之間很難達到一個完美兼顧的平衡。而競賽平台,則可能不得不在比賽的競賽屬性 vs 産品屬性之間做出選擇。

主辦競賽的企業客戶不足,是資料競賽平台發展緩慢的一大原因,國内國外皆是如此。這也是為什麼,張偉會看好與谷歌結合為 kaggle 帶來的業界客戶關系。

張琳豔認為,b 端薄弱是受制于時下的市場發展階段。無論是她、陳娟還是王一婷,均認為當下的大資料競賽行業處在十分原始、不成熟的階段。企業對于資料開放、組織競賽心有疑慮。說白了,國内大多數企業并不懂得如何向“資料驅動型”組織轉型。

張琳豔列舉出三條市場不成熟的“症狀”:

幾乎每個上規模的企業都有大量資料,但是如何合規合法合理的使用,不清楚; 企業内部的資料團隊實力參差不齊,對于平常的業務也許還可以,但是整理成一份賽題,無疑要求更高。 大家對競賽的了解,還停留在類似學校考試的層面。其實作在競賽平台上的競賽,問題和資料都來源于真實場景,而非之前的學術科研層面的理想環境,也就是比大家印象中的所謂‘競賽’更落地。

受限于這些客觀因素,資料競賽的 b 端客戶少之又少、增長緩慢,新合作關系的拓展十分困難。各家競賽平台每年新舉辦的競賽數目,多則十幾個、少則個位數。然而競賽平台又沒有實力和資源來改變市場大氣候,導緻拓展 b 端企業客戶效率低下、十分困難。

當下的參賽者群體,國内國外有天壤之别。

datafountain 透漏了一組數字:在 2016 年的 ccf 大賽,有 55% 的參賽者是在校學生。當問及這背後的原因,陳娟笑着說:“你看國内哪個做 it 的,下班後還有時間搞競賽?”

采訪中,datafountain 陳娟更傾向于從國内大資料行業發展的次元看待問題。據她觀察,其平台的參賽者主要有三個群體:學生、公司團體和個人。其中,學生群體在大多數比賽中占據參賽者的絕大多數,而且在大多數時候表現非常不錯,常占據排行榜的前幾位。究其原因,陳娟認為,在校生有空閑有興趣,肯花時間肯鑽研,加之有明師指導,成績好實不足為奇。

第二個群體,是公司組織員工參賽。而這背後往往有明确的參賽目标——達到某個名次,為企業技術實力宣傳造勢。業内确實有公司在知名比賽中拔得頭籌,結果客戶絡繹不絕的例子。是以,這一參賽群體有經驗有壓力有動力,加之公司安排時間專門去做這件事,往往成績也很不錯。

第三個群體,是個人開發者。這一群體在國内不如 kaggle 活躍,客觀上也難以大幅增長。

按照這一分類,c 端使用者唯一有增長潛力的群體是學生。而這未必是一個好消息。陳娟強調,c 端使用者的成長,是繁榮大資料競賽的必要條件,靠學生群體能否将之支撐起來?

目前,國内除天池以外,其餘幾家平台的使用者基數不多,在數千名到萬餘左右徘徊。相比号稱有 80 萬注冊使用者的 kaggle,隻相當于它的零頭。這裡的問題顯而易見——參賽使用者不足,社群難以活躍,好的方案也難以産生。如何耕耘 c 端,實是各平台的當務之急。

但對此也有不同聲音。張琳豔認為,國内競賽剛剛起步,現在的使用者未必具有代表性,尚待進一步觀察。而王一婷的觀點則更加樂觀,她認為,随着國内市場逐漸成熟,國内參賽者群體會與國外逐漸趨同。在她看來,國内使用者與

kaggle 的最大差別在于分享習慣。kaggle

有積累了多年的社群氛圍,使用者樂于在論壇進行技術讨論和分享。相比之下,國内使用者的分享習慣尚未養成。如何把社群内部的溝通氛圍營造起來,培養使用者粘性,才是最大挑戰。

從 Kaggle 困局,看國内資料競賽平台如何突圍

首先需指出,各平台現階段的商業模式仍在摸索,下一步的計劃也更多是“思路”,而非“戰略”。

天池和 datafountain 應對上文這些挑戰的方式,截然不同。

天池的計劃總結起來,可概括為:“高精尖”,加速國際化,結合阿裡 et; 而 datafountain 的思路可概括為:衆包,深耕 c 端,建立開放的全生态。

天池的目标,無論是在資料、題目設定還是最終解決方案上,都希望達到業内頂尖水準。是以而集中精力做精品賽題,甚至是世界級難題,是謂“高精尖”思路。天池将聯合英特兒、國内公立醫院推出的肺癌診斷競賽,便可作為代表。天池的重點,是向阿裡雲的企業客戶輸出技術。在競賽的性質上,也偏重于實際解決方案,務求盡可能還原真實業務場景。

datafountain

同樣強調為 b

端企業客戶創造價值的必要性。陳娟認為,這是資料競賽平台行業的最大門檻。長期來看,擁有一支能高效與企業對接的資料專家隊伍,能進行高水準的賽題設定,是平台的核心競争力之一。但是,陳并不看好以資料競賽形式解決世界級難題這樣的“大單”,而認為真正的市場是“多而小”的資料任務:若把資料競賽市場比喻為金字塔,塔尖所代表的業務量很小,絕大部分市場空間都在中底部。雖然當下的競賽市場離真正的衆包還有很遠,但

datafountain 更看重中小企業的資料服務需求,并希望最終能将之與參賽者進行充分對接。

在當下 b 端市場不成熟,工業界對資料競賽認識不足的情況下,各平台頗有“等風來”的意味。引用王一婷的表述:

“我覺得資料競賽市場真正打開需要的是時間,讓更多的傳統企業能擁抱 ai 的時間。”

陳娟則樂觀得多:

這背後的原因,在于政府。陳娟認為,我國各級政府機關近年來推動資料公開的力度越來越大,上海市政府便是範例(比如

soda)。這帶動的國企、公立醫院等也開始進行相關嘗試。開放公共資料是大勢所趨,而在一兩年内,就可能量變引發質變,并由此帶動民營經濟領域的資料開放。

屆時,便是行業洗牌的時候。

兩家平台的 c 端思路也完全不同。近年來,阿裡雲在國際市場上動作頻頻。去年與軟銀合作,在日本推出“sb cloud”品牌,便是一個頗令人矚目的例子。作為阿裡雲的子部門,天池是國内競賽平台中迄今為止,唯一有國際化大動作的一家。王一婷表示:

“天池的國際化腳步才剛剛邁開,這是我們需要加快步伐的地方,是以今年我們成功申請了國際資料挖掘領域最頂級賽事 kdd-cup 2017 的舉辦權,以此向全世界的資料愛好者張開雙臂。”
從 Kaggle 困局,看國内資料競賽平台如何突圍

在與雷鋒網的采訪中,王一婷多次提到,當下天池平台的使用者基本都是海内外華人,她們有意改變這一點。

陳娟則認為,如能充分挖掘國内市場,單是把全國計算機專業的學生動員起來,就是十分可觀的使用者基礎。在這方面,作為中國計算機學會

ccf 官方指定平台的 datafountain,有着天然優勢。陳表示,“深耕 c

端這件事必須有人去做”。如果國内沒人做,資料競賽市場很難真正做大。

最後,針對國内市場, datacastle 張琳豔如此評論道:

“最經典的就是賣鞋的例子了,沒有人穿鞋,到底是挑戰還是機遇呢?”

<a href="https://www.leiphone.com/news/201703/v2lacngyqi9gs6ul.html">加入 kaggle 大資料競賽,總共分幾步?</a>

繼續閱讀