天天看點

誰能将傳統企業帶入大資料時代? -- DTCC資料庫大會感想

     大會的倒數第二場演講是天貓的周祥軍講解的“天貓商品詳情頁滿意度模型”,他講解的内容涉及到太多我不了解的專業知識,是以我也沒怎麼仔細聽,隻是到最後主持人的一席話引起了我的注意。周祥軍給自己的定位是“搜尋技術專家”,主持人說不如叫“資料科學家”更加貼切。在美國,已經有多家大學頒發“資料科學家”學位了,而且據主持人的分析,“資料科學家”的崛起在國内是早晚的事兒,五年之内對資料科學家的需求将會有一個爆發性的增長。這讓我想起了現在比較火的一本書《大資料時代》,裡面把大資料時代的三種關鍵角色稱為“大資料掌控公司”、“大資料技術公司”、“大資料思維公司或個人”,并認為會出現一種新的職業,做資料買賣的“資料中間商”,而且在将來行業專家有可能被“資料科學家”所取代。      在這次DTCC大會上,也可以把分享者的公司按照這幾種類型進行分類:      大資料掌控公司:中國移動、阿裡巴巴、百度、愛奇藝、京東、新浪、平安科技、網易、360、智聯招聘、當當網、國家某部委資訊中心、騰訊。      大資料技術公司:IBM、SAP、達夢、Intel、拓爾思、華為、Oracle、微軟。      大資料思維公司或個人:艾瑞咨詢、Verint咨詢。      上面隻列出了一部分,大家可能覺得這麼分不準确,所謂的“大資料掌控公司”大部分都是網際網路公司,同時兼有“技術公司”和“思維公司”的角色,而他們也是所有公司中,在大資料領域最成功的一個群體。除了網際網路公司,傳統行業的大資料掌控公司包括平安科技和國家某部委資訊中心,他們目前所做的是做好應用。平安科技主要是基于業務提升應用品質,應對海量的OLTP業務,是以他們應用了Oracle Timesten記憶體資料庫;國家某部委資訊中心業務衆多,共有400多個應用,他們目前在做的工作是在多地建立資料中心,并優化應用體驗。有意思的是,分享者們對“啤酒和尿布”的看法似乎能反應他們目前在做的是“大資料”還是“小資料”。在“資料掌控公司”中的很多分享者,和兩個“大資料思維公司”,都提到了“啤酒和尿布”的故事,他們之中正在做大資料分析挖掘的人,或正在研究大資料的人,比如Verint咨詢的分享者,他們都認同“啤酒和尿布”的故事,并饒有興趣的把自己的工作與這個故事進行對比;而專注于應用的分享者,包括艾瑞咨詢的正在專注于把小資料做精的分享者,都不太認同這個故事,他們認為大資料領域沒有“黑天鵝”,這個故事讓人失去理智。我覺得從“應用”的角度來講,這說明了大資料發展的不同階段,已經深入到大資料領域的人,身後無不是有已經成熟的應用為他們提供海量的資料,還沒有深入到大資料領域的人,也許等他們的應用成熟了,就會考慮資料應用的問題,或者由于業務的進化是無窮的,他們靠自己永遠也無法進入到大資料這個領域。在第一天Hadoop專場的主持人,來自百度的馬如悅說:“不要成為技術的傀儡,要從應用入手”也反應了這個意思,他本人做了六年Hadoop之後,轉入到上層應用中。傳統行業的業務變化很快,應用優化的工作尚且做不夠,哪兒有時間搞大資料呢?也許真的需要有人來幫助他們才行。目前與傳統行業接觸最多的應該是技術公司和咨詢公司,技術公司一般是靠産品支撐,提供解決方案的方式與企業合作,但畢竟不是自己的企業,是以合作的深度有限,主要以提供産品為主,并把産品融入到解決方案當中去。這些産品從硬體到軟體都有,例如華為的FusionCude存儲、與華為合作推出關系型資料庫一體機的達夢和拓爾思、SAP&ORACLE&微軟的記憶體資料庫等...大都圍繞着高檔硬體和關系型資料庫,這些都能夠幫助傳統行業收集海量的資料,但對大資料的應用還缺乏推動力。從會上兩個資料思維公司的分享中,艾瑞的分享者分享了他們在小資料領域的成績,并誠懇的提出了自己的建議,Verint的分享者分享了她在大資料領域的探索,至少從他們的分享來看,他們對幫助傳統企業如何進入大資料時代還沒什麼辦法。目前來說,思維公司們無法在大資料領域幫助傳統企業,技術公司們在幫助他們如何把更多的業務搬到網上來,并在此上樂此不疲,是以暫時傳統行業在短時間内恐怕還無法進入到大資料領域中。他們之中大多都在進行一些“創新研究”,而艾瑞的分享者給出的建議是:“創新研究”不是大資料領域正确的入口點,正确的入口應該是“如何展示我們自己、如何幫助我們省錢&賺錢、如何提升使用者體驗”,并且這種方式不符合“資料挖掘9大定律”之中的幾條核心定律。如果這個結論正确的話,恐怕大部分傳統企業在大資料方面的努力都是無用功。主持人也發出了無奈的聲音:“誰來幫助中小企業提供大資料解決方案?”也許在将來資料科學家們崛起之後,這種情況才會有所改變。      當當網的技術副總裁付強的分享中,提出了目前正在熱議的“跨界”議題,但他并不是針對業務來說的,而是出現在他們公司技術人員當中的一種現象:DBA寫更多的腳本,越來越像RD;RD寫更多的PPT,越來越像産品經理;産品經理會寫sql,越來越像DBA。為什麼人都這麼熱衷于别人的領域?我大膽的猜測一下。首先,DBA通常指傳統關系資料庫的管理者,他們是關系資料處理和工具使用的專家,當關系資料庫遇到瓶頸,DBA們要想處理這些資料,就需要用到其他的工具,比如目前正熱的R、Python等腳本語言,或者MapReduce等,是以他們要寫越來越多的腳本。RD的本職工作是系統研發,随着需求越來越偏向關注使用者(這都要感謝amazon),他們必須将一些挖掘算法融入到應用中去,有了這些新東西大家都想關注,是以要寫更多的PPT去給别人講解;産品經理要讓他們的産品更受歡迎,開始越來越多的關注資料,是以要學會寫sql。俗話說求人不如求己,有誰能比自己更了解自己的需求呢?是以大家紛紛跨界,成就了一段佳話。帶來關鍵性轉變的也許是RD逐漸變成了大資料算法和工具專家,也就是兼有了“資料科學家”和“技術專家”的角色,這種轉變首先将網際網路公司帶入了大資料領域,也真的從中取得了實惠。其實,在技術上的“跨界”值得慶幸,也是一種無奈,說明了“資料科學”和“計算機科學”如果不是同一個人同時精通這兩門技術,是多麼的難以融合。目前在做大資料的公司中,“思維公司”和“技術公司”的分界過于明顯,大家專注于自己的領域中,難以融合,這也許是兩者都難以在大資料領域對傳統企業有所幫助的原因。如果把“大資料技術公司”和“大資料思維公司和個人”這兩種角色合而為一,統稱為“大資料應用公司”來模糊兩者之間的界限,這樣是否更合适呢?随着越來越多成功的網際網路公司“跨界”到傳統軟體行業中來,我想這個問題的答案會變得越來越清晰。

繼續閱讀