2016年7月17号在北大舉行的第五屆中國大資料應用論壇上,中國新一代it産業推進聯盟技術分委會秘書長魯四海做了題為《大資料技術及行業應用》的分享。他分享内容分為三個部分:第一,行業的趨勢、技術發展是什麼樣的;第二大資料在傳統行業落地的困難,大資料要用起來最終還是落在傳統行業,因為it技術的發展不能自娛自樂;第三,傳統行業如何落地大資料。

大資料産業發展趨勢
首先來看,現在的大資料産業正在發生着哪些變化。第一,首席資料官開始崛起。第二,可視化是推動大資料普及的一個重要的手段。大資料的真實使用者,我們認為是業務不應該是it人員。第三,大資料還有一個趨勢就是智能化嵌入,一個是終端的嵌入,一個是在服務端的嵌入。第四是機器學習迎來上揚的趨勢,它已經是未來資料準備和預測分析的必要工作。第五,開源應用會持續加速。第六,資料服務逐漸形成發展規模,這個主要有三個原因:一是資料這個事我們沒有必要做一些重複的工作;二是資料服務促進共享。三是擁有資料的企業找到了一種創收的方式。第七,算法市場正在興起,資料要去解決問題,中間需要一個算法模型來支撐。第八,網際網路、金融、健康保持熱度,智慧城市、企業資料化、産業網際網路将成為新的增長點。
從前面的趨勢我們也可以看出,傳統行業将是大資料的主戰場。資料對傳統企業的巨大價值不用贅述,具體展現在四個方向:一是在決策模式上,在資料這個時代,以從流程為中心轉向資料為中心;二是營運模式上,不再是以産品和服務為中心,轉向以使用者為中心;三是協作模式上面,原來是以供應鍊為基礎的,現在是生态鍊為中心。四是企業組織模式上,原來是以層級為中心,現在是以員工為中心。
傳統行業落地大資料的挑戰
但是傳統行業落地大資料也是有很多挑戰的。比如我們之前在做咨詢過程當中就遇到過這樣的情況。有的it項目傳遞的時候被推倒重來,大資料項目也可能出現這種情況。一個是需求之前是不準确的,二是我們這個系統建設速度跟不上需求的變化。?
都說大資料的是驅動創新的最佳方式,其實創新還是有蠻多坑的。比如說,這兩年大家都在講小米的參與感。都去學人家微網誌微信的營銷,然後以對人家的微網誌微信進行資料分,然後套到自己的産品上,結果一點成效都沒有。但人家走量最多的紅米首發選擇了qq空間,也得到了qq空間的大力支援。依據資料創新最大的風險在于,認識片面性和資料片性。
有的企業會通過投資收購方式去發展公司業務,投資者們達成明确而廣泛的共識,差不多很多時候都是錯的,因為大家在追逐熱點,熱點就有可能導緻說大家都過獨木橋。其實很多時候是在做重複性的研究,這個産業我們需要協作。
其實資料是很核心的一塊,我們做大資料首先解決資料的問題。資料分成兩塊來看,分為内部和外部。内部的資料,一個是現在還有沒有資料。我們剛才聽到了去哪兒網可以通過一些技術手段,收集他的資料。那麼一般的組織是不是能夠達到呢?再就是資料品質如何。資料的品質就要分成兩塊,資料的有用性和資料的可用性。?
談完資料就讨論技術,目前我們問三個問題,你的技術路線,走開源的還是閉源的。第二是私有部署還是使用saas的工具去解決你的問題。第三這點更細節,走hadoop還是走mpp這條線,這跟企業資料特點是有很大關系的,比如說你的資料以結構化為主的,那mpp的模式就更适合你。
技術真的隻是工具,資料其實是大資料分析過程當中的材料。隻有材料、隻有工具這能做出産品麼?不行的,還有一個東西,它需要配方、需要生産的方法,這個就是算法模型。但是算法模型有幾個問題一是對于法的人要求非常高;需要做大量的訓練;你開發出來一個模型之後,應用效果也需要檢驗。
團隊,至少有三個方向,首先是業務專家,他解決的問題是資料的可用性。然後就是it專家,那樣解決怎麼存資料、獲資料、管理資料。還有就是統計專家,他去開發一些模型。目前是這幾種比較存在形式。還有一種是技術導向型的,再一個是以應用、業務為導向的。
如果完全自建團隊,團隊建設周期需要考慮;如果是合外部服務商一起合作,那麼服務商的選擇就極其重要了,在大資料初級階段,大資料企業良莠不濟。
傳統行業如何落地大資料
前面說到大資料應用的主戰場是傳統行業,面對這麼多的挑戰,如何讓大資料落地,核心是三個問題:未來走到哪裡,從哪裡開始,演進步驟是啥。
我們先看未來走到哪裡。大資料的發展最終是智慧化,是以未來應該是以服務的方式嵌入到具體的業務中去。是以未來企業都應該有一個大資料服務平台,這個大資料服務平台通過實時的計算處理,實時響應各業務系統所需要的資料服務。大資料服務平台需要的資料、算法模型又從哪裡來呢?答案就是大資料分析平台,分析平台包括資料準備、存儲管理、計算處理、分析挖掘、人機互動等内容。也就是從未來的企業大資料平台包括大資料分析平台和服務平台。分析平台着重是離線資料的加工處理、算法模型的研發以及實作挖掘結果的互動;而服務平台着重在線上資料服務,直接為各業務環節提供線上的資料服務。如下圖所示:
企業級大資料應用邏輯架構參考圖 要實作這樣的大資料架構,難度、複雜度都非常高,是以需要分步實作。有觀點說先把大資料分析平台建起來,按照資料準備、存儲管理、計算處理、分析挖掘、人機互動一層一層地建,然後建設資料服務平台。這種方式從技術的角度看是非常完美的,但實際操作難度大,而且容易出現平台使用率偏低的問題。原因主要有兩個:一個是信心,一個資料。先說信心,這種方案前期大量的基礎建設,在人、财、物上大最的投入,卻看不到應用效果,同時在看不到效果的情況下要求業務部門進行大量的配合工作,都會讓大家信心、動力不足。資料,這各路方案比較重視基礎能力建設,但是現在是不是資料能夠接入進來,取決于兩個面,一企業内部資料化是不是達到一定的基礎,二外部資料是不是已準備好了。我們認大資料落地應該是融入到業務場景裡面去的,通過對一些企業大資料應用的調研,我們發現大資料應用可以分為這感覺、探索、起步、發展、融合這五個發展階段。如下圖所示:
大資料應用5個演進階段示意圖
感覺階段,通過引入一些外部咨詢、資料服務讓整個組織感覺大資料對業務發展的作用,通過教育訓練提升組織對大資料的認識。然後在内部實作一些簡單的報表實際應用到業務中去。
探索階段,建設輕量級資料分析平台,實作核心業務資料分析,進而推動組織内部的資料化。開始資料應用、團隊建設等方面的探索,可以引入外部團隊進行資料戰略的規劃。
起步階段,拓寬資料分析應用範圍,在織織資料化發展到一起基礎的前提下,建設資料治理體系,着手建設企業級大資料分析平台。
發展階段,推動組織内部全面資料化,建設面向業務使用者的大資料分析平台。如果說起步階段更多是it部門的參與,為業務部門所需要的資料服務還更多需要it部門的配合;發展階段業務部門将有更多的自主能力,it部門更多進行背景支援,進行資料品質、平台的維護。
融合階段,是大資料應用最終目标,通過資料服務平台的建設,将資料服務融合到業務各個環節,實作用資料驅動業務。
最後給大家幾點建議:
第一,制定資料戰略。這個戰略不僅僅是口号,應面巾是有相應的機制、制度出來。
第二,建立資料化計劃。首先得有資料,要把企業實作資料化之後才能更好的做資料的分析,而且在這個過程當中很重要的一點是要保證資料的品質。
第三,建立資料平台。重點考慮,這個資料放到這之後能夠找得到,還有就是被讀得懂;重客戶參與,讓業務人員參與進來。
第四,量體裁衣建立資料團隊。
第五,定制好外部資料服務戰略。
第六,活資料,動态模型。隻有動态更新的資料才是最有價值的資料。模型上也要下功夫,資料是材料,平台是機床,而算法模型則是生産方法和工藝,是競争的核心。
魯四海還是首席資料官聯盟發起人,在分享中也提到他們7月14号釋出《中國大資料企業排行榜》,包括有産業地圖、行業分析、大資料企業評價名額體系和五十多個次元的排行榜,為各位在選擇大資料技術路線、産品、服務選擇以及服務商判斷方面提供一些參考。
====================================分割線================================
本文轉自d1net(轉載)