天天看點

八個步驟讓你的企業“資料化”

什麼樣的企業可以稱得上是大資料企業呢?恐怕沒有人能夠給出一個完美的答案。但是,直覺地,我們可能覺得google 更像是一個大資料的企業,阿裡巴巴也像是一個大資料的企業,而中國銀行似乎不太像一個大資料的企業,盡管它每天也一樣浸泡在海量的資料中。除了具有處理大量資料的能力外,之是以google 和阿裡巴巴更像大資料的企業,是因為他們有深入的資料分析工具,利用資料分析的結果直接指導決策,而且經常推出基于資料分析的創新型應用,這還不包括類似于alphago 這樣的奇葩。

這是我第三次以文字的形式談論如何成為一個大資料企業。一是很早以前在“科學網”上寫的一篇部落格,二是為一本名為code halos 的書寫的序言。這個版本可以看作是上兩個版本的補充和擴充,同時也是本書一些重點内容的重述(為了保證本文的獨立性,可以不依賴本書直接閱讀,少量書中給出過的文獻和注釋在本文中重複出現了)。然而遺憾的是,并沒有一條放之四海皆準的通往大資料企業的康莊大道,更沒有點石成金之術可以讓一個企業快速google化。這篇結束語隻是提出一些看得見摸得着的建議,藏在這些建議背後的大資料理念,或許更加重要。

盡管我是用step1、step2 這樣的說法來列舉成為大資料企業的措施,但是這些步驟之間并沒有嚴格的邏輯上誰決定誰或者時間上誰先誰後的關系。舉個例子來說,最好的辦法當然是先有了資料标準再整理采集資料,這樣可以不走任何彎路,但實際上完全沒有資料,企業不會有動力做标準建設,做出來的标準也可能是紙上談兵,完全不實用。又比如,資料管理平台的建設能夠幫助更好地進行全面資料化,但實際上它多半是全面資料化戰略進行了一定程度之後才開始啟動建設的。總體來說,寫在更前面位置的,是更基礎的,但是沒有絕對的依賴關系。

◆ ◆ ◆

step 1. 全面資料化

“資料化”浪潮是整個大資料時代的起點,它強調資料就是資産,記錄一切可以記錄的資料,并相信這些資料一定會在某一天産生巨大的價值。顯然,資料化是一個企業能夠通過深入資料分析,實作自身優化的基礎。

我去長虹集團調研的時候,他們告訴我,長虹電器在自己的生産線上,通過大量傳感器,記錄生産環境的溫度、濕度、粉塵度、振動強度和噪音強度,等等,通過這些量化名額與産品品質的關聯分析,得到影響産品優品率和良品率的關鍵因素,再進一步通過控制環境因素,明顯提高了産品的優品率。企業在日常的經營管理過程中,通過辦公自動化系統(oa系統),很多内部即時通訊、郵件往來、工作配置設定和業務檔案上傳下載下傳等日志資料都被記錄下來了。這些資料就是寶貴的财富!我們通過對這些資料的分析,能夠更精确地預測員工的離職率和升職率,更精确地預測員工和部門的績效水準,幫助企業員工通過基于關聯使用者和文本智能比對快速找到對自己現有業務和客戶有參考價值的案例和檔案,等等。但是這些提升,都是建立在企業擁有相應資料的基礎上。

總的來說,全面資料化要求企業采集并存儲企業生産經營中的一切資料,形成企業資料資産的概念。

step 2. 整理資料資源,建立資料标準,形成管理規範

很多企業已經有了一些資料儲備,或者通過第一步,開始快速積累了一些資料。但是企業管理層,尤其是跨業态擁有多家子公司的集團營運的企業,一般而言,對于自己到底有哪些資料資源是沒有清晰認識的,更拿不出一張較完備的資料目錄。

企業要做的第一步,就是通過自頂向下的方式,成立資料委員會,在有必要的時候借助外部合作方的幫助,進行全面的資料調研,了解資料資源的整體情況并建立資料資源情況更新的流程和規範。

資料資源最基本的呈現方式是一個資料目錄,我認為,企業管理團隊至少要掌握整個企業資料的3級目錄,而企業的主要技術團隊應該掌握到4級目錄。但資料資源又不僅僅是資料目錄,因為還涉及到每一個資料項的完備性、更新程度、有效性和噪音源等描述。掌握了資料資源後,企業要根據自己業務發展的需求,建立資料标準,使現有資料和未來所有的新增資料都能夠在同一個标準下統一管理,避免“資訊系統建設越多,未來資料整合越難”的困境。業務中涉及大量資料的企業,尤其是涉及到使用者隐私資料、國家安全資料和具有重要商業價值資料的企業,要形成資料全流程管理的規範,因為絕大部分資料隐私和資料安全的事件,都不是從外部由黑客或者敵方特定人員通過技術手段獲得的,而是本機關人員蓄意或無意洩露的。資料全流程管理的規範就是要做到企業能夠對資料進行分級分權限的管理,随時了解敏感資料存儲在哪些伺服器和終端裝置上,對于敏感資料的任何處理,都能夠留下資料日志并打上唯一的資料水印,使任何可能的資料洩露之後,都能夠追根溯源知道是哪一位員工在什麼時間點在哪一台裝置上運用何種權限下載下傳的。對于一些操作過程中出現的風險點,良好的管理規範也能夠實時發現,防患于未然。

step 3. 建設資料管理平台

有的讀者一聽到資料管理平台,就認為是要花一大筆錢建設資料中心,把資料存起來。資料管理平台肯定要有資料中心的存儲災備功能,但是它的作用遠不止此。

首先,資料管理平台要為企業量身定做一套資料組織和管理的解決方案,特别是企業各部門之間資料的共融共通,以及企業資料怎麼樣進行索引和關聯。很多大企業,各部門之間資料的格式、形态和id系統都不一緻,部門之間無法交換資料,甚至大部分的資料表連主鍵和外鍵都沒有,資料之間不可能形成有效的組織。這些都是資料管理平台要做的事情。

其次,資料管理平台是由業務所引導的,先進的流資料智能處理系統,要為業務提供直接的支撐。很多時候,資料管理平台怎麼搭建,需要深度了解企業最重要的核心業務,通過有重大價值的示範性應用來牽引資料管理平台的建設。例如針對零售類的企業,就應該形成以消費者為中心的索引和畫像系統,主要支援精準廣告、智能客服等核心業務,其次才是以商品為中心的索引系統,主要支援物流和倉儲優化等業務。

最後,資料管理平台的建設要量體裁衣,強調魯棒性和可擴充性,沒有必要一開始就投入大量經費。因為硬體成本的下降也很快,不用想太多半年甚至一年以後的事情,隻要架構設計合理,到需要的時候擴充硬體是容易的。

step 4. 建立海量資料的深入分析能力

要想建立針對多元異構、跨域關聯的海量資料,通過深度分析挖掘擷取價值的能力,主要要培養兩個方面的能力。

第一,非結構化資料的分析處理能力。包括文本、音頻、圖像、視訊、網絡和軌迹等資料。受過傳統商務智能和統計學訓練的人,對于處理結構化資料非常在行,但是處理非結構化資料往往比較頭痛——比如分布好做抽樣,網絡怎麼進行抽樣?是以,對于常見的,特别是和企業自身業務有密切關系的非結構化資料,一定要有一支隊伍能夠挖掘其間價值,甚至将其轉化為結構化的資料。

第二,大資料下的機器學習的能力。絕大部分我們可以想象到的應用問題,其本質都是分類或者預測問題,包括個性化推薦、精分營銷、員工績效管理、銀行信用卡征信、小微企業貸款、生産線控制、精準廣告和網點選擇,等等。解決這些問題最有力的武器就是機器學習!特别是在大資料環境下,很多高階的核函數慢得不行,大量的學習都必須采用線性學習器;而且資料非常多,很多時候都是在強噪音環境下尋找弱信号,單一分類器往往效果一般,必須要做內建學習。舉個例子,在netflix舉辦的百萬美元電影個性化推薦大賽中,我們做過一些很優美的單模型,但是比起在比賽中最後獲勝的內建學習模型,至少從精度上來說是弱爆了!有的讀者要問了,高性能存儲計算難道不重要嗎?不得有一些懂hadoop,懂spark的技術高手嗎?要不要在cpu陣列裡面加幾塊gpu甚至可程式設計邏輯陣列呢?這個也重要,但是企業如果實力足夠,可以采用成熟的解決方案,國際上頂尖的大資料服務商,例如ibm、hp和intel都有不錯的方案。但是我說的上述兩點,是給企業培養人才和能力,而且至今也沒有特别好的成熟的解決方案,是以更重要。

最後,企業怎麼建立這樣的能力呢?首要辦法是能夠招聘到一流的大資料人才——多花點錢和股票。第二選擇是以顯示度項目為牽引,通過外部合作,培養自己的資料分析團隊,既解決問題,又學習能力。企業做這類的合作,不要老想着一次性把所有東西都外包出去,要探索新方式,看看能不能成立聯合小組共同進行研發,多投入一些人去學習。有一些供應商,特别是在某些方面有專長,但是還不屬于國際一流的供應商,在發展過程中是能夠接受企業這種要求的。

step 5. 建設外部資料的戰略儲備

企業走到這一步,就有點現代大資料企業的理念了,因為它不再僅僅局限于自己業務的資料了,開始看外面的世界了——很多大資料的重大創新,都是來源于把資料放在産生資料的業務體系之外去應用。舉個例子,一個服裝企業要解決設計生産的規劃問題,僅僅看自己的銷售記錄還不夠,要不要看看淘包、天貓和京東上服裝的整體銷售,了解什麼款式、什麼顔色、什麼價位的服裝在哪個地區最受歡迎呢?這就需要外部資料了!

事實上,外部資料對于市場拓展、趨勢分析、競品分析、人才招聘、使用者畫像和産品推薦等意義重大,而網站、論壇、社交媒體和電商平台上聚集了很多有重要價值的公開資料,這些資料中的大部分可以通過分布式深網爬蟲技術直接高效采集。是以,企業要有意識地開始建立自己的外部資料戰略儲備,不要“數”到用時方恨少。一方面,企業可以自建具備采集、清洗、存儲和索引等功能的自動化系統,自動積累外部資料;另一方面,企業可以通過和資料供應商合作,得到一些亟需的資料。

step 6. 建立資料的外部創新能力

企業很容易局限在自己的業務中不能自拔。是以,讓企業了解外面的資料能夠幫助解決自己業務遇到的問題比較容易,因為企業主和員工們每天都在想怎麼解決這些問題,反過來,讓他們去思考自己業務的資料能不能在其他地方産生重大價值,幫到其他企業,他們就沒有那麼敏感了。其實,這些創新性的想法往往能夠帶來新的巨大價值。比如,google利用自身搜尋業務産生的資料,進行電價和傳染病流行情況的預測,取得了巨大成功。

事實上,企業通過智能終端、傳感網絡、物流記錄、網點記錄和電子商務平台,等等,獲得的第一手資料,很多都可以用于支援在跨領域交叉銷售、環境保護、健康管理、智慧城市、精準廣告和房地價預測等方面的創新型應用。把握住這些機會,就能夠放大企業目前業務的價值,帶來持久可觀的收益。

step 7. 推動自身資料的開放與共享

偉大的企業懂得如何把最聰明的人集合起來,為自己服務。

企業有了大量資料和一定的分析能力後,不能故步自封,而要充分借助社會的力量,盡最大可能發揮資料潛藏的價值。netflix曾經公開了包含50多萬使用者和17 770部電影的線上評分資料,并懸賞100萬美元獎勵能夠将netflix現有評分預測準确度提高10%的團隊。現在的netflix已經不再是一家電影線上租賃公司,而是國際一流的大資料企業了。除了法律上因為安全和隐私不能開放共享的資料,相當一部分都能夠以各種方式開放出來——這種開放會帶來更大價值!國際化的如 kaggle(英文平台,www.kaggle.com),國内如 datacastle(中文平台,ww.pkbigdata.com),都是很有影響力的大資料創新競賽平台。

舉個例子,電子科技大學大資料研究中心曾經在datacastle上舉辦過學生成績預測的比賽,總獎金才50 000元,卻吸引了915支隊伍2 000餘名參賽者參加比賽,其中200多隻隊伍來自于“985”和“211”知名高校。這裡面最佳解決方案的思路和方法已經被應用于教育大資料定量化管理的産品子產品中了。最近現金巴士推出的“微額借貸使用者人品預測大賽”更是吸引了1531支參賽隊伍。還有一種最近新出的比賽方式,就是企業給出資料集的描述和樣本資料,參賽選手設計創新型商業應用,送出産品說明或者商業計劃書。

企業通過這些資料開放計劃,可以學習最先進的算法和最具創新性的資料應用思路,實作自身資料的價值最大化。

step 8. 資料産業的戰略投資布局

企業有了一定的規模,光靠自己的能力還不夠或者還太慢,就可以考慮通過投資的方式迅速形成自己的大資料能力甚至大資料産業布局。這類戰略型的投資,有三個可能的出發點:

(1) 産業內建。從投資方原有優勢産業或大資料前景廣闊的重點産業入手,進行全産業鍊布局,集中力量。 (2) 技術內建。以資料采集、存儲、計算、分析和可視化的創新型工具為主要投資對象,提供具有普适性的解決方案。 (3) 資料內建。以資料流動共享,發揮外部價值為理念,投資一批能夠緊密合作、資料互補和可控性強的企業。

對于原來沒有從事過資料密集型和資訊技術密集型行業的企業來說,第二類投資方向的風險特别大,建議主要從(1)(3)兩類考慮。這種投資有别于财物投資,主要是考量被投資企業與投資方的整合能力,以及所能提供俄資料的稀缺性、獨立性、多源性、流動性和互補性。

最後,補上這樣一個結束語的目的,是希望讀者能夠從中領悟到企業的大資料之道!如果說有那麼幾家企業,受到這本書的啟發,在商業模式、産品和業務方面産生了可觀的價值,這就是作者最大的成功了。

八個步驟讓你的企業“資料化”

原文釋出時間為:2016-05-15

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号

繼續閱讀