天天看點

資料挖掘與資料化營運實戰. 1.4 資料化營運的必要條件

<b>1.4 資料化營運的必要條件</b>

雖然從上面的分析可以看出,資料化營運有如此多的優越性,但并不是每個企業都可以采取這種新戰略和新管理制度,也不是每個企業都可以從中受益。個中原因在于成功的資料化營運必須依賴幾個重要的前提條件。

<b>1.4.1 企業級海量資料存儲的實作</b>

21世紀核心的競争就是資料的競争,2012年3月29日,美國奧巴馬政府正式宣布了“大資料的研究和發展計劃”(big data research and development initiative),該計劃旨在通過提高我們從大型複雜資料集中提取知識和觀點的能力,承諾幫助加快在科學和工程中探索發現的步伐,加強國家安全。從國家到企業,資料就是生産力。但是,具體到某一個企業,海量資料的存儲是必須要面對的第一個挑戰。資料存儲技術的飛速發展,需要企業與時俱進。根據預測到2020年,全球以電子形式存儲的資料量将達到35zb,是2009年全球存儲量的40倍。而在2010年年底,根據 idc的統計,全球資料量已經達到了1 200 000pb或1.2zb。如果将這些資料都刻錄在dvd上,那麼光把這些dvd盤片堆疊起來就可以從地球到月球打一個來回(單程約24萬英裡,即386 242.56千米)。海量的資料推動了資料存儲技術的不斷發展與飛躍。

我們一起來回顧一下資料存儲技術的發展曆程:

1951年:univac系統使用錄音帶和穿孔卡片作為資料存儲。

1956年:ibm公司在其model 305

ramac中第一次引入了磁盤驅動器。

1961年:美國通用電氣公司(general

electric)的charles bachman開發了第一個資料庫管理系統—ids。

1969年:e.f. codd發明了關系資料庫。

1973年:由john j.cullinane上司的cullinane公司開發了 idms—一個針對ibm主機的基于網絡模型的資料庫。

1976年:honeywell公司推出了multics

relational data store—第一個商用關系資料庫産品。

1979年:oracle公司引入了第一個商用sql關系資料庫管理系統。

1983年:ibm 推出了db2資料庫産品。

1985年:為procter &amp;

gamble系統設計的第一個商務智能系統産生。

1991年:w.h. billinmon發表了文章《建構資料倉庫》。

2012年:最新的存儲技術為分布式資料倉庫、海量資料存儲技術和流計算的實時資料倉庫技術。

回首中國企業的資料存儲之路,國内的資料存儲技術的發展經曆了将近30年,而真正的飛速發展則是最近10年。

國内的資料存儲的先驅是國有銀行,在21世紀初,四大國有銀行的全國資料中心項目(将分布在全國各個省行和直屬一級分行的資料集中到資料中心)拉開了資料技術飛速發展的帷幕。

以發展最具代表性的中國工商銀行為例,中國工商銀行從2001年開始啟動資料集中項目,剛開始考慮集中中國北部的資料到北京,中國南部的資料到上海,最終在2004年将全部資料集中到了上海,而北京則作為災備中心,海外資料中心則安置在深圳。中國工商銀行的資料量在當時是全中國最大的,大約每天的資料量都在tb級别。由于銀行業存在一定的特殊性(性能要求低于安全和穩定要求),又因為當時業内可選的技術不多,是以中國工商銀行選擇了大型機+db2的技術方案,實際上就是以關系型資料庫作為資料存儲的核心。

在3年的資料集中和後續5年基于主題模型(ncr金融模型)的資料倉庫建設期間,中國工商銀行無論在硬體網絡和軟體人力上都投入了巨大的資源,其資料倉庫也終于成為中國第一個真正意義上的企業級資料中心和資料倉庫。

其他銀行和證券保險,甚至電信行業以及房地産行業的資料倉庫建設,基本上也都是采用與工商銀行相似的思路和做法在進行。

不過,随着時間的推移,資料量變得越來越大,硬體的更新換代也越來越快,于是,這類資料倉庫逐漸顯現出了問題,主要表現如下:

少數幾台大型機已經無法滿足日益增加的日終計算任務的執行需求,導緻很多資料結果為t-2(當天資料要延後2天才完成),甚至是t-3(當天資料要延後3天才完成)。

硬體更新和存儲更新的成本非常昂貴,維護、系統開發以及資料開發的人力資源開支也逐年加大。

由于全國金融發展的程序差異很大,資料需求各不一樣,加上成本等原因,不得不将一些資料計算任務下放到各個一級分行或者省分行進行,資料中心不堪重負。

随着網際網路行業的逐漸蓬勃興盛,占領資料存儲技術領域巅峰的行業也從原有的國有銀行企業轉移到了阿裡巴巴、騰訊、盛大、百度這樣的新興網際網路企業。以阿裡巴巴為例,阿裡巴巴資料倉庫也是經曆了坎坷的發展曆程,在多次重建後才最終站在了中國甚至世界的頂峰。

最開始的阿裡巴巴網際網路資料倉庫建設,幾乎就是中國工商銀行的縮小版,網際網路的資料從業人員幾乎全部來自國内各大銀行或電信行業,或者來自國外類似微軟、yahoo這樣的傳統it企業。

随着分布式技術的逐漸成熟和工業化,網際網路資料倉庫迎來了飛速發展的春天。現在,抛棄大型機+關系型資料庫的模型,采用分布式的伺服器叢集+分布式存儲的海量存儲器,無論是從硬體成本、軟體成本還是從硬體更新、日常維護上來講,都是一次飛躍。更重要的是,解決了困擾資料倉庫發展的一個非常重要的問題,即計算能力不足的問題,當100~200台網絡伺服器一起工作的時候,無論是什麼樣的大型機,都已經無法與之比拟了。

拿現在阿裡雲(阿裡巴巴集團資料中心服務提供者)來講,近1000台網絡伺服器分布式并行,支援着每日淘寶、支付寶、阿裡巴巴三大子公司超過pb級别的資料量,随着技術的日益成熟和硬體成本的逐漸降低,未來的資料倉庫将是以流計算為主的實時資料倉庫和分布式計算為主流的準實時資料倉庫。

<b>1.4.2 精細化營運的需求</b>

大資料時代的網際網路行業所面臨的競争壓力甚至已超過了傳統行業。主要原因在于網際網路行業的技術真正展現了日新月異、飛速發展的特點。以中國網際網路行業的發展為例,作為第一代網際網路企業的代表,新浪、搜狐、雅虎等門戶網站的web 1.0模式(傳統媒體的電子化)從産生到被以google、百度等搜尋引擎企業的web 2.0模式(制造者與使用者的合一)所超越,前後不過10年左右的時間,而目前web 2.0模式已經逐漸有被以微網誌為代表的web 3.0模式(sns模式)超越的趨勢。

網際網路行業近乎颠覆性模式的進化演繹、技術的更新換代,既為網際網路企業提供了機遇,又帶給其沉重的競争壓力與生存的挑戰。面對這種日新月異的競争格局,網際網路企業必須尋找比傳統的粗放型營運更加有效的精細化營運制度和思路,以提升企業的效益和效率,而資料化營運就是精細化營運,它強調的是更細分、更準确、更個性化。沒有精細化營運的需求,就不需要資料化營運;隻有資料化營運,才可以滿足精細化的效益提升。

<b>1.4.3 資料分析和資料挖掘技術的有效應用</b>

資料分析和資料挖掘技術的有效應用是資料化營運的基礎和技術保障,沒有這個基礎保障,資料化營運就是空話,就是無本之水,無緣之木。

這裡的有效應用包括以下兩層含義。

一是企業必須擁有一支能夠勝任資料分析和資料挖掘工作的團隊和一群出色的資料分析師。一名出色的資料分析師必須是多面手,他不僅要具備統計技能(能熟練使用統計技術和統計工具進行分析挖掘)、資料倉庫知識(比如熟悉主流資料庫基本技術,可以自助取數,可以有效與資料倉庫團隊溝通)、資料挖掘技能(熟練掌握主流資料挖掘技術和工具),更重要的是他還要具有針對具體業務的了解能力和快速學習能力,并且要善于與業務方溝通、交流。資料分析挖掘絕不是資料分析師或團隊的閉門造車,要想讓項目成功應用,必須要自始至終與業務團隊并肩作戰,從這點來看,業務了解力和溝通交流能力的重要性甚至要遠遠超過技術層面的能力(諸如統計技能、挖掘技能、資料倉庫的技能)。從之前的分析可以看出,一名出色的資料分析師是需要時間、項目經驗去磨砺去鍛煉成長的,而作為企業來說,如何選擇、培養、配備這樣一支合格的分析師隊伍,才是資料化營運的基礎保障。

二是企業的資料化營運隻有在分析團隊與業務團隊協同配合下才可能做出成績,取得效果。分析團隊做出的分析方案、資料模型,必須要在業務應用中得到檢驗,這不僅要求業務方主觀的參與和支援,也要求業務方的團隊和員工同樣要具有相應的資料化營運能力和水準,營運團隊的人員需要具備哪些與資料化營運相關的技能呢?這個問題我們将在第4章闡述。

無論是資料分析團隊的專業能力,營運團隊的專業能力,還是其他業務團隊的專業能力,所展現的都是網際網路企業的人才價值,這個人才價值與資料的價值一樣,都是屬于網際網路行業的核心競争力,正如阿裡巴巴集團董事會主席兼ceo馬雲在多個場合強調的那樣,“人才和資料是阿裡巴巴集團最大的财富和最強大的核心競争力”。

<b>1.4.4 企業決策層的倡導與持續支援</b>

在關乎企業資料化營運的諸多必要條件裡,最核心且最具決定性的條件就是來自企業決策層的倡導和持續支援。

在傳統行業的現代企業裡,也有很多采用了先進的資料分析技術來支援企業營運的,支援企業的營銷、客服、産品開發等工作。但是總的來說,這些資料挖掘應用效果參差不齊,或者說應該展現的業務貢獻價值在很多情況下并沒有真正展現出來,總體的應用還是停留在項目管理的層面,缺乏全員的參與與真正跨部門的戰略協調配合。這種項目層面的管理,存在的不足如下:

首先,由于參與分析挖掘的團隊與提出分析需求的業務團隊分屬不同的職能部門,缺乏高層實質性的協調與管理,常會出現分析模組化工作與真正的業務需求配合不緊密,各打各的鑼,各唱各的歌。由于各部門和員工kpi考核的内容不同,資料分析團隊完成的分析方案、模型、建議、報告很多時候隻是紙上談兵,無法轉化成業務應用的實際操作。舉個簡單的例子,銷售部門的年度kpi考核是銷售額和付費人數,那麼為了這個年度kpi考核,銷售部門必然把工作的重心放在擴大銷售額,擴大付費人數,維護續費人數,降低流失率等關鍵名額上,他們自然希望資料分析部門圍繞年度(短期的)kpi目标提供分析和模型支援,提高銷售部門的業績和效率。但是資料分析部門的年度kpi考核可能跟年度銷售額和付費人數沒有關系,而跟通過資料分析、模組化,完善産品開發與優化,完善銷售部門的業務流程與資源配置等相關。很顯然,這裡資料分析團隊的kpi考核是着眼于企業長期發展的,這跟銷售部門短期的以銷售額為重點的考核在很大程度上是有沖突的。在這種情況下,怎麼指望兩者的資料化營運能落地開花呢?

其次,因為處于項目層面的管理,是以資料分析挖掘的規劃也就隻能局限在特定業務部門的範圍内,缺乏真正符合企業發展方向的資料分析挖掘規劃。俗話說得好站得高,方能看得遠,起點低,視野淺,自然限制了資料分析的有效發揮。

無論是組織架構的缺陷,還是戰略規劃的缺失,其本質都能表現出缺乏來自企業決策層的倡導和持續支援。隻有得到企業決策層的倡導和支援,上述組織管理方面的缺陷和戰略規劃的缺失才可以有效避免。如前所述,2012年7月10日阿裡巴巴集團宣布設定首席資料官的崗位,并将其作為企業的核心管理崗位之一,其目的就是進一步夯實企業的資料戰略,規劃和實施企業整體的資料化營運能力和水準,使之真正成為阿裡巴巴集團未來的核心競争力。