企業大資料分析實踐指南

資料無處不在

在我們身處的時代，資料無處不在。據ibm公司估算，人類每天産生約2.5萬zb的資料，這意味着世界上90%資料都是過去的兩年中産生的。gartner公司分析報告顯示，在2015年财富500強的公司中百分之八十五的企業無法利用大資料來擷取競争優勢。

到2020年，全世界将有上百萬大資料相關的就業機會産生。這些龐大的資料蘊藏了寶貴财富，企業可以使用最先進的分析技術，利用這些資料更好地了解客戶的行為，識别商業機會，制定營運戰略。

讓我們舉幾個例子，金融機構每天通過信用評分模型，了解他們的客戶在未來12個月内每種信貸産品(抵押貸款、信用卡、分期貸款)上的信用。他們以該信用評分為基礎來進行壞帳準備，計算巴塞爾協定ii/iii規定所需資本金數量，或是制定營銷方案(例如根據信用評分調整信用卡額度)。

電信營運商使用最近通話行為資料建立流失模型，估計客戶在未來一到三個月流失的可能性。營運商會根據模型得分來制定營銷活動，避免有價值的客戶流失。facebook和twitter會使用社交媒體分析技術進行内容分析和情感語義分析，以便更好地了解品牌認知度，進一步調整産品服務設計。

亞馬遜和netflix等線上零售商不斷地分析顧客的購買行為，以決定産品捆綁銷售政策，并利用推薦系統為客戶下一次購買推薦産品。信用卡公司使用欺詐檢測模型，檢測付款是否具有欺騙性，是否發生了信用卡盜刷。政府采用資料分析技術來預測逃稅行為，優化公共預算配置設定，分析交通資料提高公共交通效率，分析預測恐怖襲擊保障國家安全。

化資料為價值

資料是任何分析模型成功的基礎。當啟動分析項目時，有必要詳細列出企業内所有可用于分析的資料。這裡的原則就是資料越多越好!因為很多分析模型都能自動決定哪些資料對目前分析很重要，哪些資料可以排除在下一步分析之外。

我們的研究不斷印證了這樣一個觀點：改善分析模型最好的辦法，就是投資于你的資料!這可以通過數量和品質兩個次元的提升來完成。對于前者，一個關鍵點是如何整合結構化資料(例如關系資料庫)和非結構化資料(如文本)，提供全方位綜合視角進行客戶行為分析，另一個關鍵點則是線上資料和離線資料的整合，很多企業為這個問題所困擾。

此外企業還可以超越其内部邊界，考慮從外部資料供應商那裡購買外部資料，以彌補其内部資料的不足。大量的研究表明采用外部資料，對比較和完善分析模型非常有用。雖然資料常常體量巨大，但是資料品質經常是一個痛點。gigo(garbage in garbage out)的原則在這裡非常适用，爛資料隻會生成爛模型。

聽起來顯而易見，然而實踐中資料品質往往成為許多分析項目的“阿喀琉斯之踵”。資料品質可以分解成很多元度：準确性、完整性、新近度、一緻性等。在大資料分析中，企業必須專門制定資料品質管理方案，設立資料稽核員、資料管家或資料品質經理等職位，持續監測資料品質。

資料分析應該從商業問題開始，而不是從具體的技術解決方案開始。但是這帶有一絲“雞生蛋，蛋生雞”的意味。要解決商業問題、識别商業機會，需要對潛在的技術解決方案有了解。以社交媒體分析為例，隻有首先了解分析技術後，公司才能開始思考如何利用它們研究線上品牌認知度，進行趨勢監測。為了跨越分析技術和業務之間的鴻溝，持續性教育訓練和學習是關鍵，它能使企業始終屹立在分析技術的潮頭，保持競争優勢。在這一點上，學術界應該深刻檢讨，因為現有的很多大資料分析(或資料科學)碩士課程無法滿足上述的要求。

将資料轉化為洞察力和提升價值的另一個關鍵點是分析模型的驗證。分析模型需要适當的機制和工具來進行稽核和驗證，越來越多的公司将分析團隊拆分成模型開發和模型驗證兩個團隊。良好的公司治理能夠在兩個團隊之間築起一道防火牆，使得由前一小組開發的模型可以客觀和獨立地被後者團隊評估。

公司甚至可以考慮由外部合作夥伴進行模型驗證。通過建立分析基礎資訊設施，公司能夠不斷基于現有狀況對模型進行評估和驗證，提升分析模型性能，抓住更多目标客戶。

資料分析往往不是一蹴而就的事情。事實上，當分析模型投入使用時就已經過時了!分析模型總是落後于現實，我們能做的隻是保持這種滞後性盡可能小。分析模型所使用的資料，都是在一個特定的時間點和特定的内外部環境條件下采集得到的。

這一特定環境不是靜态的，而是随着内部因素(如新戰略，不斷變化的客戶行為)和外部因素(新宏觀經濟環境和法律法規)不斷變化而變化。例如，欺詐檢測分析中，欺詐者總是試圖不斷逃避模型的偵測，以騙取更多的錢财。另一個例子是信用評分模型在很大程度上依賴于目前的宏觀經濟狀況(複蘇或是衰退)。是以，分析模型要取得成功創造價值，就必須對内外部環境進行監測，以及時調整或重模組化型。

建構底層基礎

為了建立一個分析環境，企業需要就所采納的硬體和軟體技術進行選擇。

硬體方面，需要專門的基礎設施(如hadoop和相關的軟體棧)來清理、整合、存儲和管理資料。為了減少支出，企業可能選擇雲存儲，并将大資料作為一種服務。公司在同外部進行資料傳輸和交換時，應采取适當的謹慎措施，保證資料私密性。

軟體方面，很多廠商提供了大資料分析的商業解決方案。目前市場還有很多的開源分析軟體(r、weka、rapidminer)，雖然這些開源軟體解決方案變得非常流行，但是他們還不夠成熟，還不足以很好的處理具有大體量、多樣性等特性的大資料。

大資料分析成為越來越多公司的dna 組成部分，但是政府、金融、醫藥，每個行業都有自己發展足迹，資料、業務和監管都具有特異性，需要針對不同的基因組成進行不同的設定。是以企業需要的是能提供綜合全面垂直業務解決方案的軟體，而不是一個跨行業的橫向通用軟體。

鑒于建立資料分析構架環境的複雜性，公司可能會考慮外包。然而，公司内部資料及其蘊藏的資訊是公司最寶貴的戰略資産，是以不宜讓第三方完全擁有資料通路權。相反，企業應該建立内部分析中心和培養公司人員的分析技能，以服務公司廣泛的分析需求，這是公司在管理中應該考慮的問題。

同樣公司董事會和進階管理人員都應該參與到分析環境建構中。很多企業還嘗試設立首席分析官(cao)這樣的職位，專門負責建立企業範圍内的分析環境和基礎設施，管理各業務機關分析模型的研發、稽核及部署。

最後一點，我們現在看到越來越多的中小型企業開始借助大資料分析。這些公司通常預算有限，是以它們比較中意那些現成的可以直接用于資料分析的現成軟體解決方案。比如利用線上分析工具來研究網站的使用現狀，優化網站設定、改善網站在搜尋引擎排名，并購買付費引擎營銷方案。

總結與展望

在文章的結尾之處，我們想再次重申企業進行大資料分析所必須注意的幾個問題：

從公司管理的角度來看：

(1)公司應同時關注資料體量和資料品質;

(2)持續學習和教育訓練能填平新分析技術和新商機之間的鴻溝;

(3)分析開發團隊應該包括獨立的模型開發團隊和模型驗證團隊;

(4)分析并不僅僅是模型開發和驗證，還包括模型的監測和回溯測試。

從技術的角度企業應該：

(1)考慮使用雲服務來進行大資料分析;

(2)應該關注垂直式行業解決方案，謹慎選擇開源軟體;

(3)對待外包分析要慎之又慎，最好能在企業内部建立分析環境，并置于高層的管理之下。

本文作者：佚名

來源：51cto

企業大資料分析實踐指南

繼續閱讀

HDFS指令行工具

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

在weka中內建自己的算法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark