大資料不會“主動”為企業做的10件事

zdnet至頂網cio與應用頻道 07月07日專欄：很多企業都對大資料寄予厚望，希望它能夠解決長期存在的業務問題，讓公司更具競争力并設計、制造出更好的産品。然而，這樣的熱忱很容易帶來對大資料的高估，因為大資料“本身”并不會帶來任何價值。本文列出了10個大資料不會“主動”為企業做的事情，除非企業對這些資料進行更加深入而細緻的分析與挖掘工作。

大資料并不會解決業務問題，業務依然需要人來解決。隻有那些好好坐下來、在他們開始使用大資料之前想好希望從大資料中獲得什麼的公司，才能從大資料中得到他們正在尋找的商業智能的出路。

ibm聲稱全球每天産生大約2.5 quintillion的資料。其中大多數是大資料。不出所料，全球企業内處于管理中的資料也呈現指數級的增長。随着資料大量堆積而沒有明确的資料保留和使用政策（尤其是針對大資料），組織機構正在面臨着管理這些資料的難題。

對于很多企業來說，确定大資料的安全通路仍然是一個開放的話題。這是因為大資料的安全實踐并不像系統記錄資料那樣有着明确的定義。我們正處于這樣一種狀态，it應該與終端使用者合作，确定哪些人通路了哪些層面的大資料以及相應的分析。

大資料資料庫管理、伺服器管理、軟體開發以及業務分析技能都是很短缺的。這使得很多已經匮乏關鍵it技能的it部門負擔更重了。

如果有的話，遺留系統往往比大資料更具有價值。通常情況下，這些遺留系統提供了關于如何最好地剖析大資料、回答重要業務問題的重要線索。

大資料要求并行處理計算叢集，以及一個與傳統it交易和資料倉庫系統類型不同的系統管理。這意味着運作這些新系統所需的能耗、智能、軟體、硬體和系統技能也是不同的。

傳統交易型系統的美妙之處在于這些系統都是固定資料字段長度的，全面的編輯和驗證資料，有助于資料相對幹淨的形式。而大資料就不同了，它是非結構化的，可能是任何一種格式。這使得大資料品質成為一大難題。資料品質至關重要。如果沒有資料品質的話，你就不能信任資料查詢的結果。

從系統記錄中測量投資回報率的最常用方法就是監控交易速度然後推斷出這在獲得收入方面意味着什麼（比如你每分鐘和擷取的酒店預訂單）。交易速度并不是大資料處理的一個很好的度量标準，這可能需要數小時甚至是數天時間處理并分析大範圍的資料。相反，評估大資料處理有效性的最佳标準是使用率，定期評估的結果應該在90%以上（相比之下，交易型系統大約隻有20%）。開發針對大資料的新型投資回報率名額很重要，因為你仍然需要去說服cfo以及其他管理層證明大資料投資的價值。

95%的大資料都是“噪音”，也就是對業務智能完全沒有貢獻或者貢獻很小。篩選出這種資料以獲得智能将會對企業大有用處。

多年來，大學和研究中心都在進行大資料的實驗，以尋求在基因組工程、醫療藥物研究以及确定外星生物是否存在等研究中的那些難以捉摸的答案。雖然最終這些資料分析算法産生了一些結果，但是更多的仍然是不确定的結論。如果說大學及研究環境中的不确定性尚可容忍的話，那麼企業環境中就絕非如此了。這是it與其他關鍵決策者都需要對此有所預期。

原文釋出時間為：2014年07月07日

本文作者：劉羽飛

本文來自雲栖社群合作夥伴至頂網，了解相關資訊可以關注至頂網。

大資料不會“主動”為企業做的10件事

繼續閱讀

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

C++ 第十五周報告1--《冒泡法排序》

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希