雲計算時代企業要如何迎接大資料？

　　其實随着大資料時代的來臨，企業對于大資料的了解不應僅限于對Apache Hadoop這樣的基礎技術的了解，企業應該要從基礎設施角度來了解和保護企業擁有的大資料。因為在未來3到5年，我們将會看到那些真正了解大資料并能利用大資料進行價值挖掘的企業和不懂得大資料價值挖掘企業之間的差距，真正能夠利用好大資料的企業必然具備強勁有力的競争優勢，進而成為行業的大佬。

　　事實上，目前很多企業都已經開始關注大資料，廠商也開始大肆介紹自己的大資料産品，相關會議持續不斷，這也讓我們看到大資料知識普及的成功，但這隻是從說服角度來看的，當我們尋找那些真正能挖掘大資料商業價值的企業時，幾乎寥寥無幾，是以就目前來看，大資料價值的挖掘還隻是處于初級階段。

　　未來真正能夠在大資料中挖到第一桶金的必然是像Facebook和Google這樣的企業，他們在資料管理和資料開采方面具備先天的優勢，是以有理由相信他們将會引領這個大資料時代。除了他們，其他要想在大資料時代引領前端的企業必定是那些行業裡的上司者，因為他們有提早布局以此建立行業标準的野心。

大資料的角色

　　盡管企業已經意識到大資料的機制，但卻不知道如何才能從中挖掘到商業價值。大資料就像是一個深入大海底部的大魚網，有的鮪魚、大白鲨等精品，但同時也有蝦米、貝殼等價值低的便宜貨。而我們的企業是大小通吃的，這樣龐大的資料如何挖掘價值也就成為了一個頭疼的難題。

大資料裡的語義資料模型

　　大資料的資料很大一部分屬于非結構化資料，包括語音、視訊、圖檔、文檔、論壇、網頁等，如何才能輕松的操作這些資料呢?建立一個語義資料層是一個很不錯的方法，你可以從中提取可用資料在資料庫之上建立一個資料語義模型層，以此來幫助你了解地下所有的資訊。

　　從不同來源收集到資料之後，企業要将其放置在一起，然後開始分析、處理這些資料。傳統的做法是建立一個資料倉庫，将這些收集到的資料提取到建立好的資料倉庫中并生成報告。但這是一個相當耗時的過程，而且還無法靈活進行，每次你要做修改，都必須要回到資料倉庫去做修改，相當的頭疼。

　　大資料的資料容量是如此龐大，我們需要處理一大堆相關資訊，這些資訊來源都不同。不同的人對同一個東西的描述也都不一樣，語義技術就能夠幫助判斷出這些叫法是否講的是同一個事物。例如，有人會叫IBM為“IBM”，有人則稱其為“International Business Machines”，其實說的都是一個公司，其實計算機是很笨的，隻有通過這個語義資料模型層就能進行很好的判斷。

大資料裡的風險管理

　　在資料管理的時候，将所有資料放在一個地方是有很大的風險的，為了資料的安全，資料應該存儲不同的地方。如數值資料可以存儲在資料庫裡，非結構化的資料則可以存儲在文檔或者表格裡。我們看到，增加了這些不同來源的風險資訊的語義描述，意味着我們可以迅速了解綜合風險狀況。

　　通過語義資料模型一個最大的好處就是，在進行修改時，無需回到資料最底層進行修改，去重寫遺留系統和資料庫語義。因為這個語義資料模型是在資料之上的，它的破壞性遠小于其他的技術，隻要我們為一個來源的資料提供一個語義定義，我們就可以直接應用到其他來源的資料之上。

　　其實這個技術并不是為程式員或是資料庫管理人員設計的，而是為業務人員設計。業務人員他需要明白這些資料對他而言是何意義，他看不懂最底層的資料表格，他希望能夠直覺的看到一段時間内銷售量與其他因素的關系，而這些隻有通過我們的語義資料模型層才能做到。近幾年，IT部門與業務部門的界限其實開始漸漸模糊，業務部門能夠更好的明确自己的需求，而IT部門也能更好的滿足業務部門的需求，雖然還沒達到最佳的狀态，但已經超着這個方向在努力了。

大資料的安全問題

　　對于收集到的資料的通路需求，也以為這企業需要保證這些資料的安全性。

　　很多企業在資料安全方面犯的最大錯誤就是做完架構、設計、開發等所有工作之後，才開始考慮安全問題，這是非常大的錯誤。是以實資料安全性應該從開始之初就要考慮安全架構問題。

　　安全架構的搭建隻是一個方面，為了保證資料的安全，建議企業将資料切片進行存儲。因為這樣能夠做到更精确的控制。其實每一塊的資料都是企業的資産，在這裡可以設定公司員工對于這個資料資産的權限，如檢視、修改、删除等權限。當然還要對這些資料進行加密，這樣一來，就算有人侵入資料庫盜用了這個部分的資料，我們還是比較安全的，因為無上下文的資料對于竊取者來說并無多大意義，因為大資料的價值密度很低。

　　在這裡不得不提到“'toxic data”，這個詞是Forrester提出的，主要指的是企業手中“毒資料”。舉個例子解釋一下，大家可以想象一下無線公司收集到的資料，其中包括登入到信号塔的使用者資訊，使用者線上時間、使用者使用的資料，他們的地理位置是否移動等，企業通過這些資料可以進行使用者行為分析，但與此同時，公司還能收集到使用者的信用卡密碼、社交網站的密碼、購買習慣等使用者私人資訊。

　　這些資料應該說是具有相當大的價值，為何又稱為“毒資料”呢?因為一旦這些資料流出落入非法份子手上，勢必對企業和個人造成巨大的損失。

　　世界是很公平的，收入與風險是成正比。但為了降低風險，這時對資料的加密就變得尤為的關鍵。

　　談到大資料，最基本的做法是使用透明資料加密法——那就是對所有捕獲到的資料都進行加密。這樣能保證企業的所有資料都是經過加密的。過去，考慮到成本問題，很多企業都不願意這麼做，但現在有很多開源的加密方法可供企業進行選擇。

原文釋出時間為：2012-04-06

本文作者：劉亞瓊　

本文來自雲栖社群合作夥伴IT168，了解相關資訊可以關注IT168

雲計算時代企業要如何迎接大資料？

繼續閱讀

淺談企業活動中進行資料分析的重要性

Linxu常用指令技巧彙總

ERROR 1 (HY000): Can't create/write to file '/tmp/#sql_4188_1.MYI' (Errcode: 28)

艱難安裝LDAP,SSL認證

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

Ambari介紹和架構原理

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述

win10本地scala和spark安裝安裝scala安裝spark

雲計算時代 企業要如何迎接大資料？

繼續閱讀

雲計算時代企業要如何迎接大資料？