雲時代企業如何掘金大資料【轉】

轉載位址:

http://www.yongtree.net/post/184f95_6f2abf

在資訊領域當今時代什麼最火？那莫過于雲計算和大資料了。這兩個流行的趨勢看似離我們老百姓太遠，但是它們卻實實在在的改變着我們的生活，讓我們的生活發生着量到質的變化。雲計算讓我們使用計算資源的成本在一步步的降低，我們也實作了在辦公室點選一個複制，回家點一下粘貼就實作了檔案拷貝的曾經的暢想，U盤已經不是我們必需品了。大資料下的推薦引擎，縮短了我們消費資訊的路徑，減少了我們查找的時間，我們在大資料時代能夠快速的閱讀最新的新聞，學習對我們最有用的知識，甚至一個推薦我們就找到想購買的商品。雲計算和大資料的應用，提高了我們生活的效率，同樣在企業裡，如果很好的利用雲計算和大資料，我們的企業的辦公效率也會進一步提高，我們的業務也會從量變走向一個質變的過程。

雲時代企業如何掘金大資料【轉】

為什麼企業要重視并利用雲計算和大資料呢？它們會給我們企業帶來哪些價值呢？

資料廣泛存在于企業的IT系統中，是企業發展的核心，一切的IT系統發展都有賴于資料，并服務于面向企業業務的資料管理需求。随着IT行業的發展以及企業對資料管理要求的不斷進步，資料管理的“智能”趨勢已經銳不可當，智能的資料管理正在成為所有企業所追求的共同發展目标。

在大資料時代，我們的資料中心面臨着巨大的挑戰，海量存儲，高可靠性的網絡和計算能力，一次次的讓我們繃起了神經，我們不得不面對硬體的更新，基礎設施的高效利用，運維成本的降低，而雲計算技術的成熟應用，為我們資訊快速的發展鋪平的道路。

如果說大資料是高速跑車，那麼雲計算就是高速公路。有人說雲計算和大資料是雙胞胎，兩個是不同的個體，互相依賴又相輔相成。首先在概念上兩者有所不同，雲計算改變了IT，而大資料則改變了業務。然而大資料必須有雲作為基礎架構，才能得以順暢營運。沒有雲計算這樣的高速公路，大資料這樣的超級跑車就跑不起來。

《紐約時報》稱，“大資料”時代已經降臨，在商業、經濟及其他領域中，決策将日益基于資料和分析，而非基于經驗和直覺。很多學者和企業家也似乎達成共識：未來，資料将會像土地、石油和資本一樣，成為經濟運作中的根本性資源。既然大資料下蘊含着無限的金礦，我們該如何把它們挖掘出來，真正成為企業快速成長的生産力呢？

一個好的企業應該未雨綢缪，從現在開始就應該着手準備，為企業的後期的資料收集和分析做好準備，企業可以從下面三個方面着手，這樣當面臨鋪天蓋地的大資料的時候，以確定企業能夠快速發展。

1、利用公有雲，建立私有雲

公有雲是指為外部客戶提供服務的雲，它所有的服務是供别人使用，而不是自己用。目前，典型的公有雲有微軟的Windows Azure Platform、亞馬遜的AWS，以及國内的阿裡巴巴、用友偉庫等。對于使用者而言，公有雲的最大優點是，其所應用的程式、服務及相關資料都存放在公有雲的提供者處，自己無需做相應的投資和建設。目前最大的問題是，由于資料不存儲在自己的資料中心，其安全性存在一定風險。同時，公有雲的可用性不受使用者控制，這方面也存在一定的不确定性。

私有雲，是指企業自己使用的雲，它所有的服務不是供别人使用，而是供自己内部人員或分支機構使用。私有雲的部署比較适合于有衆多分支機構的大型企業或政府部門。随着這些大型企業資料中心的集中化，私有雲将會成為他們部署IT系統的主流模式。相對于公有雲，私有雲部署在企業自身内部，是以其資料安全性、系統可用性都可由自己控制。但其缺點是投資較大，尤其是一次性的建設投資較大。

在公有雲還是私有雲的選擇上，集團要對自身的業務進行分析，對于内部的核心業務，對資料安全性高的應用系統，最好運作在企業内部的私有雲平台上，為集團和各級分公司辦事處統一提供IT運作環境，減少甚至避免各分支機構在IT基礎設施上的投入，通過可計量的服務來核算成本，進而降低集團整體的IT投入成本。對于比如集團企業郵箱、辦公系統等非核心業務的内部系統和像醫師線上為醫生提供的各種外部的網際網路服務可以有選擇性的采用公有雲平台，進而降低IT的運維成本，提高系統的可用性。

2、大資料要從小資料開始

多大的資料才算是大資料？業界給的标準是高于1PB的資料才稱為大資料。1PB是什麼概念呢？我們集團從創立開始到現在，ERP系統産生的資料一共才50GB左右，如果算上其他系統的資料，假設認為是100GB，那麼按照（1PB=1024TB=1048576GB）換算公式應該是現有資料的一萬倍。是以一個企業真正要在業務資料上邁進大資料的行列，按照傳統的發展程序，是需要一個非常漫長的過程。既然我們達不到大資料，我們去搞大資料有什麼意義呢？我認為大資料之大，不在于容量之大，而在于胸懷之大。

首先，我們要認可資料的價值。隻有認可了資料的價值，我們才能珍惜資料，把它積累起來；隻有認可了資料的價值，我們才重視資料，進而将資料背後隐含的金子給挖掘出來；隻有認可了資料的價值，我們才能像保護我們資産一樣，将資料保護起來。

其次，我們要更加重視小資料。大資料都是由小資料不斷組合而成的，就像我們集團名稱的由來：“納百川聚之，成汪洋大海”，發現小資料的“美”，才能挖掘大資料的“真”。在小資料方面，我們要着重建構基礎的、标準的資料體系，比如集團的主資料，客戶資料，甚至還有中繼資料（描述資料的資料）。隻有建立起資料的标準體系，各種各樣的大資料才能進行有效的關聯，才能通過背後千絲萬縷的關系覓得不被人常見的價值，否則資料就是一個個的雞肋，食之無味棄之可惜。

最後，要建立多種資料源。對企業來說，單一的資料來源和資料格式，很難建構大資料，隻有積極的開拓企業之外的資料源，将非結構化的資料類型（比如視訊、圖檔等）納入進來，才能建構大資料的環境。比如我們在醫師和醫用領域都有所涉及，而這部分的資料可以有效的補充企業自身資料的匮乏。将各種資料源的資料進行加工、關聯，看似毫無相關的資料之間，即使存在微量的關系，也能發現其巨大的價值。

3、建立專業的資料團隊

大多數企業最缺乏的是人才，而當大資料到臨的時候，企業将會缺少這方面的采集分析技術方面的人才，沒有專業的人才，我們及時面對海量的資料，我們也将束手無策。如果我們在大資料面前成竹在胸，我們需要一個專業化的資料團隊，我們需要建立發現多個資料源來收集資料，我們需要熟悉業務的人員來處理資料，我們需要建立各種分析模型，建立多種算法來分析資料，我們還需要紮實的技術人員搭建并維護我們的資料平台，隻有擁有這樣一個功能強大的資料團隊，我們才具備将資料轉化成價值的執行力。

作為資訊戰線的技術人員，我們也經常暢想，我們能為集團在大資料和雲計算方面能做點什麼呢？

1、首先建立起企業級大資料的架構

大資料，指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具，在合理時間内達到撷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊。既然傳統的技術架構無法勝任，我們要實施一種真正适合大資料的軟體架構，而這個架構的核心就是在企業的私有雲平台上搭建起Hadoop的資料叢集，所有資料源将資料釋出到該叢集上，以支援資料的分析提取。下圖為整體架構圖：

雲時代企業如何掘金大資料【轉】

2、建構企業知識庫

我們企業擁有自己獨特的駱駝文化，這種文化的傳承與傳播都需要花費很大的經曆，随着公司的壯大，可能會伴随着一些新入職員工對公司企業文化的不了解、對公司的發展曆程、創業的艱辛缺少共同的認知，如何才能使我們的同僚們更快的、更準确的了解公司的文化，領會公司的發展戰略與方向，同時，也能讓高層到底層員工的資訊和知識的傳播更加扁平化，建構我們自己的企業知識庫是一個不錯的思路和辦法。

利用搜尋技術，整合集團的内部資訊知識，包括業務系統資訊、以及企業文化類型的資訊（公司的規章制度、企業刊物、以及短信及推薦書籍等等），實作企業資訊的一站式搜尋。

雲時代企業如何掘金大資料【轉】

3、做醫生喜歡的新聞

掌上醫訊—做醫生關注的新聞，上線幾個月的時間，裝機量已經逼近了一萬，并且在持續的增長，但是目前所有醫生看到的新聞都是一樣的，都是由我們的編輯推薦給醫生的。但是一千個人眼中一千個哈姆雷特，每個人所關注的主題、領域都不是一樣，如何把醫生關注的新聞變成醫生喜歡的新聞，需要實施大資料技術進行個性化推薦。

雲時代企業如何掘金大資料【轉】

繼續閱讀

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

解讀2008年網絡技術熱詞之雲計算

《eWEEK》：09年5大科技發展趨勢雲計算居首

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

雲計算面試題及答案，雲計算主要就業崗位

雲計算面試題——mysql/存儲引擎/備份

雲計算面試題——檔案/權限/分區/軟體包管理

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark