大資料與海量資料的差別

如果僅僅是海量的結構性資料，那麼解決的辦法就比較的單一，使用者通過購買更多的儲存設備，提高儲存設備的效率等解決此類問題。然而，當人們發現資料庫中的資料可以分為三種類型：結構性資料、非結構性資料以及半結構性資料等複雜情況時，問題似乎就沒有那麼簡單了。

大資料洶湧來襲

當類型複雜的資料洶湧襲來，那麼對于使用者it系統的沖擊又會是另外一種處理方式。很多業内專家和第三方調查機構通過一些市場調查資料發現，大資料時代即将到來。有調查發現，這些複雜資料中有85%的資料屬于廣泛存在于社交網絡、物聯網、電子商務等之中的非結構化資料。這些非結構化資料的産生往往伴随着社交網絡、移動計算和傳感器等新的管道和技術的不斷湧現和應用。

如今大資料的概念也存在着很多的炒作和大量的不确定性。為此，編者詳細向一些業内專家詳細了解有關方面的問題，請他們談一談，大資料是什麼和不是什麼，以及如何應對大資料等問題，将系列文章的形式與網友見面。

有人将多tb資料集也稱作”大資料”。據市場研究公司idc統計，資料使用預計将增長44倍，全球資料使用量将達到大約35.2zb（1zb = 10億tb）。然而，單個資料集的檔案尺寸也将增加，導緻對更大處理能力的需求以便分析和了解這些資料集。

emc曾經表示，它的1000多個客戶在其陣列中使用1pb（千兆兆）以上的資料資料，這個數字到2020年将增長到10萬。一些客戶在一兩年内還将開始使用數千倍多的資料，1eb（1艾位元組 = 10億gb）或者更多的資料。

對大企業而言，大資料的興起部分是因為計算能力可用更低的成本獲得，且各類系統如今已能夠執行多任務處理。其次，記憶體的成本也在直線下降，企業可以在記憶體中處理比以往更多的資料，另外是把計算機聚合成伺服器叢集越來越簡單。idc認為，這三大因素的結合便催生了大資料。同時，idc還表示，某項技術要想成為大資料技術，首先必須是成本可承受的，其次是必須滿足ibm所描述的三個”v”判據中的兩個：多樣性（variety）、體量（volume）和速度（velocity）。

多樣性是指，資料應包含結構化的和非結構化的資料。

體量是指聚合在一起供分析的資料量必須是非常龐大的。

而速度則是指資料處理的速度必須很快。

大資料”并非總是說有數百個tb才算得上。根據實際使用情況，有時候數百個gb的資料也可稱為大資料，這主要要看它的第三個次元，也就是速度或者時間次元。

garter表示，全球資訊量正在以59%以上的年增長率增長，而量是在管理資料、業務方面的顯著挑戰，it領袖必須側重在資訊量、種類和速度上。

量：企業系統内部的資料量的增加是由交易量、其它傳統資料類型和新的資料類型引發的。過多的量是一個存儲的問題，但過多的資料也是一個大量分析的問題。

種類：it領袖在将大量的交易資訊轉化為決策上一直存在困擾 – 現在有更多類型的資訊需要分析 – 主要來自社交媒體和移動（情景感覺）。種類包括表格資料（資料庫）、分層資料、檔案、電子郵件、計量資料、視訊、靜态圖像、音頻、股票行情資料、金融交易和其它更多種類。

速度：這涉及到資料流、結構化記錄的建立，以及通路和傳遞的可用性。速度意味着正在被生成的資料有多快和資料必須被多快地處理以滿足需求。

雖然大資料是一個重大問題，gartner分析師表示，真正的問題是讓大資料更有意義，在大資料裡面尋找模式幫助組織機構做出更好的商業決策。

諸子百家談如何定義”大資料”

盡管”big data”可以翻譯成大資料或者海量資料，但大資料和海量資料是有差別的。

定義一：大資料 = 海量資料 + 複雜類型的資料

informatica中國區首席産品顧問但彬認為：”大資料”包含了”海量資料”的含義，而且在内容上超越了海量資料，簡而言之，”大資料”是”海量資料”+複雜類型的資料。

但彬進一步指出：大資料包括交易和互動資料集在内的所有資料集，其規模或複雜程度超出了常用技術按照合理的成本和時限捕捉、管理及處理這些資料集的能力。

大資料是由三項主要技術趨勢彙聚組成：

海量交易資料：在從 erp應用程式到資料倉庫應用程式的線上交易處理（oltp）與分析系統中，傳統的關系資料以及非結構化和半結構化資訊仍在繼續增長。随着企業将更多的資料和業務流程移向公共和私有雲，這一局面變得更加複雜。

海量互動資料：這一新生力量由源于 facebook、twitter、linkedin 及其它來源的社交媒體資料構成。它包括了呼叫詳細記錄（cdr）、裝置和傳感器資訊、gps和地理定位映射資料、通過管理檔案傳輸（manage file transfer）協定傳送的海量圖像檔案、web 文本和點選流資料、科學資訊、電子郵件等等。

海量資料處理：大資料的湧現已經催生出了設計用于資料密集型處理的架構，例如具有開放源碼、在商品硬體群中運作的 apache hadoop。對于企業來說，難題在于以具備成本效益的方式快速可靠地從 hadoop 中存取資料。

定義二：大資料包括a、b、c三個要素

如何了解大資料？netapp 大中華區總經理陳文認為，大資料意味着通過更快擷取資訊來使做事情的方式變得與衆不同，并是以實作突破。大資料被定義為大量資料（通常是非結構化的），它要求我們重新思考如何存儲、管理和恢複資料。那麼，多大才算大呢？考慮這個問題的一種方式就是，它是如此之大，以至于我們今天所使用的任何工具都無法處理它，是以，如何消化資料并把它轉化成有價值的洞見和資訊，這其中的關鍵就是轉變。

基于從客戶那裡了解的工作負載要求， netapp所了解的大資料包括a、b、c三個要素：分析（analytic），帶寬（bandwidth）和内容（content）。

1. 大分析（big analytics），幫助獲得洞見 – 指的是對巨大資料集進行實時分析的要求，它能帶來新的業務模式，更好的客戶服務，并實作更好的結果。

2. 高帶寬（big bandwidth），幫助走得更快 – 指的是處理極端高速的關鍵資料的要求。它支援快速有效地消化和處理大型資料集。

3. 大内容（big content），不丢失任何資訊- 指的是對于安全性要求極高的高可擴充的資料存儲，并能夠輕松實作恢複。它支援可管理的資訊内容存儲庫、而不隻是存放過久的資料，并且能夠跨越不同的大陸闆塊。

大資料是一股突破性的經濟和技術力量，它為 it 支援引入了新的基礎架構。大資料解決方案消除了傳統的計算和存儲的局限。借助于不斷增長的私密和公開資料，一種劃時代的新商業模式正在興起，它有望為大資料客戶帶來新的實質性的收入增長點以及富于競争力的優勢。

原文釋出時間為：2013-09-10

本文來自雲栖社群合作夥伴“大資料文摘”，了解相關資訊可以關注“bigdatadigest”微信公衆号

大資料與海量資料的差別

繼續閱讀

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

BMP檔案結構及圖像每行位元組計算方法

磁盤結構及在Linux中的命名

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark