如今,雲計算的熱潮似乎還沒散去,行業廠商就已經開始關注下一個熱點:大資料。而與以往的炒作周期一樣,現在的大資料對于使用者來說其來源比較混亂,因為供應商提出了自己獨特的,并且經常互相沖突的定義和術語。
大資料定義之是以混亂的最常見的原因,是人們将大資料存儲與大資料分析的結果混為一談。“大資料”一詞起源于開源社群,其開發和分析過程比傳統的資料倉庫速度更快,擴充性更強,并且可以通過網絡在使用者每天産生的大量非結構化資料中提取價值。
大資料的存儲是相關的,其旨在解決大量的非結構化資料,助長企業級的資料增長。而擴充nas和對象存儲這些技術支撐大資料存儲,已經存在了多年,并且人們對此有着充分的了解。
在一個非常簡單的層面上,大資料存儲無非是存儲用于産生大量的非結構化資料的應用程式處理的大量資料。這包括高清晰度視訊流,油氣勘探,基因組學等資料。
一個大型存儲廠商的一位營銷高管表示,其公司正在考慮将“海量資料”作為其大資料存儲條目的名稱。
大資料分析是比較緊急的和多方面的,但it人員對其了解較少。大資料分析發展過程在曆史上一直受到網絡的推動。然而,大資料分析的應用程式正在發生在所有主要垂直行業領域,現在的快速增長是一個增長的機會,值得所有供應商進行炒作。
大資料分析是快速增長的多樣化的區域。是以,試圖确定它有什麼用可能是無益的。但是,可以識别和鑒定大資料分析的技術特征和共同點。這些包括:
·在可擴充性方面,傳統的資料倉庫處理速度太慢,而且有限制;
·融合來自多個資料源的資料的能力,其中包括結構化和非結構化的資料;
·從資料來源擷取資訊是至關重要的,其中包括越來越多的移動裝置、無線射頻識别技術、網絡,以及自動化技術。
此外,在多樣性大資料分析中可以找到至少四個主要發展片段。這些片段是mapreduce,可擴充的資料庫,實時流處理和大資料應用。
(1)mapreduce
apachehadoop是mapreduce段開始的好地方。hadoop起源于谷歌公司在2004推出的一份檔案,描述了一種用于并行網絡的資料處理稱為mapreduce的概念。此後不久,apachehadoop的誕生成為一個開源實作mapreduce的過程。周圍的社群正在快速成長,生産附加元件擴充了企業資料中心内的apachehadoop的可用性。
apache的hadoop的使用者通常在商用伺服器建立自己的并行計算叢集,各有專門存儲在一個小型磁盤陣列的形式,最近,也開始采用固态硬碟(ssd)的形式。這些通常被稱為“無共享”架構。而存儲區域網絡(san)和網絡附加存儲(nas)的可擴充性和彈性,通常被視為缺乏i/o性能,這些叢集需要超越标準的資料倉庫的能力。是以,hadoop的存儲是直接連接配接存儲(das)。然而,使用san和nas的“二次”存儲正在成為新興的形式。
一個潛在的hadoop使用者面臨的采購選擇,從單純的開源到高度商業化的版本,其範圍内越來越廣泛。apache的hadoop和相關的工具都可以免費在apachehadoop的網站下載下傳。cloudera的公司提供了一個商業版本,其中包括一些cloudera的插件和支援。其他開放源代碼的變種,如facebook的distribution,也可以從cloudera公司獲得。其商業版本包括mapr,emc公司現在将其合并成一個hadoop應用。
(2)可擴充的資料庫
而hadoop已經攫取了大部分的頭條新聞,因為它在資料倉庫環境下具有非結構化資料的處理能力,更有向大資料分析的發展空間。
結構化資料也得到了大量的關注。一個充滿活力和快速增長的社群圍繞nosql,這是一個開源的、非關系型、分布和橫向擴充的資料庫集合的結構,可以滿足網絡規模的資料庫設計的高流量的網站和流媒體的需要。面向文檔的實作包括mongodb(如“humongous”db)和terrastore。
開源社群所産生的另一種面向分析的資料庫是正在開發使用的scidb,包括環境觀測和監測,射電天文學和地震,等等。
傳統的資料倉庫供應商并沒有袖手旁觀。甲骨文公司正在打造其“下一代”大資料平台,将利用其分析平台和記憶體計算的實時資訊傳遞。teradata公司最近收購了aster資料系統公司,将aster資料的sqlmapreduce添加到其産品組合中。
(3)實時流處理
對于多個資料流進行實時分析的streamsql從2003年開始使用,然而到現在為止,streamsql隻能夠滲透到一些比較小的小衆市場,如金融服務,監視和通信網絡監控等領域。而随着行業廠商和使用者對大資料的興趣不斷增長,streamsql勢必會得到更多的關注和尋找更多的市場機會。
streamsql是生長計算研究的一個區域稱為複雜事件處理(cep),對真實世界的事件資料的低延遲處理技術。無論是ibm,還是infospherestreams公司,以及streambase系統公司的産品都在這個領域中。
(4)大資料應用
作為大資料分析的興趣擴充到企業資料中心,供應商群體看到了一個機會,把一起大資料“家電”。這些裝置的伺服器,網絡和儲存設備內建到加速資訊傳遞到一個機箱和運作分析軟體使用者。這些裝置針對企業買家都會看重大資料裝置易用性和價值,以及其固有的實施和使用的特點而推出的。圍繞greenplum資料庫引擎這個領域的廠商,其中包括emc公司,ibm和netezza公司,mapr公司最近推出了hadoop商業化版本,預內建系統,内置裝置,可與甲骨文和teradata公司的版本相媲美。
大資料分析的大資料存儲
大資料分析過程的從業人員一般都不喜歡共享存儲。他們喜歡das的各種形式,從ssd到其内部并行處理節點的高容量的sata硬碟。共享存儲體系結構,如san和nas,通常被認為是相對緩慢的複雜的,首先,是其價格昂貴。這些特點都不選用于大資料分析系統的系統性能,不能滿足商品基礎設施的低成本的蓬勃發展。
實時或接近實時資訊傳遞是大資料分析的定義特征之一,是以,延遲是可以避免的,無論何時何地。在記憶體中的資料是良好的,至少比采用光纖傳輸到機械式硬碟要好,但也許比其他任何事情都更加糟糕,san在規模需要分析應用的成本讓人望而卻步。
在大資料分析中,有一個共享存儲的案例。然而,存儲廠商和一般的存儲社群還沒有成為大資料分析的實踐者。這個例子可以在paraccel的分析資料庫(padb)與netappsan存儲中看到。
資料存儲技術的開發人員表示将存儲看作從實體裝置遷移到一個更虛拟和抽象的實體的實作。其結果是,共享存儲環境可以并且應該被大資料從業者視為他們可以找到潛在有價值的資料服務,如:
(1)資料保護和系統可用性:基于存儲的複制功能可以不需要資料庫建立資料副本,當系統故障和資料損壞事件發生時,重新啟動可以恢複系統。
(2)縮短部署新應用程式和自動化流程的時間:通過可重複使用的資料副本,當新的應用程式都可以在網上迅速被建立,提高業務靈活性。
(3)變更管理:共享存儲可以幫助保持一個“永遠線上”的能力,可能減少所需的改變和更新,以及對線上生産環境的影響。
(4)生命周期管理:當共享存儲可以作為記錄的資料庫時,系統的演化變得更加容易管理,并且那些已經廢棄的應用變得更加容易丢棄。
(5)節約成本:使用共享存儲作為一個無共享架構,可以輔助das降低成本和處理器節點的複雜性。
以上提到的好處每個人都可以被映射到無共享架構的分析。我們可以期望看到更多的存儲廠商這樣做一段時間。例如,雖然尚未公布,emc公司可以憑借其基于mapr裝置整合isilon或atmos公司的存儲。
大資料是一個大問題
傳統的資料倉庫是一個大而相對較慢的生産商資訊的業務分析。它從有限的資料資源,并依賴于反複的提取、轉換和加載(etl)過程。客戶在快速尋找擷取資訊的基礎上,從多個資料源同時淘汰掘金。大資料分析可以被定義,在一定程度上,需要從多個資料源解析大資料集,并産生實時或接近實時的資訊。
大資料分析代表了一個巨大的機會。it組織都在探索上述來自社交網絡的繁榮,解析基于網絡的資料源和提取價值分析技術。然而,現在有了一個更大的機會,那就是物聯網成為了一種新興的資料源。思科系統公司估計全球目前約有350億個可以連接配接到網際網路的電子裝置。任何電子裝置可以(有線或無線)連接配接到網際網路,甚至汽車制造商正在建設連接配接到車輛的網際網路。“連接配接的”汽車将在2020年成為司空見慣的事情,并産生數以百萬計的瞬态資料流。
了解大資料分析
利用多個資料源,如物聯網的力量将會遠遠超出傳統的資料倉庫技術。這将需要模仿人類大腦功能的過程。我們的大腦需要大量的感官資料流,并建立必要的相關關系,讓我們知道我們在哪裡,我們在做什麼,最終我們在想什麼,所有這些都是實時的。
關于作者
約翰·韋伯斯特是評估公司evaluator集團的進階合夥人,主要從事資料存儲技術,正在進行的研究包括硬體、軟體和服務管理。
本文轉自d1net(轉載)