天天看點

Spark點燃近實時大資料之火

在使用者體驗達不到所宣傳效果之後,it領域中必然會随之出現“新的熱門事件”。目前的新熱門事件涉及大資料和對海量分布式資料的快速精準分析。

在目前的大資料領域中,hadoop被作為存儲和配置設定海量資料的軟體,而mapreduce則被作為處理這些海量資料的引擎。兩者整合在一起可以批處理一些對時效性沒有過高要求的資料。

Spark點燃近實時大資料之火

那麼對于近實時大資料分析應當怎麼辦呢?作為最先進的下一代開源技術apache spark已經為視訊、傳感器、交易等流資料的分析、機器學習、預測模組化創造了條件。它們可以用于基因組研究、封包檢測、惡意軟體探測和物聯網。

spark不僅可像mapreduce那樣用于批處理,對于需要與資料集進行大量互動的算法,spark還可以将這些運算的中間結果存儲在緩存中。 相比之下,在帶入系統進行下一步處理前,mapreduce必須要将每步運算的結果寫入磁盤。這種在記憶體中對彈性分布式資料集(rdd)的快速處理可以說 是apache spark的核心能力。

salient federal solutions公司一直緻力于使用spark為政府機構開發分析産品。該公司預測分析主任dave vennergrund稱:“一旦執行對資料集的操作,它們能夠進行互相連接配接,進而使得轉換能夠被迅速完成。加之它們能夠同時跨多台機器做這一工作,這使 得我們能夠迅速做出反應。”

spark的支援者認為,與競争對手相比,spark在擴充性和速度方面都具有優勢。突出表現為在小資料集更新為拍位元組後,它們仍然能夠出色地工 作。在2014年11月份的基準競賽中,apache spark整理100太位元組資料的速度比hadoop mapreduce快了三倍,并且其機器叢集的規模是mapreduce的十分之一。

據軟體開發公司typesafe近期觀察顯示,對spark感興趣的機構在數量上正在不斷增長。資料顯示,目前13%的受訪者正在使用spark, 約30%的受訪者正在對spark進行評估,20%的受訪者計劃在今年某一時候開始使用spark。另有6%的受訪者希望在2016年或更晚時候使用 spark。此外,28%的受訪者還對spark不了解,認為它們還不成熟。

salient 的資料分析中心副總裁cindy walker稱:“對于政府來說,他們正在進行測試與評估。早期部署者都是那些有沙盒和研發預算的部門。我們的許多客戶現在對大資料部署、記憶體分析、流解 決方案都還沒有劃定能力底線。是以,我們目前正在使用spark幫助他們設定合理的目标。”

雖然spark還無法取代mapreduce,但是它們最終将成為大資料分析領域的一部分,推動資料被以更快的速度處理。

apache spark生态環境有以下幾個組成部分:

spark core:平台的底層執行引擎,支援大量應用以及java、scala和python等應用程式接口(api)。

spark sql(結構化查詢語言) :使用者可通過其探究資料。

spark streaming:可對來自推特的流資料進行分析,并且讓spark具備批處理能力。

機器學習庫 (mllib):一種分布式機器學習架構,傳遞高品質算法的速度比mapreduce快100倍。

graph x:幫助使用者以圖形的形式表現文本和清單資料,找出資料中的不同關系。

sparkr:針對r統計語言的程式包。r使用者可通過其在r殼中使用spark功能。

blinkdb:大型并行引擎。允許使用者對海量資料執行類sql查詢,在速度重要性高于精确性的情況下非常有用。

本文作者:佚名

來源:51cto

繼續閱讀