天天看點

《Spark大資料分析:核心概念、技術及實踐》一3.10 總結

 本節書摘來自華章出版社《spark大資料分析:核心概念、技術及實踐》一書中的第3章,第3.10節,作者[美] 穆罕默德·古勒(mohammed guller),更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

3.10 總結

spark是一個快速、可擴充、可容錯且基于記憶體的叢集計算架構。一個spark應用可以比hadoop應用快上100倍。

spark不但快速而且它能很友善地使用mapreduce。通過不同語言(包括java、python、scala和r)的易讀的api,它可以友善地開發分布式大資料應用。使用spark開發者的生産力可以有5~10倍的提升。

而且spark為各種資料處理任務提供了統一的平台。它是一個通用的架構,可以被各種大資料應用使用。對于疊代式資料分析或者使用疊代算法的應用而言,它是一個理想的平台。

spark的程式設計模型基于一個叫作rdd的抽象概念。從概念上看,rdd類似于scala中的集合。它表示的資料就是一組分區的集合,這些分區分布在叢集的節點上。它還為處理資料提供一些函數式的方法。

繼續閱讀