《Spark大資料分析：核心概念、技術及實踐》一3.10　總結

2021-11-08 05:36:08

本節書摘來自華章出版社《spark大資料分析：核心概念、技術及實踐》一書中的第3章，第3.10節，作者[美]　穆罕默德·古勒（mohammed guller），更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

3.10　總結

spark是一個快速、可擴充、可容錯且基于記憶體的叢集計算架構。一個spark應用可以比hadoop應用快上100倍。

spark不但快速而且它能很友善地使用mapreduce。通過不同語言（包括java、python、scala和r）的易讀的api，它可以友善地開發分布式大資料應用。使用spark開發者的生産力可以有5～10倍的提升。

而且spark為各種資料處理任務提供了統一的平台。它是一個通用的架構，可以被各種大資料應用使用。對于疊代式資料分析或者使用疊代算法的應用而言，它是一個理想的平台。

spark的程式設計模型基于一個叫作rdd的抽象概念。從概念上看，rdd類似于scala中的集合。它表示的資料就是一組分區的集合，這些分區分布在叢集的節點上。它還為處理資料提供一些函數式的方法。

繼續閱讀