天天看点

《Spark大数据分析:核心概念、技术及实践》一3.10 总结

 本节书摘来自华章出版社《spark大数据分析:核心概念、技术及实践》一书中的第3章,第3.10节,作者[美] 穆罕默德·古勒(mohammed guller),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.10 总结

spark是一个快速、可扩展、可容错且基于内存的集群计算框架。一个spark应用可以比hadoop应用快上100倍。

spark不但快速而且它能很方便地使用mapreduce。通过不同语言(包括java、python、scala和r)的易读的api,它可以方便地开发分布式大数据应用。使用spark开发者的生产力可以有5~10倍的提升。

而且spark为各种数据处理任务提供了统一的平台。它是一个通用的框架,可以被各种大数据应用使用。对于迭代式数据分析或者使用迭代算法的应用而言,它是一个理想的平台。

spark的编程模型基于一个叫作rdd的抽象概念。从概念上看,rdd类似于scala中的集合。它表示的数据就是一组分区的集合,这些分区分布在集群的节点上。它还为处理数据提供一些函数式的方法。

继续阅读