颠覆大数据分析之Spark VS分布式共享内存系统

2021-11-06 10:31:56

颠覆大数据分析之spark vs分布式共享内存系统

译者：黄经业购书

spark可以看作是一个分布式共享集合系统，和stumm和zhou (1990)以及nitzber和lo (1991)所提到的传统的分布式共享内存（dsm）系统则略有不

同。dsm系统允许单独读写内存，而spark只允许进行粗粒度的rdd转换。尽管这限制了能够使用spark的应用种类，但它对于实现高效的容错性却很有帮助。dsm系统可能会需要检查点相互协作来完成容错，比如说使用boukerche等人（2005）所提出的协议。相反的，spark只需要存储世系图来进行容错。恢复需要在rdd丢失的分区上进行重构操作——但这个可以并行地高效完成。spark与dsm系统的另一个根本的不同在于，由于rdd的只读特性，spark中可以使用流浪者缓解策略——这使得备份任务可以并行地完成，这类似于mr中的推测执行（dinu和ng 2012）。而在dsm中则很难缓解流浪者或者备份任务，因为这两者都可能会产生内存竞争。spark的另一个优点是当rdd的大小超出集群的所有内存时可以优雅地进行降级。它的缺点就是rdd的转换本质上是粗粒度的，这限制了能够开发的应用的种类。比如说，需要细粒度共享状态访问的应用，像web爬虫或者其它web应用，都很难在spark上实现。piccolo (power和 li 2010)提供了一个以数据为中心的异步编程模型，这或许是这类应用的一个更好的选择。

在spark中，开发人员调用map,filter或reduce操作时可以传入函数或者闭包。一般来说，当spark在工作节点上运行这些函数的时候，函数使用域内的本地变量会被拷贝出来。spark有一个共享变量的概念，它使用广播变量和累加器来模拟“全局”变量。开发人员使用广播变量一次性地将只读数据拷贝给所有的工作者。(类共轭梯度下降的算法中的静态矩阵可以使用广播变量来表示）累加器是只能由工作者来增加并由驱动程序去读取的变量——这样并行聚合可以实现成支持容错的。值得注意的是全局变量是在spark中模仿dsm功能的一种特殊方式。

颠覆大数据分析之Spark VS分布式共享内存系统

继续阅读

Windows下VS开发环境环境安装工程项目设置关于Debug和Release的提示

一文看懂字符串的加减乘除

极大似然法(ML)与最大期望法(EM)

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

C++ 第十五周报告1--《冒泡法排序》

C++实现简单顺序表

笔试面试题目：滑动窗口(二)

数据结构与算法（27）——排序（二）

Dijkstra--简易版（最短路径）

C经典书籍笔记——C陷阱与缺陷②(语法陷阱之优先级)一、错误案列二、优先级规律

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

线性表之顺序表的实现

C++判断素数、求最大公约数代码判断一个数是否为素数求两个数的最大公约数

SequoiaDB巨杉数据库C++驱动概述

hdu7108哈希