Spark 资源和数据并行度优化分析3

2021-12-10 23:50:00

开发者学堂课程【大数据实时计算框架 Spark 快速入门：Spark资源和数据并行度优化分析3】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：

https://developer.aliyun.com/learning/course/100/detail/1686

内容简介：

一、FlatMap 算子

二、Collect 算子

public static void main(String[] args) {

SparkConfconf = new SparkConf().setAppName("FlatMapOperator").setMaster("local");

JavaSparkContext sc = new JavaSparkContext(conf);

List linelist = Arrays.aslist("hello xuruyun","hello xuruyun","hello JavaRDD lines=sc.parallelize(lineList);

// flatMap = flat+ map

JavaRDD words = lines.flatMap(new FlatMapFunction(){private static final long serialVersionUID = 1L;

@Override

public Iterable call(String line) throws Exception {

returnArrays.aslist(line.split(""));

}};

words. foreach(new VoidFunction(){private static final long serialVersionUID = 1L;

@Override

public void call(String result) throws Exception {

public class Collectoperator {

publicstatic void main(String[] args) {

SparkConfconf = new SparkConf().setAppName("ReduceOperator").setMaster("local");

JavaSparkContext sc = new JavaSparkContext(conf);

//有一个集合，里面有1到10,10个数字，现在我们通过 reduce 来进行累加

List numberList = Arrays. asList(1, 2, 3, 4, 5);

JavaRDD numbers = sc.parallelize(numberList);

JavaRDD doubleNumbers = numbers. map(new Function

@Override

public Integer call(Integer v) throws Exception {

returnv* 2;

});

// 用 foreach action 操作， collect 在远程集群上遍历 RDD 的元素// 用collect 操作，将分布式的在远程集群里面的数据拉取到本地！!!//这种方式不建议使用，如果数据量大，走大量的网络传输//甚至有可能 OOM 内存溢出，通常情况下你会看到用 foreach 操作 List doubleNumberList = doubleNumbers.

collect();for(Integer num: doubleNumberList){

System.out.println(num);

sc.close();

Spark 资源和数据并行度优化分析3 | 学习笔记

Spark 资源和数据并行度优化分析3

继续阅读

【51CTO学院三周年】自学路上的伴侣

在线教育巨头多邻国Duolingo入华一周年，中国市场马力全开

【分类算法】什么是分类算法定义分类与聚类分类过程方法

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

Sql优化一：sql语句优化

Nacos 2.0 升级前后性能对比压测

尚硅谷—韩顺平—图解 Java设计模式（结构型）（55～）

Storm编译打包过程中遇到的一些问题及解决方法

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

9.spark Core 进阶2--Cashe

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

浅谈企业活动中进行数据分析的重要性

Ambari介绍和架构原理

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

NOSQL安全攻击

win10本地scala和spark安装安装scala安装spark