Spark使用parallelize方法创建RDD以及map、flatmap的区别

2023-04-20 11:51:47

spark创建RDD常用的方法有两个分别是parallelize、parallelizePairs，parallelize用来生成普通格式的RDD,parallelizePairs用来生成kv格式的RDD

package com.debug;

import java.util.Arrays;
import java.util.List;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.VoidFunction;

public class CreateRDD1 {

	public static void main(String[] args) {
		SparkConf conf = new SparkConf();
		conf.setMaster("local");
		conf.setAppName("createRDD01");

		JavaSparkContext sc = new JavaSparkContext(conf);

		List<String> arr = Arrays.asList("a_1", "b_2", "c_3", "d_4", "e_5", "f_6");
		JavaRDD<String> rdd1 = sc.parallelize(arr);

		/*
		 * JavaRDD<String> res=rdd1.map(new Function<String, String>() {
		 * 
		 * public String call(String ch) throws Exception {
		 * 
		 * return ch+"*"; } });
		 */
		JavaRDD<String> res = rdd1.flatMap(new FlatMapFunction<String, String>() {

			public Iterable<String> call(String ch) throws Exception {

				return Arrays.asList(ch.split("_"));
			}
		});
		res.foreach(new VoidFunction<String>() {

			public void call(String content) throws Exception {
				System.out.println(content);

			}
		});

	}

}

这里需要注意理解map和flatmap的区别，map会将每一条映射为一个新对象，flatmap会将每一个输入对象映射为一个新集合，然后把这些集合拼接成一个大的集合；如果把RDD的每个元素比喻成水果，map就相当于削皮，水果的总数不会变，flatmap相当于切碎水果，总数一般变多

平时使用较多的还有kv格式的RDD,前面已经说过可以使用parallelizePairs生成kv格式的RDD,看下如下的demo

package com.debug;

import java.util.Arrays;
import java.util.List;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.VoidFunction;

import scala.Tuple2;

public class CreateRDD2 {

	public static void main(String[] args) {
		
		SparkConf conf=new SparkConf();
		conf.setMaster("local");
		conf.setAppName("CreateRDD2");
		
		
		JavaSparkContext sc=new JavaSparkContext(conf);
		List<Tuple2<String, Double>> arr2 = Arrays.asList(
				new Tuple2<String, Double>("u1", 20.01),
				new Tuple2<String, Double>("u2", 18.95), 
				new Tuple2<String, Double>("u3", 20.55),
				new Tuple2<String, Double>("u4", 20.12), 
				new Tuple2<String, Double>("u5", 100.11)
		);
		JavaPairRDD<String, Double> rdd2 = sc.parallelizePairs(arr2);

		rdd2.foreach(new VoidFunction<Tuple2<String, Double>>() {

			public void call(Tuple2<String, Double> tup) throws Exception {
				System.out.println(tup);

			}
		});

		sc.stop();

	}

}

Spark使用parallelize方法创建RDD以及map、flatmap的区别

Spark使用parallelize方法创建RDD以及map、flatmap的区别

继续阅读

pyspark调用spark以及执行带in语句参数的hql示例

用写sql的思路写 pyspark

pyspark学习(一)—pyspark的安装与基础语法一 Pysaprk的安装二：pyspark的简单语法END

【Spark Mllib】K-均值聚类——电影类型K-均值聚类数据特征提取

一篇文章让你精通Java JSP规范

世界因大数据而改变

Spark的RDD转换算子-双value型Spark的RDD转换算子-双value型

SparkSQL项目练习1 准备数据2 需求：各区域热门商品Top3

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系统实现流式实时日志分析系统

Scala和Java二种方式实战Spark Streaming开发

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结