spark中RDD的方法整理

2023-07-01 02:31:27

aggregate[U](zeroValue : U)(seqOp : scala.Function2[U, T, U], combOp : scala.Function2[U, U, U])：U

def main(args: Array[String]): Unit = {
    //seqOp函数返回的是值小的 
    def seqOp(arg1:Int,arg2:Int):Int={
      var res:Int=arg1
      if(arg1>arg2)
        res=arg2
      println("seqOp:"+arg1+","+arg2+"=>"+res)
      res
    }
    //combOp函数两个值求和
    def combOp(arg1:Int,arg2:Int):Int={
      println("combOp:"+arg1+","+arg2+"=>"+(arg1+arg2))
      arg1+arg2
    }
    //将每个分区index显示出来
    def myfunc[T](index:Int,iter:Iterator[T]):Iterator[(Int,T)]={
      var res = List[(Int,T)]()
      for(x<-iter)
        res.::=(index,x)
      res.iterator
    }
    val sparkConf: SparkConf = new SparkConf().setAppName("Demo").setMaster("local")
    val ssc:SparkContext=new SparkContext(sparkConf)
    val data=ssc.parallelize( to ,)
    data.mapPartitionsWithIndex(myfunc).collect()
    val  result=data.aggregate()(seqOp,combOp)
    print(result)
  }

//结果如下
seqOp:,=>
seqOp:,=>
seqOp:,=>
combOp:,=>

seqOp:,=>
seqOp:,=>
seqOp:,=>
combOp:,=>

seqOp:,=>
seqOp:,=>
seqOp:,=>
seqOp:,=>
combOp:,=>

val data=ssc.parallelize(1 to 10,3)将1-10划分为三个分区，第一个分区存放了1 2 3 第二个分区存放了4 5 6 第三个分区存放了7 8 9 10。

aggregate的作用是什么呢，这个方法有两个括号参数，第一个括号我们传入了int类型的2，第二个括号传入了两个函数，第一个函数求两个值的最小值，第二个函数求两个值的和。

首先：2与第一个分区中的第一个数比较即2与1 我们得到seqOp（2,1）然后返回了1，接着刚刚返回的值1与第一个分区第二个数2比较，我们得到seqOp（1,2）返回值是1，接着与第一分区第三个值3比较，我们得到seqOp（1,3）返回1，

然后：aggregate的第一个参数2继续去第二个分区得到最小值2，接着下面的分区都是跟上面一样操作，第三个分区得到也是2。其实含义就是找到某个分区然后加上第一个参数2得到该分区最小的数，当然这只是一个例子我们可以自定义其他函数。

最后：第一个分区得到最小值1后执行combOp（2，1）返回3，然后第二个分区执行combOp（3,2）返回5，然后第三个分区执行combOp（5,2）得到7，因此最后的aggregate返回的是整形数字7。

spark中RDD的方法整理

aggregate[U](zeroValue : U)(seqOp : scala.Function2[U, T, U], combOp : scala.Function2[U, U, U])：U

继续阅读

pyspark调用spark以及执行带in语句参数的hql示例

用写sql的思路写 pyspark

pyspark学习(一)—pyspark的安装与基础语法一 Pysaprk的安装二：pyspark的简单语法END

【Spark Mllib】K-均值聚类——电影类型K-均值聚类数据特征提取

一篇文章让你精通Java JSP规范

世界因大数据而改变

Spark的RDD转换算子-双value型Spark的RDD转换算子-双value型

SparkSQL项目练习1 准备数据2 需求：各区域热门商品Top3

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系统实现流式实时日志分析系统

Scala和Java二种方式实战Spark Streaming开发

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结