spark中RDD的方法整理

2023-07-01 02:31:27

aggregate[U](zeroValue : U)(seqOp : scala.Function2[U, T, U], combOp : scala.Function2[U, U, U])：U

def main(args: Array[String]): Unit = {
    //seqOp函數傳回的是值小的 
    def seqOp(arg1:Int,arg2:Int):Int={
      var res:Int=arg1
      if(arg1>arg2)
        res=arg2
      println("seqOp:"+arg1+","+arg2+"=>"+res)
      res
    }
    //combOp函數兩個值求和
    def combOp(arg1:Int,arg2:Int):Int={
      println("combOp:"+arg1+","+arg2+"=>"+(arg1+arg2))
      arg1+arg2
    }
    //将每個分區index顯示出來
    def myfunc[T](index:Int,iter:Iterator[T]):Iterator[(Int,T)]={
      var res = List[(Int,T)]()
      for(x<-iter)
        res.::=(index,x)
      res.iterator
    }
    val sparkConf: SparkConf = new SparkConf().setAppName("Demo").setMaster("local")
    val ssc:SparkContext=new SparkContext(sparkConf)
    val data=ssc.parallelize( to ,)
    data.mapPartitionsWithIndex(myfunc).collect()
    val  result=data.aggregate()(seqOp,combOp)
    print(result)
  }

//結果如下
seqOp:,=>
seqOp:,=>
seqOp:,=>
combOp:,=>

seqOp:,=>
seqOp:,=>
seqOp:,=>
combOp:,=>

seqOp:,=>
seqOp:,=>
seqOp:,=>
seqOp:,=>
combOp:,=>

val data=ssc.parallelize(1 to 10,3)将1-10劃分為三個分區，第一個分區存放了1 2 3 第二個分區存放了4 5 6 第三個分區存放了7 8 9 10。

aggregate的作用是什麼呢，這個方法有兩個括号參數，第一個括号我們傳入了int類型的2，第二個括号傳入了兩個函數，第一個函數求兩個值的最小值，第二個函數求兩個值的和。

首先：2與第一個分區中的第一個數比較即2與1 我們得到seqOp（2,1）然後傳回了1，接着剛剛傳回的值1與第一個分區第二個數2比較，我們得到seqOp（1,2）傳回值是1，接着與第一分區第三個值3比較，我們得到seqOp（1,3）傳回1，

然後：aggregate的第一個參數2繼續去第二個分區得到最小值2，接着下面的分區都是跟上面一樣操作，第三個分區得到也是2。其實含義就是找到某個分區然後加上第一個參數2得到該分區最小的數，當然這隻是一個例子我們可以自定義其他函數。

最後：第一個分區得到最小值1後執行combOp（2，1）傳回3，然後第二個分區執行combOp（3,2）傳回5，然後第三個分區執行combOp（5,2）得到7，是以最後的aggregate傳回的是整形數字7。

spark中RDD的方法整理

aggregate[U](zeroValue : U)(seqOp : scala.Function2[U, T, U], combOp : scala.Function2[U, U, U])：U

繼續閱讀

pyspark調用spark以及執行帶in語句參數的hql示例

用寫sql的思路寫 pyspark

pyspark學習(一)—pyspark的安裝與基礎文法一 Pysaprk的安裝二：pyspark的簡單文法END

【Spark Mllib】K-均值聚類——電影類型K-均值聚類資料特征提取

一篇文章讓你精通Java JSP規範

世界因大資料而改變

Spark的RDD轉換算子-雙value型Spark的RDD轉換算子-雙value型

SparkSQL項目練習1 準備資料2 需求：各區域熱門商品Top3

延雲行業搜尋資料庫在大資料生态中位置和重要性大資料的挑戰大資料技術的現狀延雲行業搜尋資料庫

Spark在windows環境裡跑時報錯找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系統實作流式實時日志分析系統

Scala和Java二種方式實戰Spark Streaming開發

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

Spark實作wordcount

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結