[Spark基礎]-- spark中join和group操作

2022-11-03 14:29:30

package com.scala

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD.rddToPairRDDFunctions
/**
 * scala測試join和cogroup：join是排列組合，而cgroup是分組
 */
object JoinAndCogroup {
  
  def main(args:Array[String]):Unit={
    val conf=new SparkConf().setAppName("joinAndcogroup").setMaster("local[1]")
    //擷取context
    val sc=new SparkContext(conf)
    //建立泛型集合
    val stuList=List((1,"tom"),(2,"jim"),(3,"cassie"))
    val scoreList=List((1,20),(1,90),(1,30),(2,23),(2,23),(2,80),(3,90),(3,100),(3,100))
    //轉化為RDD
    val stuRDD=sc.parallelize(stuList)
    val scoreRDD=sc.parallelize(scoreList)
  /*  //join操作
    //周遊
    val joinRDD=stuRDD.join(scoreRDD)
    for( join2 <- joinRDD ) {
      println("===========")
      println("id is "+join2._1)
      println("name is "+join2._2._1)
      println("score is "+join2._2._2)
    }    */
    
    //cogroup操作
    val gourpRDD=stuRDD.cogroup(scoreRDD)
    for (group2<- gourpRDD){
       println("===========")
      println("id is "+group2._1)
      println("name is "+group2._2._1)
      println("score is "+group2._2._2)
    }
    //周遊結果
  }
}

[Spark基礎]-- spark中join和group操作

繼續閱讀

Linux 7 中配置Apache服務，及禁止ip通路，删除apache廣告頁面。

9.spark Core 進階2--Cashe

Apache配置檔案中的deny和allow的使用

Apache 配置預設編碼

伺服器配置——Apache

Apache靜态檔案通路配置（書封伺服器）

apache httpd 配置

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

Ubuntu16.04安裝Apache+MySQL+PHP1. 安裝Apache2. 安裝MySQL3. 安裝PHP4. 安裝phpMyAdmin

Apache配置SSLApache配置SSL

Windows下配置Apache的SSL服務

Apache2.4.x 配置檔案詳解Apache配置需要了解如下：開始講解：

配置apache支援PHP（win7）

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method