用spark實作row_number()Spark Table Api實作Spark Core Api實作

2023-06-04 14:59:33

準備資料

//company app visit_times
騰訊,騰訊視訊,800
騰訊,QQ音樂,900
騰訊,微信讀書,100
騰訊,微信,900
騰訊,騰訊課堂,200
阿裡,支付寶,900
阿裡,優酷視訊,700
阿裡,蝦米音樂,500
阿裡,飛豬,700
阿裡,釘釘,600
百度,百度App,700
百度,百度地圖,800
百度,愛奇藝,800
百度,百度錢包,100
百度,百度貼吧,200

Spark Table Api實作

import org.apache.spark.sql.functions._
val df = spark.read.textFile("./data/test")
      .map(_.split(","))
      .map(x => (x(0), x(1), x(2)))
      .toDF("company", "app", "vst_times")
      .groupBy("company","app")
      .agg(sum("vst_times") as "vst_times")
      .cache()
    val windows = Window.partitionBy("company","app").orderBy(col("vst_times").desc)
    //取出BAT三大公司通路量Top2的app
    df.select("company", "app", "vst_times")
      .withColumn("row_number", row_number().over(windows))
      .where("row_number <= 2 ")
      .select("company", "app", "vst_times")
      .show()

Spark Core Api實作

val apprdd = spark.read.textFile("test.log")
       .map(line => {
         val x = line.split(",")
         ((x(0), x(1)), x(2))
       })
 val reduced: RDD[((String, String), Int)] = apprdd.reduceByKey(_+_)
 val grouped: RDD[(String, Iterable[((String, String), Int)])] = reduced.groupBy(_._1._1)
 //按照公司分組
 val sorted: RDD[(String, List[((String, String), Int)])] = grouped.mapValues(_.toList.sortBy(-_._2).take(2))
 //輸出結果
 sorted.foreach(println(_))
 //釋放資源
 sc.stop()

結果輸出：

+-------+--------+---------+
|company|     app|vst_times|
+-------+--------+---------+
|   騰訊|  QQ音樂|      900|
|   騰訊|    微信|      900|
|   百度|百度地圖|      800|
|   百度|  愛奇藝|      800|
|   阿裡|  支付寶|      900|
|   阿裡|優酷視訊|      700|
+-------+--------+---------+

用spark實作row_number()Spark Table Api實作Spark Core Api實作

Spark Table Api實作

Spark Core Api實作

繼續閱讀

微服務-性能壓測\緩存redis和分布式鎖redisson和SpringCache

Nacos 2.0 更新前後性能對比壓測

Spring資料和Redis

redis叢集資料一緻性_RedisRaft為Redis叢集帶來強大的資料一緻性

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

celery使用入門

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark