Spark实现wordcount

2023-08-07 22:42:03

object WordCount{

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("wordcount")

    val sc = new SparkContext(conf)

    sc.textFile(args(0)).flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect

    sc.stop()
  }
}

textFile(args(0))：读取args(0)指定的文件里的数据；

flatMap(_.split(" "))：压平操作，按照空格分割符将每行数据映射成一个个单词；

map((_,1))：对每一个元素（单词）操作，将单词映射为元组；

reduceByKey(_+_)：按照key将值进行聚合，相同key的value进行相加；

collect：将数据收集到Driver端展示。

下面的代码不仅实现了wordcount，还将结果按照单词出现的个数降序，并保存到args(1)所指定的文件里

object WordCount2{

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("wordcount2")

    val sc = new SparkContext(conf)

    sc.textFile(args(0)).flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).sortBy(_._2, false).saveAsTextFile(args(1))

    sc.stop()
  }
}

Spark实现wordcount

继续阅读

spark 集群启动后，worker 节点worker 进程一段时间后自动结束

pyspark调用spark以及执行带in语句参数的hql示例

用写sql的思路写 pyspark

pyspark学习(一)—pyspark的安装与基础语法一 Pysaprk的安装二：pyspark的简单语法END

【Spark Mllib】K-均值聚类——电影类型K-均值聚类数据特征提取

一篇文章让你精通Java JSP规范

世界因大数据而改变

Spark的RDD转换算子-双value型Spark的RDD转换算子-双value型

SparkSQL项目练习1 准备数据2 需求：各区域热门商品Top3

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系统实现流式实时日志分析系统

Scala和Java二种方式实战Spark Streaming开发

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结