在 idea 里面编写 WordCount 程序

2023-05-21 04:52:11

object WorldCount {
  def main(args: Array[String]): Unit = {
 // 创建SparkContext ，只有使用SparkContext 才可以向集群申请资源，
 //   才可以创建    RDD
       val conf = new SparkConf().setAppName("WorldCount")
       val sc = new SparkContext(conf)
     // 第一步创建RDD ： 指定【以后】从HDFS 中读取数据创建RDD
    //  读取 数据
    val lines = sc.textFile(args(0))
    // 对数据进行压平
    val words = lines.flatMap(_.split(" "))
    // 将单词和 一 组合
    val wordAndOne = words.map((_, 1))
    // 聚合（优点 ：先在分区内进行局部聚合，在全局聚合）
    val reduced = wordAndOne.reduceByKey(_ + _)
    //  排序
    val sorted = reduced.sortBy(_._2, false)
    //调用Action将计算结果保存到HDFS中
    sorted.saveAsTextFile(args(1))
    //  释放资源
    sc.stop()
  }
}

在 idea 里面编写 WordCount 程序

继续阅读

pyspark调用spark以及执行带in语句参数的hql示例

用写sql的思路写 pyspark

pyspark学习(一)—pyspark的安装与基础语法一 Pysaprk的安装二：pyspark的简单语法END

【Spark Mllib】K-均值聚类——电影类型K-均值聚类数据特征提取

一篇文章让你精通Java JSP规范

世界因大数据而改变

Spark的RDD转换算子-双value型Spark的RDD转换算子-双value型

SparkSQL项目练习1 准备数据2 需求：各区域热门商品Top3

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系统实现流式实时日志分析系统

Scala和Java二种方式实战Spark Streaming开发

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结