Spark用Scala做WordCount案例

2022-07-01 17:20:39

1.项目结构

2.单词文档（data/words）

Kobe James Jordan Pual
Kobe Kobe James Jordan Jordan
Kobe James Jordan
Kobe Pual Pual

3.导入Spark依赖

<dependencies>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.3.1</version>
        </dependency>
    </dependencies>

4.源码计算（WordCountByScala）

import org.apache.spark.{SparkConf, SparkContext}

/**
 * @Author yqq
 * @Date 2021/12/06 20:09
 * @Version 1.0
 */
object WordCountByScala {
   /**
     * SparkConf 是Spark的配置，可以设置：
     *   1).Spark运行模式
     *     local:本地运行模式，多用于本地使用eclipse | IDEA 测试代码。
     *     yarn: hadoop生态圈中的资源调度框架，Spark可以基于Yarn进行调度资源
     *     standalone:Spark自带的资源调度框架，支持分布式搭建，spark可以基于自带的资源调度框架来进行调度。
     *     mesos:资源调度框架。
     *     k8s：虚拟化的方式运行。
     *
     *   2).可以设置在Spark WEBUI中展示的Spark Application的名称
     *   3).可以设置运行的资源情况
     *       主要的资源包含core 和内存
     */
  def main(args: Array[String]): Unit = {
    //初始化spark的上下文
     /**
     * SparkContext 是通往Spark集群的唯一通道
     */
    val context = new SparkContext(
      new SparkConf()
        .setAppName("scala-wc")
        .setMaster("local")
    )
    //读取数据
    val value = context.textFile("data/words")
      .flatMap(_.split(" "))
      .map((_, 1))
      .reduceByKey(_ + _)

    value.foreach(println)
  }
}

Spark用Scala做WordCount案例

1.项目结构

2.单词文档（data/words）

3.导入Spark依赖

4.源码计算（WordCountByScala）

继续阅读

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

2021-09-30一码在手安全无忧从农田到餐桌，全流程追溯四大模块，助力客户实现品牌化

《快学Scala》——基础

《快学scala》第13章练习答案

Spark流式分析系统实现流式实时日志分析系统

Scala和Java二种方式实战Spark Streaming开发

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

尚硅谷—韩顺平—图解 Java设计模式（结构型）（55～）

9.spark Core 进阶2--Cashe

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method