01 第一个 Spark 程序：WordCount第一个 Spark 程序：WordCount

2023-03-10 03:42:09

第一个 Spark 程序：WordCount

1. 使用 Spark-shell

准备数据：创建文件夹

input

，以及

Words.txt

文件

[[email protected] spark-2.1.1]$ mkdir input
[[email protected] input]$ vim Words.txt

在文件中输入数据：

hello spark
hello scala
hello world

进入

spark-shell

[[email protected] spark-2.1.1]$ bin/spark-shell

01 第一个 Spark 程序：WordCount第一个 Spark 程序：WordCount

编写

WordCount

程序并运行

scala> sc.textFile("input/").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
res0: Array[(String, Int)] = Array((scala,1), (hello,3), (world,1), (spark,1))

01 第一个 Spark 程序：WordCount第一个 Spark 程序：WordCount

2. 使用开发工具 IDEA

创建

Maven

项目，并导入如下依赖

<dependencies>
  <dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.11</artifactId>
    <version>2.1.1</version>
  </dependency>
</dependencies>

<build>
  <plugins>
    <!-- 打包插件, 否则 scala 类不会编译并打包进去 -->
    <plugin>
      <groupId>net.alchim31.maven</groupId>
      <artifactId>scala-maven-plugin</artifactId>
      <version>3.4.6</version>
      <executions>
        <execution>
          <goals>
            <goal>compile</goal>
            <goal>testCompile</goal>
          </goals>
        </execution>
      </executions>
    </plugin>
  </plugins>
</build>

创建

WordCount.scala

文件，实现以下代码

package com.guli

import org.apache.spark.{SparkConf, SparkContext}

object WordCount {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("WorldCount").setMaster("local[*]")
    val sc = new SparkContext(conf)
    val wcArray: Array[(String, Int)] = sc.textFile("/Users/zgl/Desktop/input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect()
    wcArray.foreach(println)
    sc.stop()
  }
}

运行结果

(scala,1)
(hello,3)
(world,1)
(spark,1)

01 第一个 Spark 程序：WordCount第一个 Spark 程序：WordCount

第一个 Spark 程序：WordCount

1. 使用 Spark-shell

2. 使用开发工具 IDEA

继续阅读

在线教育巨头多邻国Duolingo入华一周年，中国市场马力全开

【分类算法】什么是分类算法定义分类与聚类分类过程方法

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

Sql优化一：sql语句优化

Nacos 2.0 升级前后性能对比压测

尚硅谷—韩顺平—图解 Java设计模式（结构型）（55～）

Storm编译打包过程中遇到的一些问题及解决方法

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

9.spark Core 进阶2--Cashe

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

浅谈企业活动中进行数据分析的重要性

Ambari介绍和架构原理

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

NOSQL安全攻击

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method