【大数据开发 Spark】第三篇：三种方式实现 WordCount 单词统计

2022-11-01 23:55:45

前言：本文学习自尚硅谷的 Spark 教程

文章目录

Spark 实现 WordCount 单词统计

1 方式一
2 方式二
3 方式三

Spark 实现 WordCount 单词统计

1 方式一

如下图所示，先拆分出一个个单词，再按类分组，再统计出每类中单词个数。

编写测试数据

Hello World
Hello World

Hello Spark
Hello Spark

代码部分：

虽然当前这个程序运行没什么问题，但是一大堆爆红看着难受，这里可以自定义一下 log 日志配置

log4j.rootCategory=ERROR, console
log4j.appender.console=org.apache.log4j.ConsoleAppender
log4j.appender.console.target=System.err
log4j.appender.console.layout=org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd 
HH:mm:ss} %p %c{1}: %m%n
# Set the default spark-shell log level to ERROR. When running the spark-shell,
the
# log level for this class is used to overwrite the root logger's log level, so
that
# the user can have different defaults for the shell and regular Spark apps.
log4j.logger.org.apache.spark.repl.Main=ERROR
# Settings to quiet third party logs that are too verbose
log4j.logger.org.spark_project.jetty=ERROR
log4j.logger.org.spark_project.jetty.util.component.AbstractLifeCycle=ERROR
log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=ERROR
log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=ERROR
log4j.logger.org.apache.parquet=ERROR
log4j.logger.parquet=ERROR
# SPARK-9183: Settings to avoid annoying messages when looking up nonexistent
UDFs in SparkSQL with Hive support
log4j.logger.org.apache.hadoop.hive.metastore.RetryingHMSHandler=FATAL
log4j.logger.org.apache.hadoop.hive.ql.exec.FunctionRegistry=ERROR

然后再配置一下 Hadoop 的环境变量就可以了

再次运行，结果就很清晰了

2 方式二

如下图所示，先拆分出一个个单词，并携带数量1，再按类聚合相加数量值

测试数据还是和上面一样代码部分：

还需要再配一次当前应用程序的参数环境变量

3 方式三

如下图所示，先拆分出一个个单词，并携带数量1，之后用 reduceBykey 方法将“方法二”中的分组和聚合直接和为一个操作。

【大数据开发 Spark】第三篇：三种方式实现 WordCount 单词统计

文章目录

Spark 实现 WordCount 单词统计

1 方式一

2 方式二

3 方式三

继续阅读

nginx location中斜线的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

Ambari介绍和架构原理

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

NOSQL安全攻击

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method