Flink 项目Scala模板入门

当前的很多构建工具，可以提供项目模板来让开发人员快速初始化项目文件，这对于降低学习难度，提高项目开发效率来说，起到积极的作用。Flink项目的初始化，可以借助Maven工具来构建。在之前JDK和Maven环境搭建完成，并正确设置环境变量后，即可以用mvn archetype:generate快速生成项目文件。当前支持Scala和Java两种项目模板。下面分别进行介绍。

首先打开命令行CMD窗体，并切换到项目的根目录中，执行如下命令：

mvn archetype:generate                            ^
      -DarchetypeGroupId=org.apache.flink            ^
      -DarchetypeArtifactId=flink-quickstart-scala      ^
      -DarchetypeVersion=1.12.0                     ^
      -DgroupId=com.myflink                         ^
      -DartifactId=flink-scala                        ^
      -Dpackage=com.example                       ^
      -DinteractiveMode=false

上述脚本每行的^符号为Windows操作系统命令行的换行符，而Linux操作系统下为\符号。当前这里换行是为了更加的清晰，即也可以写成一行。其中：

l -DarchetypeArtifactId=flink-quickstart-scala

表示基于的项目模板为flink-quickstart-scala，则表示为Scala版本的Flink项目。

l -DarchetypeVersion=1.12.0

表示Flink版本为1.12.0。

l -DgroupId=com.myflink

代表组织和整个项目的唯一标志。

l -DartifactId=flink-scala

具体项目的名称，也是生成项目文件夹的名称。

l -Dpackage=com.example

项目源码的包名。

l -DinteractiveMode=false

表示不启用交互模式，这样提示信息更少。

在命令行执行tree flink-scala /F则可以显示flink-scala目录的项目结构，如下所示。

C:\src\flink-scala
│ ─pom.xml
│
└─src
    └─main
        ├─resources
        │      └─log4j2.properties
        │
        └─scala
            └─com
                └─example
                      └─ BatchJob.scala
                      └─ StreamingJob.scala

其中BatchJob.scala是批处理示例文件，而StreamingJob.scala是流处理示例文件。此处修改BatchJob.scala文件，给出一个用scala语言编写统计单词个数的示例代码，如代码所示：

package com.example
import org.apache.flink.api.java.utils.ParameterTool
import org.apache.flink.api.scala._
import org.apache.flink.core.fs.FileSystem.WriteMode
//object可以直接运行
object BatchJob {
  //启动函数
  def main(args: Array[String]) {
    //参数处理，如 --参数名 参数值
    val params: ParameterTool = ParameterTool.fromArgs(args)
    //获取批处理执行环境
    val env = ExecutionEnvironment.getExecutionEnvironment
    //演示数据
    val mytxt = env.fromElements(
      "Hello Word",
      "Hello Flink",
      "Apache Flink")
    //单词统计
    val wc = mytxt.flatMap(line => line.split("\\s"))
      .map { (_, 1) }
      .groupBy(0)
      .sum(1)
    //可以写入一个文件，便于查看
    wc.setParallelism(1)
    //--output xxx
    if (params.has("output")) {
      //WriteMode.OVERWRITE覆盖模式
      wc.writeAsCsv(params.get("output"), "\n", ",",WriteMode.OVERWRITE)
      env.execute("Scala WordCount Demo")
    } else {
      //便于IDEA调试，实际部署一般不用
      wc.print()
    }
  }
}

我们先不需太过关注具体API的意义，这个后面会慢慢分章节进行详细说明。默认情况下，resources目录下的log4j2.properties配置文件给出的日志级别为INFO，则打印的信息比较多，这里可以将日志级别修改为ERROR，具体如下所示：

rootLogger.level = ERROR
rootLogger.appenderRef.console.ref = ConsoleAppender
appender.console.name = ConsoleAppender
appender.console.type = CONSOLE
appender.console.layout.type = PatternLayout
appender.console.layout.pattern = %d{HH:mm:ss,SSS} %-5p %-60c %x - %m%n

Flink 项目Scala模板入门

继续阅读

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

mybatis_入门程序Mybatis入门

maven No compiler is provided in this environment. Perhaps you are running on a JRE rather than a J

samba服务器的功能

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

Effective Java 8:通用程序设计

【Linux】UDP广播报文接收速率问题

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

Linux设备模型（中）之上层容器

scala (3) Function 和 Method

PowerPC平台 Linux移植三

Opendaylight课堂之深度剖析toaster（一）