Flink SQL 系列 | 5 個 TableEnvironment 我該用哪個？

作者：徐榜江（雪盡）

本文為 Flink SQL 系列文章的第二篇，前面對 Flink 1.9 Table 新架構及 Planner 的使用進行了詳細說明，本文詳細講解 5 個 TableEnvironment 及其适用場景，并介紹 Flink 社群對 TableEnvironment 的未來規劃。主要内容如下：

TableEnvironment 簡介
5 個 TableEnvironment 梳理
如何使用 TableEnvironment
社群未來規劃

1. TableEnvironment 簡介

TableEnvironment 是用來建立 Table & SQL 程式的上下文執行環境，也是 Table & SQL 程式的入口，Table & SQL 程式的所有功能都是圍繞 TableEnvironment 這個核心類展開的。TableEnvironment 的主要職能包括：對接外部系統，表及中繼資料的注冊和檢索，執行SQL語句，提供更詳細的配置選項。

在 Flink 1.8 中，一共有 7 個 TableEnvironment ，在最新的 Flink 1.9 中，社群進行了重構和優化，隻保留了 5 個TableEnvironment 。本文詳細講解 5 個 TableEnvironment 及其适用場景，并介紹 Flink 社群對 TableEnvironment 的未來規劃。

2. 5 個 TableEnvironment 梳理

Flink 1.9 中保留了 5 個 TableEnvironment，在實作上是 5 個面向使用者的接口，在接口底層進行了不同的實作。5 個接口包括一個 TableEnvironment 接口，兩個 BatchTableEnvironment 接口，兩個 StreamTableEnvironment 接口，5 個接口檔案完整路徑如下：

org/apache/flink/table/api/TableEnvironment.java
org/apache/flink/table/api/java/BatchTableEnvironment.java
org/apache/flink/table/api/scala/BatchTableEnvironment.scala
org/apache/flink/table/api/java/StreamTableEnvironment.java
org/apache/flink/table/api/scala/StreamTableEnvironment.scala

結合檔案的路徑，梳理這 5 個接口，我們會發現 TableEnvironment 是頂級接口，是所有 TableEnvironment 的基類，BatchTableEnvironment 和 StreamTableEnvironment 都提供了 Java 實作和 Scala 實作，分别有兩個接口。

5 個 TableEnvironment

其中，TableEnvironment 作為統一的接口，其統一性展現在兩個方面，一是對于所有基于JVM的語言(即 Scala API 和 Java API 之間沒有差別)是統一的；二是對于 unbounded data （無界資料，即流資料）和 bounded data （有界資料，即批資料）的處理是統一的。TableEnvironment 提供的是一個純 Table 生态的上下文環境，适用于整個作業都使用 Table API & SQL 編寫程式的場景。TableEnvironment 目前還不支援注冊 UDTF 和 UDAF，使用者有注冊 UDTF 和 UDAF 的需求時，可以選擇使用其他 TableEnvironment。

兩個 StreamTableEnvironment 分别用于 Java 的流計算和 Scala 的流計算場景，流計算的對象分别是 Java 的 DataStream 和 Scala 的 DataStream。相比 TableEnvironment，StreamTableEnvironment 提供了 DataStream 和 Table 之間互相轉換的接口，如果使用者的程式除了使用 Table API & SQL 編寫外，還需要使用到 DataStream API，則需要使用 StreamTableEnvironment。

兩個 BatchTableEnvironment 分别用于 Java 的批處理場景和 Scala 的批處理場景，批處理的對象分别是 Java 的 DataSet 和 Scala 的 DataSet。相比 TableEnvironment，BatchTableEnvironment 提供了 DataSet 和 Table 之間互相轉換的接口，如果使用者的程式除了使用 Table API & SQL 編寫外，還需要使用到 DataSet API，則需要使用 BatchTableEnvironment。

從這五個 TableEnvironment 支援的作業類型 ( Stream 作業和 Batch 作業)，支援的 API 類型（DataStream API 和 DataSet API)，以及對 UDTF/UDAF 的支援這 5 個方面進行對比，各個TableEnvironment 支援的功能可以歸納如下：

TableEnvironment 支援功能對比

可能大家會疑惑為什麼在 API 需要區分 Java 和 Scala 的兩個 StreamTableEnvironment（或BatchTableEnvironment ），使用的 DataStream也分為 Java DataStream 和 Scala DataStream。

原因主要是 TableEnvironment 的 registerTableFunction方法（用于注冊UDTF）和 registerAggregateFunction 方法（使用者注冊UDAF）需要抽取泛型，而現有的 Java 泛型抽取和 Scala 的泛型抽取機制是不一樣的，Java 的抽取是通過反射機制實作，而 Scala 是通過 Scala macro 實作。此外，由于抽取泛型機制的不一緻，作為統一入口的 TableEnvironment 現階段也不支援注冊 UDTF 和 UDAF。針對這個問題，社群已經在計劃引入一套新的類型抽取機制來統一 Java 和 Scala 的類型抽取，實作 Java API 和 Scala API 的統一。

5 個 TableEnvironment 具體實作

結合 Flink planner 和 Blink planner，進一步梳理 TableEnvironment 的組織關系，我們可以注意到一些有趣的細節：

實作流批統一的 Blink planner 中由于沒有了 DataSet 的概念，已經不再使用 BatchTableEnvironment，隻會使用 TableEnvironment 和 StreamTableEnvironment，而 Flink planner（即 Old planner）則支援 5 個 TableEnvironment。
BatchTableEnvironment 的實作都放到了 Old planner (flink-table-palnner子產品) 中，這個子產品在社群的未來規劃中是會被逐漸删除的。

3. 如何使用 TableEnvironment

根據使用者使用的 planner 和作業的類型，可以把各個 TableEnvironment 的應用場景分為 4 類,下面結合代碼來說明在不同的場景下如何使用 TableEnvironment 。

場景一：

使用者使用 Old planner，進行流計算的 Table 程式（使用 Table API 或 SQL 進行開發的程式）的開發。這種場景下，使用者可以使用 StreamTableEnvironment 或 TableEnvironment ，兩者的差別是 StreamTableEnvironment 額外提供了與 DataStream API 互動的接口。示例代碼如下：

// **********************
// FLINK STREAMING QUERY USING JAVA
// **********************
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.EnvironmentSettings;
import org.apache.flink.table.api.java.StreamTableEnvironment;
EnvironmentSettings fsSettings = EnvironmentSettings.newInstance().useOldPlanner().inStreamingMode().build();
StreamExecutionEnvironment fsEnv = StreamExecutionEnvironment.getExecutionEnvironment();
StreamTableEnvironment fsTableEnv = StreamTableEnvironment.create(fsEnv, fsSettings);
// or TableEnvironment fsTableEnv = TableEnvironment.create(fsSettings);
// **********************
// FLINK STREAMING QUERY USING SCALA
// **********************
import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
import org.apache.flink.table.api.EnvironmentSettings
import org.apache.flink.table.api.scala.StreamTableEnvironment
val fsSettings = EnvironmentSettings.newInstance().useOldPlanner().inStreamingMode().build()
val fsEnv = StreamExecutionEnvironment.getExecutionEnvironment
val fsTableEnv = StreamTableEnvironment.create(fsEnv, fsSettings)
// or val fsTableEnv = TableEnvironment.create(fsSettings)

場景二：

使用者使用 Old planner，進行批處理的 Table 程式的開發。這種場景下，使用者隻能使用 BatchTableEnvironment ，因為在使用 Old planner 時，批處理程式操作的資料是 DataSet，隻有 BatchTableEnvironment 提供了面向DataSet 的接口實作。示例代碼如下：

// ******************
// FLINK BATCH QUERY USING JAVA
// ******************
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.table.api.java.BatchTableEnvironment;
ExecutionEnvironment fbEnv = ExecutionEnvironment.getExecutionEnvironment();
BatchTableEnvironment fbTableEnv = BatchTableEnvironment.create(fbEnv);
// ******************
// FLINK BATCH QUERY USING SCALA
// ******************
import org.apache.flink.api.scala.ExecutionEnvironment
import org.apache.flink.table.api.scala.BatchTableEnvironment
val fbEnv = ExecutionEnvironment.getExecutionEnvironment
val fbTableEnv = BatchTableEnvironment.create(fbEnv)

場景三：

使用者使用 Blink planner，進行流計算的 Table 程式的開發。這種場景下，使用者可以使用 StreamTableEnvironment 或 TableEnvironment ，兩者的差別是 StreamTableEnvironment 額外提供與 DataStream API 互動的接口。使用者在 EnvironmentSettings 中聲明使用 Blink planner ，将執行模式設定為 StreamingMode 即可。示例代碼如下：

// **********************
// BLINK STREAMING QUERY USING JAVA
// **********************
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.EnvironmentSettings;
import org.apache.flink.table.api.java.StreamTableEnvironment;
StreamExecutionEnvironment bsEnv = StreamExecutionEnvironment.getExecutionEnvironment();
EnvironmentSettings bsSettings = EnvironmentSettings.newInstance().useBlinkPlanner().inStreamingMode().build();
StreamTableEnvironment bsTableEnv = StreamTableEnvironment.create(bsEnv, bsSettings);
// or TableEnvironment bsTableEnv = TableEnvironment.create(bsSettings);
// **********************
// BLINK STREAMING QUERY USING SCALA
// **********************
import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
import org.apache.flink.table.api.EnvironmentSettings
import org.apache.flink.table.api.scala.StreamTableEnvironment
val bsEnv = StreamExecutionEnvironment.getExecutionEnvironment
val bsSettings = EnvironmentSettings.newInstance().useBlinkPlanner().inStreamingMode().build()
val bsTableEnv = StreamTableEnvironment.create(bsEnv, bsSettings)
// or val bsTableEnv = TableEnvironment.create(bsSettings)

場景四：

使用者使用 Blink planner，進行批處理的 Table 程式的開發。這種場景下，使用者隻能使用 TableEnvironment ，因為在使用 Blink planner 時，批處理程式操作的資料已經是 bounded DataStream，是以不能使用 BatchTableEnvironment 。使用者在 EnvironmentSettings 中聲明使用 Blink planner ，将執行模式設定為 BatchMode 即可。值得注意的是，TableEnvironment 接口的具體實作中已經支援了 StreamingMode 和 BatchMode 兩種模式，而 StreamTableEnvironment 接口的具體實作中目前暫不支援 BatchMode 的配置，是以這種場景不能使用 StreamTableEnvironment。示例代碼如下：

// ******************
// BLINK BATCH QUERY USING JAVA
// ******************
import org.apache.flink.table.api.EnvironmentSettings;
import org.apache.flink.table.api.TableEnvironment;
EnvironmentSettings bbSettings = EnvironmentSettings.newInstance().useBlinkPlanner().inBatchMode().build();
TableEnvironment bbTableEnv = TableEnvironment.create(bbSettings);
// ******************
// BLINK BATCH QUERY USING SCALA
// ******************
import org.apache.flink.table.api.{EnvironmentSettings, TableEnvironment}
val bbSettings = EnvironmentSettings.newInstance().useBlinkPlanner().inBatchMode().build()
val bbTableEnv = TableEnvironment.create(bbSettings)

4. 社群未來規劃

目前，社群正在推進 DataStream 的批處理能力，以實作流批技術棧的統一，屆時 DataSet API 會退出曆史的舞台，兩個 BatchTableEnvironment 也将退出曆史的舞台。同時社群也在努力推動 Java 和 Scala TableEnvironment 的統一。可以預見的是，Flink TableEnvironment 的未來架構會更加簡潔。TableEnvironment 會是 Flink 推薦使用的入口類，同時能支援 Java API 和 Scala API，還能同時支援流計算作業和批處理作業。隻有當需要與 DataStream 做轉換時，才需要用到 StreamTableEnvironment。

▼ Apache Flink 社群推薦 ▼

Apache Flink 及大資料領域頂級盛會 Flink Forward Asia 2019 重磅開啟，大會議程精彩上線，了解 Flink Forward Asia 2019 的更多資訊，請檢視：

https://developer.aliyun.com/special/ffa2019

首屆 Apache Flink 極客挑戰賽重磅開啟，聚焦機器學習與性能優化兩大熱門領域，40萬獎金等你拿，加入挑戰請點選：

https://tianchi.aliyun.com/markets/tianchi/flink2019

Flink SQL 系列 | 5 個 TableEnvironment 我該用哪個？

1. TableEnvironment 簡介

2. 5 個 TableEnvironment 梳理

3. 如何使用 TableEnvironment

場景一：

場景二：

場景三：

場景四：

4. 社群未來規劃

繼續閱讀

Java小案例——随機數猜測随機數猜測

nginx location中斜線的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的簡單使用

neo4j之cypher使用文檔

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

sqlServer根據經緯查距離

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method