【Structured Streaming】-- 输出模式

2022-11-03 13:53:57

1、环境

spark 2.4.0
scala 2.11.8
jdk 1.8
maven

<dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql-kafka-0-10_2.11</artifactId>
            <version>2.4.0</version>
</dependency>

2、源码说明

package org.apache.spark.sql.streaming;

import org.apache.spark.annotation.InterfaceStability;
import org.apache.spark.sql.catalyst.streaming.InternalOutputModes;

/**
 * OutputMode describes what data will be written to a streaming sink when there is
 * new data available in a streaming DataFrame/Dataset.
 *
 * @since 2.0.0
 */
@InterfaceStability.Evolving
public class OutputMode {

  /**
   * OutputMode in which only the new rows in the streaming DataFrame/Dataset will be
   * written to the sink. This output mode can be only be used in queries that do not
   * contain any aggregation.
   *
   * @since 2.0.0
   */
  public static OutputMode Append() {
    return InternalOutputModes.Append$.MODULE$;
  }

  /**
   * OutputMode in which all the rows in the streaming DataFrame/Dataset will be written
   * to the sink every time there are some updates. This output mode can only be used in queries
   * that contain aggregations.
   *
   * @since 2.0.0
   */
  public static OutputMode Complete() {
    return InternalOutputModes.Complete$.MODULE$;
  }

  /**
   * OutputMode in which only the rows that were updated in the streaming DataFrame/Dataset will
   * be written to the sink every time there are some updates. If the query doesn't contain
   * aggregations, it will be equivalent to `Append` mode.
   *
   * @since 2.1.1
   */
  public static OutputMode Update() {
    return InternalOutputModes.Update$.MODULE$;
  }
}

3、区别

Append ：默认模式这种模式保证每一行只输出一次（假设是容错接收器）。只输出结果表中本批次新增的数据，即本批次中的数据。支持使用：select、where、map、flatMap、filter、join等的查询。
Completed：每次触发后，输出最新的完整的结果表数据。支持使用：聚合查询。
Updated：（自Spark 2.1.1起可用）只输出结果表中被本批次修改的数据。

【Structured Streaming】-- 输出模式

1、环境

2、源码说明

3、区别

4、参考

继续阅读

Apache 配置默认编码

服务器配置——Apache

Apache静态文件访问配置（书封服务器）

apache httpd 配置

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

Ubuntu16.04安装Apache+MySQL+PHP1. 安装Apache2. 安装MySQL3. 安装PHP4. 安装phpMyAdmin

浅谈企业活动中进行数据分析的重要性

Apache配置SSLApache配置SSL

Windows下配置Apache的SSL服务

Apache2.4.x 配置文件详解Apache配置需要了解如下：开始讲解：

配置apache支持PHP（win7）

Ambari介绍和架构原理

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

详解STM32单片机的堆栈

NOSQL安全攻击

win10本地scala和spark安装安装scala安装spark