Apache Flink 实现的数据流体系结构

2021-11-08 14:23:45

data artisans应用程序工程总监jamie grier最近在oscon 2016 conference大会发言谈到了使用apache flink构建的一种数据流体系结构。同时还谈到了数据流应用程序的构建块。

数据流体系结构可用于处理随着时间流逝以事件流方式持续生成的数据，这一点不同于传统的静态数据集。相对于传统的集中式“状态化”数据库和数据仓库，数据流应用程序可以处理事件流以及针对历史事件汇总而来的应用程序本地状态。流式数据处理的一些优势包括：

降低从信号到决策的过程延迟

通过统一的方式处理实时和历史数据

time travel查询

apache flink是一种开源的分布式流化和批量化数据处理平台。flink的诞生受到了google data flow模型的启发，可支持java和scala语言开发的stream processing api。相比其他流式数据处理框架，flink中不存在微批量（micro batching）数据，而是使用了一种“一次一条消息”的流处理技术。

jamie介绍了状态流处理并展示了flink应用程序的代码范例，以及使用开源时序数据库和graphana可视化工具influxdb进行监控的方法。

同时他还介绍了流处理过程中窗口（windowing）的概念以及处理时间（processing time）和事件时间（event time）的窗口概念。处理时间的窗口会对流数据的分析产生影响，并会导致数据处理过程中出现某些错误。在事件时间方法中，窗口来自于数据，而非时钟时间。对于事件时间，可通过数据嵌入的时间戳对数据进行处理，这样即可获得更精确的结果。

jamie还介绍了在应用程序中使用flink时的错误处理和容错机制。flink中的savepoints功能可在不丢失任何状态的情况下对程序和flink集群进行更新。如果要对实时数据进行流处理，此时savepoints数据快照会显得非常重要。

如果你想详细了解apache flink，可访问他们的网站。此外flink forward 2016 conference活动将于九月在柏林召开，提交提案的截止日期为2016年6月30日。

Apache Flink 实现的数据流体系结构

继续阅读

Java String.format方法的简单使用

neo4j之cypher使用文档

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

【python】【数据处理】画多维数据分布图

NOSQL安全攻击

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

登录plsql 报错 the account is locked --用户被锁

Effective Java 8:通用程序设计

SequoiaDB巨杉数据库C++驱动概述

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method