Apache Flink結合Kafka建構端到端的Exactly-Once處理

本文翻譯自：https://data-artisans.com/blog/end-to-end-exactly-once-processing-apache-flink-apache-kafka

Apache Flink自2017年12月釋出的1.4.0版本開始，為流計算引入了一個重要的裡程碑特性：TwoPhaseCommitSinkFunction（相關的Jira）。它提取了兩階段送出協定的通用邏輯，使得通過Flink來建構端到端的Exactly-Once程式成為可能。同時支援一些資料源（source）和輸出端（sink），包括Apache Kafka 0.11及更高版本。它提供了一個抽象層，使用者隻需要實作少數方法就能實作端到端的Exactly-Once語義。

有關TwoPhaseCommitSinkFunction的使用詳見文檔: TwoPhaseCommitSinkFunction。或者可以直接閱讀Kafka 0.11 sink的文檔: kafka。

接下來會詳細分析這個新功能以及Flink的實作邏輯，分為如下幾點。

描述Flink checkpoint機制是如何保證Flink程式結果的Exactly-Once的
顯示Flink如何通過兩階段送出協定與資料源和資料輸出端互動，以提供端到端的Exactly-Once保證
通過一個簡單的示例，了解如何使用TwoPhaseCommitSinkFunction實作Exactly-Once的檔案輸出

Apache Flink應用程式中的Exactly-Once語義

當我們說『Exactly-Once』時，指的是每個輸入的事件隻影響最終結果一次。即使機器或軟體出現故障，既沒有重複資料，也不會丢資料。

Flink很久之前就提供了Exactly-Once語義。在過去幾年中，我們對Flink的checkpoint機制有過深入的描述，這是Flink有能力提供Exactly-Once語義的核心。Flink文檔還提供了該功能的全面概述。

在繼續之前，先看下對checkpoint機制的簡要介紹，這對了解後面的主題至關重要。

一次checkpoint是以下内容的一緻性快照：

應用程式的目前狀态
輸入流的位置

Flink可以配置一個固定的時間點，定期産生checkpoint，将checkpoint的資料寫入持久存儲系統，例如S3或HDFS。将checkpoint資料寫入持久存儲是異步發生的，這意味着Flink應用程式在checkpoint過程中可以繼續處理資料。

如果發生機器或軟體故障，重新啟動後，Flink應用程式将從最新的checkpoint點恢複處理； Flink會恢複應用程式狀态，将輸入流復原到上次checkpoint儲存的位置，然後重新開始運作。這意味着Flink可以像從未發生過故障一樣計算結果。

在Flink 1.4.0之前，Exactly-Once語義僅限于Flink應用程式内部，并沒有擴充到Flink資料處理完後發送的大多數外部系統。Flink應用程式與各種資料輸出端進行互動，開發人員需要有能力自己維護元件的上下文來保證Exactly-Once語義。

為了提供端到端的Exactly-Once語義 - 也就是說，除了Flink應用程式内部，Flink寫入的外部系統也需要能滿足Exactly-Once語義 - 這些外部系統必須提供送出或復原的方法，然後通過Flink的checkpoint機制來協調。

分布式系統中，協調送出和復原的常用方法是兩階段送出協定。在下一節中，我們将讨論Flink的TwoPhaseCommitSinkFunction是如何利用兩階段送出協定來提供端到端的Exactly-Once語義。

Flink應用程式端到端的Exactly-Once語義

我們将介紹兩階段送出協定，以及它如何在一個讀寫Kafka的Flink程式中實作端到端的Exactly-Once語義。Kafka是一個流行的消息中間件，經常與Flink一起使用。Kafka在最近的0.11版本中添加了對事務的支援。這意味着現在通過Flink讀寫Kafaka，并提供端到端的Exactly-Once語義有了必要的支援。

Flink對端到端的Exactly-Once語義的支援不僅局限于Kafka，您可以将它與任何一個提供了必要的協調機制的源/輸出端一起使用。例如Pravega，來自DELL/EMC的開源流媒體存儲系統，通過Flink的TwoPhaseCommitSinkFunction也能支援端到端的Exactly-Once語義。