天天看點

最新消息!Cloudera 全球發行版正式內建 Apache Flink

翻譯 | 邱從賢(山智)

摘要:近期 Cloudera Hadoop 大神 Arun 在 Twitter 上宣布 Cloudera Data Platform 正式內建了 Flink 作為其流計算産品,Apache Flink PMC Chair Stephan 也回應:“此舉意義重大。”這意味着所有 CDH 發行版覆寫的全球企業使用者都将能夠使用 Flink 進行流資料處理。

本文對 Cloudera 官方宣布支援 Apache Flink 的部落格進行了翻譯,希望有助于大家更深入地了解 Flink 及 Cloudera DataFlow(CDF)。

最新消息!Cloudera 全球發行版正式內建 Apache Flink

(Arun 與 Stephan 的 Twitter 互動)

▼ 以下為 Cloudera 官方部落格的原文翻譯 ▼

我們再也無法抑制興奮!在過去的幾個月中,Cloudera 的動态資料工程團隊一直在努力提供 Cloudera DataFlow(CDF)中引人注目的産品。Cloudera Streaming Analytics(CSA)的 GA 版提供了對 Apache Flink 的支援,進而增強了整個動态資料平台的流處理和分析能力。

由 Apache Flink 支援的 Cloudera Streaming Analytics 是 Cloudera DataFlow(CDF)平台内的一項新産品,可提供 IoT 級資料流和複雜事件的實時狀态處理。Cloudera DataFlow(如下圖所示)是一個全面的邊緣計算到雲實時流資料平台。作為 CDF 的關鍵支柱之一,流處理和分析對于處理來自各種資料源的數百萬個資料點和複雜事件非常重要。多年來,我們已經支援了多個流引擎,但是 Flink 的加入使 CDF 成為了一個極具吸引力的平台,可以大規模處理大量流資料。

最新消息!Cloudera 全球發行版正式內建 Apache Flink

Cloudera Streaming Analytics 涵蓋了 Apache Flink 的核心流功能:

  • 在 YARN 上支援 Flink 1.9.1
  • 支援在 Cloudera 托管叢集上安裝 Flink
  • 支援完全安全(啟用 TLS 和 Kerberos)的 Flink 叢集
  • 從 Kafka 或 HDFS 讀取資料源
  • 使用 Java DataStream 和 ProcessFunction API 的 pipeline 定義
  • 恰好一次的語義
  • 基于事件時間的語義
  • 資料接收器寫入 Kafka,HDFS 和 HBase
  • 與 Cloudera Schema Registry 內建以進行模式管理以及流事件的序列化/反序列化

這些功能可實作複雜的端到端流傳輸 pipeline。我們計劃在即将釋出的 CSA 中提供更多激動人心的功能。

平台內建,可任意擴充 Flink

CSA 将在最近釋出的 Cloudera 資料平台(CDP)中心提供服務。利用 CDP 的靈活性和管理選項,可以輕松地對 Flink 進行任意擴充。有了平台內建,Cloudera Manager 可以用于安裝,監視和管理 Flink 叢集。集中式日志搜尋還可以聚合 Flink 應用程式日志,以便于管理和調試。

最重要的是,可以使用名額報告器将 Flink 應用程式名額發送到 Apache Kafka 中。CDF 平台上的名額可以通過 Streams Messaging Manager 将 Flink 的名額收集到 Kafka 中,并以可視化的形式對它們進行分析。

為什麼選擇 Flink?

Apache Flink 是一個分布式,可擴充的資料分析處理引擎,可以非常輕松地處理數百萬級的資料或複雜事件,并提供實時預測功能;為資料流上的大規模計算提供通信,容錯和資料分發;可以處理生成的實時資料以及存儲在檔案系統中的資料。

在過去的幾年中,Apache Flink 在全球範圍内被廣泛應用:

  • 電信網絡監控:使用複雜的視窗邏輯,基于網絡中的流資料,通過預先計算有關停機的響應和修複所需的 ETA 來處理客戶投訴
  • 内容推薦引擎:在使用者加載網頁時向其提供推薦和搜尋結果的視訊流服務,需要複雜的邏輯,同時每天要主動處理數十億個事件
  • 搜尋優化:搜尋引擎實時優化搜尋排名
  • 點選流分析:高流量電子商務網站基于實時點選流資料收集并提供最佳的客戶體驗
  • 應用程式監視:大型企業評估了數千個可定制的警報規則,這些警報規則涉及名額和日志流并檢測異常
  • 欺詐檢測:金融組織從各種來源的數百萬實時财務資料流中檢測欺詐模式
  • 遊戲分析:要了解遊戲平台上數百萬每日使用者的狀态并向業務團隊提供分析,需要以極高的規模處理大量資料

盡管 Cloudera 提供了流處理引擎的幾種選擇:Storm,Spark Structured Streaming 和 Kafka Stream,但将 Flink 添加到 CDF 的意義十分重大。Storm 在市場和開源社群中逐漸失寵,使用者正在尋找更好的選擇。而 Apache Flink 則是這批使用者的最佳選擇。Kafka Streams 和 Spark Structured Streaming 則圍繞他們自己的使用者場景提供了相關的流處理和分析能力。但是,Apache Flink 天然支援流計算(而不是批處理),并且可以大規模處理大量資料流,提供友善的狀态支援,恰好一次的語義,原生支援的容錯/恢複能力,以及先進的 Window 語義。這使其成為更廣泛的流處理引擎的預設選擇。

在 2019 年 10 月于柏林舉行的 Flink Forward 活動上,Cloudera 的工程主管 Marton Balassi 和 Field CTO Andrew Psaltis 在大會上宣布,Cloudera 承諾将通過 CSA 産品不斷給 Apache Flink 社群做出貢獻。

相信 Cloudera 對 Apache Flink 的內建将會為社群帶來更多創新、為企業及開發者提供更便捷的操作與更友好的使用體驗。點選「閱讀原文」可檢視原版部落格~

原文部落格:

https://blog.cloudera.com/announcing-support-for-apache-flink-with-the-ga-of-cloudera-streaming-analytics/