天天看點

開源大資料生态下的 Flink 應用實踐

過去十年,面向整個數字時代的關鍵技術接踵而至,從被人們接受,到開始步入應用。大資料與計算作為時代的關鍵詞已被廣泛認知,算力的重要性日漸凸顯并發展成為企業新的增長點。Apache Flink(以下簡稱 Flink)以其快速、準确的算力備受關注,如何将 Flink 更好的與大資料生态技術相結合,充分挖掘資料的潛力,真正發揮資料的價值,是大多數企業面臨的難題。

11 月 28-30 日,Flink Forward Asia 邀請來自阿裡巴巴、戴爾科技集團、英特爾、Cloudera、趣頭條、百度、Stream Native 等不同方向的技術專家圍繞 Apache Flink 核心大資料生态探讨當下大資料的發展趨勢與未來動向,并展現相關技術在一線生産場景的優秀實踐。

點選可了解

大會詳情 ,購買參會門票

部分精彩議題概覽

Apache Flink and the Apache Way

Fabian Hueske

Apache Flink PMC,Ververica Co-founder,

Software Engineer

Apache Flink is a project of the Apache Software Foundation (ASF). The ASF is the world's largest open source foundation and the home of more than 350 individual projects and initiatives.

Every ASF project is independently governed and managed by its own community but follows the principles of the ASF, the so-called Apache Way. Knowing the Apache Way is important to fully understand how the community of an ASF project works.

In this talk, I'll briefly explain the Apache Way and how ASF projects organize themselves. I'll take a look back at how the Apache Flink community started and its journey to where it is today.

Finally, I'll give you some guidance and advice that will help you to start contributing to Apache Flink and maybe become a committer at some point in the future.

Optimize Apache Flink on Kubernetes with YuniKorn Scheduler

楊巍威,Cloudera資深軟體工程師

楊弢,阿裡巴巴技術專家

将 Flink 運作在 K8s 很簡單,但是當我們嘗試在 K8s 叢集上運作大規模 Flink 的任務,并對多租戶環境和 SLA 有嚴苛要求時,各種問題開始顯現出來。尤其是在排程層面,我們發現 Flink 的作業排程變慢,并且資源的配置設定變得混亂且毫無公平性,這樣往往會導緻作業餓死,或者資源浪費。于是我們開始尋求利用 YuniKorn 來解決在 K8s 上的排程問題。

YuniKorn 是一個開源的,輕量級,通用的資源排程器,可以很容易的适配到 K8s。相比原生的 K8s 排程器,YuniKorn 提供了更加豐富的排程特性,比如層級隊列、資源公平性保證、強占以及更好的性能,更加适合大規模多租戶、長運作以及批處理作業并存的場景下使用。YuniKorn 的排程會考量應用,使用者以及隊列等各個次元的資源使用情況,提供基于公平性原則的彈性容量配置。在這個議題中,我們将主要從如何通過 YuniKorn 來優化 Flink 在 K8s 上的運作,包括性能、多租戶、資源公平性等方面的與大家進行探讨。

趣頭條基于 Flink+ClickHouse 建構實時資料分析平台

王金海,趣頭條資料平台負責人

趣頭條一直緻力于使用大資料分析指導業務發展。目前在實時化領域主要使用 Flink+ClickHouse 解決方案,覆寫場景包括實時資料報表、Adhoc 即時查詢、事件分析、漏鬥分析、留存分析等精細化營運政策,整體響應 80% 在 1 秒内完成,大大提升了使用者實時取數體驗,推動業務更快疊代發展。本次分享主要内容:

  1. 業務場景與現狀分析
  2. Flink to Hive 的小時級場景
  3. Flink to ClickHouse 的秒級場景
  4. 未來規劃

基于 Apache Flink 的邊緣流式計算

袁尤軍,百度雲資深研發工程師

黃家天,百度雲物聯網部實時計算進階研發工程師

随着 5G 和 IoT 技術的發展,計算将從現在的雲端蔓延到更多其他的地方,其中一個典型的場景就是邊緣計算。與雲端強大的計算叢集相比,這些場景裝置的計算能力非常受限。Apache Flink 作為新一代流式計算引擎,已經廣泛應用在諸多頂級網際網路公司的雲上。但如何在資源極度受限的邊緣裝置上運作流式計算引擎,尚無成功案例可循。

我們相信 Apache Flink 不應該僅僅運作在雲端,而應該運作在任何需要裝置上。本次演講,我們将分享百度智能雲在邊緣裝置上運作流式作業的一些探索,介紹如何将作業的記憶體消耗降低到 10M 以内,以及如何實作作業對運作環境的零依賴。會上将重點介紹百度基于 Flink 自研的邊緣流式計算架構 Creek,重點内容包括:

  1. 介紹流式計算在邊緣裝置的意義和挑戰
  2. 介紹 Creek 的技術方案
  3. 展示 Creek 的性能名額
  4. 現場示範 Creek 作業的建構和運作

Apache Flink 與 Apache Hive 的內建

李銳,Apache Hive PMC,Apache Flink Contributor,阿裡巴巴技術專家

王剛,阿裡巴巴進階開發工程師

在大資料領域,Hive 已經成為資料倉庫事實上的标準。為了豐富 Flink 的生态,從 1.9.0 版本開始,我們提供了 Flink 與 Hive 內建的能力,讓使用者可以通過 Flink 來讀寫 Hive 中的表。在 1.9.0 釋出之後,我們進一步完善了 Flink-Hive 內建的功能,包括支援更全面的資料類型、更好地支援 DDL 以及 Function 等。

在新版本中,我們可以支援更多的應用場景,并提供更好的易用性。本次演講将介紹 Flink-Hive 內建的設計架構、項目進展以及後續版本中的新功能。最後,我們還将示範如何使用 Flink 與 Hive 進行互動。

開源大資料生态專場完整議程

除上述議題外,開源大資料生态專場還有來自戴爾科技集團、英特爾、Stream Native 等重量級嘉賓以及 Apache Member、Apache Flink PMC、Apache Calcite Committer 等帶來的更加精彩的分享。完整議程如下:

開源大資料生态下的 Flink 應用實踐

(11 月 28 日下午,專場議程)

開源大資料生态下的 Flink 應用實踐

(11 月 29 日上午,專場議程)

深度教育訓練,實作技術與應用能力的積累提升

11 月 11-14 日,Flink Forward Asia 教育訓練課程門票買一贈一,限時 3 天!點選閱讀原文預約教育訓練課程,然後加微信(ID:candy1764)提供共同參加教育訓練的小夥伴名單,活動時間截止 11 月 14 日中午 12:00,數量有限,贈完即止,對教育訓練心動的同學趕緊下手啦!

Apache Flink PMC 帶隊,超豪華陣容,阿裡巴巴及 Flink 創始團隊資深技術專家擔任教育訓練講師,為開發者教育訓練課程制定全面學習體系。

課程能夠滿足不同學習需求,無論是入門還是進階,開發者可根據自身基礎選擇課程内容,實作技術與應用能力上的積累與提升。

課程主要大綱如下:

  • 中階一:Apache Flink 開發人員教育訓練

Tips:本課程為純英文授課,同時配有2位中文技術專家支援解答問題。

本課程是對想要學習建構流應用程式的 Java 和 Scala 開發人員進行的關于 Apache Flink 的實踐介紹。教育訓練将重點介紹分布式資料流、事件時間和狀态等核心概念。練習将使您有機會了解以上概念在 API 中是如何被展現的,并了解如何将這些概念組合用以解決實際問題。

  • 介紹流計算和 Apache Flink
  • DataStream API 的基礎
  • 為 Flink 開發做準備(包括練習)
  • 有狀态的流處理(包括練習)
  • 時間、定時器和 ProcessFunction(包括練習)
  • 連接配接多個流(包括練習)
  • 測試(包括練習)

說明:不需要 Apache Flink 的相關知識。

  • 中階二:Apache Flink 運維教育訓練

本課程是針對 Apache Flink 應用程式的部署和操作相關的實踐性介紹。目标閱聽人包括負責部署 Flink 應用程式和維護 Flink 叢集的開發人員和運維人員。示範将重點介紹 Flink 運作中涉及的核心概念,以及用于部署、更新和監控 Flink 應用程式的主要工具。

  • 資料中心裡的 Flink
  • 分布式架構介紹
  • 容器化部署(包括實際操作)
  • 狀态後端和容錯(包括實際操作)
  • 更新和狀态遷移(包括實際操作)
  • 名額(包括實踐)
  • 容量規劃

說明:不需要對 Apache Flink 有先驗知識。

  • 中階三:SQL 開發人員教育訓練

Apache Flink 支援 SQL 作為流處理和批處理的統一 API。SQL 可以用于各種各樣的場景,并且相比使用 Flink 的底層 API,SQL 将更容易建構和維護。在本次教育訓練中,您将學習到如何充分發揮使用 SQL 來編寫 Apache Flink 作業的潛力。我們将研究流式 SQL 的不同案例,包括連接配接流資料、維表關聯、視窗聚合、維護物化視圖,以及使用 MATCH RECOGNIZE 子句進行模式比對(這是 SQL 2016 新提出的标準)。

  • 介紹 SQL on Flink
  • 使用 SQL 查詢動态表
  • 連接配接動态表
  • 模式比對與 match_recognition
  • 生态系統&寫外部表

說明:不需要 Apache Flink 的先驗知識,但是需要基本的 SQL 知識。

  • 高階:Apache Flink 調優和問題排查

在過去的幾年中,我們與許多 Flink 使用者合作溝通期間了解到許多将流計算作業從早期 PoC 階段慢慢過渡到生産過程中最常見的挑戰。在此次教育訓練中,我們将集中精力介紹這些挑戰,并且幫助大家一起消除它。我們将提供一個有用的故障診斷工具集,并介紹例如監控、水印、序列化、狀态後端等領域的最佳實踐和技巧。在實踐課程的間隙中,參與者将有機會使用新學習到的知識來解決一些異常 Flink 作業表現出來的問題。同時,我們也将歸納那些使作業沒有進展或吞吐量沒有達到預期,或作業延遲的常見原因。

  • 時間和水印
  • 狀态處理和狀态後端
  • Flink 的容錯機制
  • 檢查點和儲存點
  • DataStream API 和 ProcessFunction。

教育訓練系列課程為精品小班教學,數量有限,預約滿額将關閉入口,有相關教育訓練需求的同學可盡早預約。詳細說明:

  • 參加教育訓練請選擇購買 VIP 套票。中階教育訓練購買 VIP 套票 1,高階教育訓練購買 VIP 套票 2。
  • VIP 套票 1 可參與中階所有課程,VIP 套票 2 可參與包括高階、中階教育訓練在内的所有課程。

如果你也好奇 Flink 未來的主要探索方向,如何利用 Flink 将大資料、算力推到極緻,Flink 有哪些新場景、新規劃以及最佳實踐等話題,來現場吧!相信這群來自一線的技術專家們,一定會重新整理你對 Apache Flink 的認知。

點選「

」可了解更多教育訓練課程與 Flink Forward Asia 2019 大會議程~

▼ 關注 Ververica,Flink 愛你 ▼

開源大資料生态下的 Flink 應用實踐