天天看點

FFA 2021 專場解讀 - 開源解決方案 / 流批一體

FFA 2021 專場解讀 - 開源解決方案 / 流批一體

GitHub 位址

https://github.com/apache/flink

歡迎大家關注 Flink~

Flink Forward Asia 2021 重磅開啟,全球 40+ 多行業一線廠商,80+ 幹貨議題,帶來專屬于開發者的技術盛宴。

其中,開源解決方案專場,來自 Pravega、Pulsar、TiDB、Zeppelin、Atlas 等社群的技術專家圍繞 Flink 的生态融合,探讨當下大資料的發展趨勢與未來動向,并展現相關技術在一線生産場景的最佳實踐;流批一體專場,位元組跳動、美團、京東、小米的技術專家也将分享流批一體的生産實踐,另有來自阿裡巴巴的技術專家手把手教你如何建構流批一體數倉。

點選連結了解完整大會議程:

https://Flink-forward.org.cn/

開源解決方案

FFA 2021 專場解讀 - 開源解決方案 / 流批一體

HTAP 趨勢下,大資料的未來

黃東旭|PingCAP 聯合創始人兼 CTO,資深基礎軟體工程師,架構師

近年來行業數字化場景爆發式增長,資料呈現出海量、實時、線上等趨勢。随着企業對資料實時性和可靠性的要求越來越高,傳統通過資料庫、中間件、等暴露出上線難、維護成本極高等問題,嚴重阻礙企業數字化程序。HTAP (Hybrid Transactional/Analytical Processing,即混合事務 / 分析處理)資料庫能夠在一份資料源上同時支撐線上事務處理(OLTP)和線上分析處理(OLAP)場景,避免了傳統架構中線上與離線資料庫之間大量的資料互動。

權威調研機構 Gartner 認為,HTAP 資料庫将成為資料庫領域的重要發展趨勢。同樣的在大資料領域也呈現出了強烈的實時和線上化趨勢,實時計算正在成為不可缺少的大資料能力。TiDB 和 Flink 是 HTAP 和實時計算領域的領先者。TiDB 為海量資料帶來了高性能線上查詢能力和實時更新能力,能夠為 Flink 實時資料打寬和實時計算結果存儲提供完善的支撐。Flink 除了為 TiDB 的交易資料提供端到端實時處理能力之外,還為 TiDB 提供了外部異構資料的聯邦處理能力。兩大生态創新整合形成的一體化的資料平台,能夠幫助企業更快應對行業變化、不确定性和機遇。

通過本次分享,聽衆将了解線上交易同大資料應用在 HTAP 資料庫重新結合的趨勢以及 Flink 與 TiDB 的聯合能為企業帶來哪些新的可能。

Pravega Flink connector Table API 進階功能揭秘

周煜敏|戴爾科技集團進階軟體工程師,Apache Flink Contributor

介紹 Pravega Flink connector 在進階 Table API 的支援工作,在 FLIP-95 的 Table API 的基礎上,進一步添加了包括端到端的 debezium 格式的 CDC 支援以及 catalog API 的支援。

演講内容會圍繞這兩部分的功能和實作進行展開,介紹 Pravega 項目本身 debezium sink 以及 schema registry 等相關技術,以及 connector 在此基礎上內建這些功能上遇到的困難以及代碼演進的曆程。希望我們的經驗可以幫助到社群的其他項目。

打造批流融合:Pulsar - Flink Connector 的設計、開發和使用

盛宇帆|StreamNative 工程師

對于 Flink 而言 Pulsar 是一個新鮮而又熟悉的老朋友,早在 19 年,我們就有計劃給 Flink 社群送出 Pulsar Connector 的代碼。随着 Pulsar 社群的壯大,對于流批一體化的實際,這一貢獻進度翻開了全新的篇章。

Pulsar 的小夥伴将基于全新的 Flink Source 和 Sink API 重新設計并開發了 Pulsar Connector,并且已将 Sink API 合并到 Flink 的代碼倉庫進行維護。

本次演講,我們将介紹 Flink 1.14.0 新版本的一個特性 Pulsar - Flink Connector,以及目前的 Pulsar Connector 如何打通 Flink 和 Pulsar 之前的壁壘、如何使用全新的 Pulsar Connector 開發 Flink 應用來使用 Pulsar。

大資料三劍合一:Flink + Zeppelin + Airflow

章劍鋒|阿裡巴巴進階技術專家,Apache Member,PMC of Zeppelin、Tez、Livy

Flink + Zeppelin 發展多年,已經成為了一個比較成熟的 Flink 開發平台。随着 Flink 的批流引擎的統一,對 Flink 的生産排程也變得非常迫切。Airflow 是目前開源屆最流行的排程系統,今年我們把 Zeppelin 和 Airflow 做了一個整合。這樣的話,使用者可以在 Zeppelin 裡做 Flink 作業的互動式開發,然後在 Airflow 裡通過調用 Zeppelin 來排程 Flink 作業,這樣把 Flink 作業的開發和生産做了一個完美無縫的整合。

本次演講我們将為大家講述我們是如何整合這大資料三劍客的,這個整合又能如何提高你的開發以及運維效率。

Mars on Flink:實時資料流上的 Pandas

付典|阿裡巴巴進階技術專家,Apache Flink PMC

  1. Mars on Flink 解決的問題:結合 Flink 引擎的實時資料處理能力以及 Mars 引擎的分布式 Pandas 計算能力,使用者基于 Pandas API 開發的單機實驗作業,可以不經過修改或者隻需要少量修改,就可以部署到生産環境中進行分布式實時處理;
  2. Mars on Flink 的架構;
  3. Mars on Flink 的使用案例;
  4. Mars on Flink 下一步的發展規劃。

使用 Apache Atlas 追蹤 Apache Flink 的實時資料倉庫血緣

劉岩|Cloudera 解決方案工程師,Apache Hive/Apache Flink Contributor

Apache Flink 已經成為了實時資料處理的事實标準,Apache Atlas 也已經成為了開源的資料治理方案。本專題首先介紹如何使用 Apache Flink 對現有資料倉庫的主要加工算法進行實時化改造,并引申出在使用 Apache Flink 建構實時資料倉庫時,如何通過 Apache Atlas 來追蹤其資料血緣,并互動式分析上下遊血緣影響。

基于 Apache Flink + RocketMQ + Hudi 建構 Lakehouse

蔣曉峰|阿裡巴巴技術專家,Apache RocketMQ & Apache ShardingSphere & SOFAJRaft Committer,Apache Flink Contributor

Lakehouse 是低成本,直接通路雲存儲并且提供傳統 DBMS 管系統性能和 ACID 事務、版本、審計、索引、緩存、查詢優化的資料管理系統,Lakehouse 結合資料湖和資料倉庫的優點:包括資料湖的低成本存儲和開放資料格式通路,資料倉庫強大的管理和優化能力。

本次演講将介紹使用 Apache Flink + RocketMQ + Hudi 建構新一代 Lakehouse 解決方案與最佳實踐,其中 RocketMQ 提供面向流式存儲支援、流批一體的資料通路能力等,讓其成為一個可以統一批和事件流消息平台。RocketMQ Hudi Connector 通過幾行簡單的配置可以輕松實作資料自動流入 Hudi,自定義負載均衡可以自動伸縮資料流管道寬度,支援 Hudi 所有參數配置和特性,如 Copy-On-Write/Merge-On-Read 表類型、Schema Evolution等。

螞蟻實時計算 Flink on OceanBase

梅慶|螞蟻集團進階技術專家,OceanBase 解決方案架構師,OceanBase 開源生态負責人

陶然|阿裡巴巴進階開發工程師,Apache Spark/Apache Flink Contributor

螞蟻的實時計算業務主要運作于雲化環境,雲上混部環境中我們遇到了很多問題與挑戰,如穩定性問題,多輸入輸出元件和複用及沖突問題,結果存儲性能問題,雲盤性能問題,易用性問題,資源使用效率等問題,對此我們也采取了相應的解決方案。

本次為大家帶來我們生産實踐中解決 Flink 相關問題的經驗和分享,以及 OceanBase 的特性和選 OceanBase 的原因。

雙劍合璧:Flink + StarRocks 建構實時數倉解決方案

謝寅|StarRocks 解決方案架構師

極速的實時資料處理能力和極速的查詢分析能力,隻有把這兩種能力結合起來,才能整體提升數倉業務端到端的實時性。Apache Flink 作為分布式計算引擎已經成為實時 ETL 處理方面的事實标準,而配合極速分析型 MPP 資料庫 StarRocks,會讓實時數倉的建構如虎添翼。

流批一體

FFA 2021 專場解讀 - 開源解決方案 / 流批一體

Flink 流批一體在位元組推薦系統的實踐

胡家煊|位元組跳動推薦架構基礎服務研發工程師

郭文飛|位元組跳動推薦架構基礎服務方向負責人

特征生産是推薦系統資料流轉中非常重要的環節,從上遊的埋點資料經過清洗、過濾、聚合計算等步驟形成最終供線上取用的各種特征,是推薦系統的基石;

目前位元組推薦系統中的特征生産流程,經曆了從早期的 Hadoop、Spark 批式處理程式,到現在實時性更強、流批一體的 Flink 應用,從時效性、穩定性、架構完整性方面都取得了一些收益;本次分享主要介紹支援流批一體的 Flink 架構是如何在位元組推薦系統中玩轉的;

  1. 業務背景
    • 内部特征服務調研;
    • 特征生産面臨的挑戰;
    • 新一代基于 Flink 的推薦特征平台。
  2. 整體架構設計
    • 有狀态特征計算;
    • ETL 類型特征計算;
    • 批式特征計算。
  3. 特征入湖
  4. 線上問題和挑戰
    • 資料回溯;
    • 視窗特征計算精度 tradeoff;
    • 性能優化。
  5. 未來規劃

美團基于流批一體建構增量數倉生産實踐

劉迪珊|美團資料平台工程師

介紹美團資料生産場景:在離線數倉和實時數倉之外,基于 Flink 的流批一體和資料湖存儲技術,建構增量數倉生産的架構以及實踐。主要包括增量生産場景、Flink runtime 的優化、語義優化、存儲能力優化等。

流批一體在京東的探索與實踐

韓飛|京東進階技術專家,Apache Flink Contributor

本次分享包含京東對流批一體的整體思考、技術方案以及目前的實踐應用情況。

大綱:

  1. 整體思考(痛點、核心理念、技術挑戰);
  2. 技術方案(基于 FlinkSQL + Iceberg 的架構、流批模型問題、資源混部、流批一體相關的 Flink 優化);
  3. 流批一體業務落地案例介紹;
  4. 社群貢獻及未來規劃。

基于 Flink Dynamic Table 建構流批一體數倉

李勁松|阿裡巴巴技術專家,Apache Flink & Iceberg Committer

在實時數倉中,消息隊列用于數倉 Pipeline 的資料源和中間階段,但是實時數倉的中間表是不可查詢的,融合離線數倉必然需要提供可查詢的中間表。

是以,可以将中間資料雙寫到 Hive 或湖存儲中,以便查詢中間表。 但是,這樣的 Pipeline 存在以下問題:

  • 對于使用者來說,Append 模式和 Upsert 模式需要對應特定的存儲。沒有主鍵的情況更為複雜;
  • 增加了架構複雜性,增加了操作和運維複雜性;
  • 更為關鍵的是,流和批的體驗是割裂的兩套。

在 Flink SQL 上,我們引入了内置的 Dynamic Table 存儲,這是一種真正統一的 changelog & table 表示,它提供易用的流計算,同時提供高性能的批查詢,還可以解決流存儲資料過期難以回刷的困難。

Flink 流批一體在小米的探索和實踐

金風|小米軟體開發工程師

小米從 2019 年開始接入使用 Flink,至今 Flink 在小米内部的應用飛速發展,已成為小米内部實時計算的标準。 期間我們不斷完善作業管理平台,支援管理 Flink / FlinkSQL 作業,幫助業務更好地使用 Flink。同時基于 metacat + ranger,我們做了統一的中繼資料管理和權限管理,并應用于 Flink、Presto、Spark 等計算引擎。我們的作業管理平台支援了公司内部衆多大資料元件,包括 Iceberg,Talos (小米内部消息隊列),Kudu,Hive,Doris,TiDB。

2020 年,基于 FlinkSQL + Talos,我們落地了小米實時數倉方案, 建構了小米銷售服務的實時數倉。2021 年初,我們開始探索使用資料湖,基于 Flink + Iceberg 我們初步實作了流批一體的技術方案,在小米内部的一些場景也得到了應用。後續我們會不斷完善小米的流批一體方案,期待 Flink + Iceberg 能夠提升業務效率,應用于更多的使用場景。

以上為 Flink Forward Asia 2021 開源解決方案以及流批一體專場内容節選,了解更多大會詳情可點選下方連結:

Flink Forward Asia 2021 贊助與合作

FFA 2021 專場解讀 - 開源解決方案 / 流批一體

首屆 Flink Forward Asia Hackathon 正式啟動,10W 獎金等你來!

歡迎進入賽事官網了解詳情:

https://www.aliyun.com/page-source//tianchi/promotion/FlinkForwardAsiaHackathon
FFA 2021 專場解讀 - 開源解決方案 / 流批一體

更多 Flink 相關技術問題,可掃碼加入社群釘釘交流群

第一時間擷取最新技術文章和社群動态,請關注公衆号~

FFA 2021 專場解讀 - 開源解決方案 / 流批一體

活動推薦

阿裡雲基于 Apache Flink 建構的企業級産品-實時計算Flink版現開啟活動:

99 元試用

實時計算Flink版

(包年包月、10CU)即有機會獲得 Flink 獨家定制衛衣;另包 3 個月及以上還有 85 折優惠!

了解活動詳情:

https://www.aliyun.com/product/bigdata/sc
FFA 2021 專場解讀 - 開源解決方案 / 流批一體