天天看點

Flink Weekly 每周動态更新-2020/03/25Flink Weekly 作者征集

大家好,本文為 Flink Weekly 的第十期,由張成(Ace)整理,主要内容包括:近期社群開發進展,郵件問題答疑以及 Flink 最新社群動态及技術文章推薦。

社群開發進展

■ [release] 關于釋出 Flink 1.10.1 的讨論正在火熱進行,最新消息請參考 Yu Li 發起的讨論。

[1]

http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Releasing-Flink-1-10-1-td38689.html

■ [Checkpoint] Arvid Heise 發起 FLIP-76 的投票已經通過。FLIP-76 提出了一種基于檢查點屏障的非阻塞對齊執行檢查點的方法。相關好處有:

  1. 即使某些 Operator 仍在等待正在輸入通道上的檢查點屏障,上遊仍可以繼續産生資料。
  2. 即使對于具有單個輸入通道的 Operator,在整個執行圖中的檢查點次數也大大減少。
  3. 即使在不穩定的環境中,最終使用者也将看到更多的進展,因為更及時的檢查點将避免過多的重複計算。
  4. 促進更快地 rescaling。

更多資訊參考:

[2]

https://cwiki.apache.org/confluence/display/FLINK/FLIP-76%3A+Unaligned+Checkpoints

[3]

http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-FLIP-76-Unaligned-checkpoints-td33651.html

■ [Connectors/Filesystem] 删除 BucketingSink。BucketingSink 已經在 Flink 1.9 版本标記為過期。Flink 有一個新的 StreamingFileSink 替代 BucketingSink。目前 StreamingFileSink 的 scala 版本存在 bug。

[4]

http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/jira-Created-FLINK-16616-Drop-BucketingSink-td38950.html

[5]

http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Drop-Bucketing-Sink-td38830.html#a38831

[6]

http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/jira-Created-FLINK-16684-StreamingFileSink-builder-does-not-work-with-Scala-td39109.html

■ [Table API & SQL] Jingsong Li 發起了引入 StatefulSequenceSource 的讨論。這個能夠友善使用者更好的進行測試 SQL。最終讨論決定在 Table 支援 DataGenerator 的 source、Print 的 sink 和blackhole 的 sink。

[7]

http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Introduce-TableFactory-for-StatefulSequenceSource-td39116.html

■ [sql] Timo 分享了一個關于新的 TableSource 和 TableSink 接口的提案(FLIP-95)。Jark、Dawid、Aljoscha、Kurt、Jingsong 等參考了讨論。其目标是簡化目前的接口架構,以支援變更日志源(FLIP-105)和删除對 DataStream API 和 planner 的依賴。

[8]

https://cwiki.apache.org/confluence/display/FLINK/FLIP-95%3A+New+TableSource+and+TableSink+interfaces

■ [hadoop]跟進 Stephan 和 Till 的讨論。Sivaprasanna 分享了 Hadoop 相關實用程式元件的概述,以開始讨論将其移動到單獨的子產品中 “flink-hadoop-utils”。

[9]

http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/SerializableHadoopConfiguration-td38371.html

[10]

http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Introduce-a-new-module-flink-hadoop-utils-td39107.html

使用者問題

■ 葉賢勳在使用 Hive Source 的時候遇到了 Kerberos 認證的問題,社群同學進行了相關的讨論和建議,感興趣的同學可以參考如下連結:

[11]

http://apache-flink.147419.n8.nabble.com/Hive-Source-With-Kerberos-td1688.html

■ hiliuxg 在社群提問 Flink SQL 如何支援每隔 5 分鐘觸發當日零點到目前 5 分鐘的聚合計算。Jark Wu 和 Tianwang Li 進行了相關解答。

[12]

http://apache-flink.147419.n8.nabble.com/flink-sql-5-5-td2011.html

■ hiliuxg 在社群提問 Flink SQL COUNT DISTINCT 性能優化。Benchao Li、田志聲、Lucas Wu、Lake Shen 展開了一些讨論,有興趣的同學可以參考如下連結:

[13]

http://apache-flink.147419.n8.nabble.com/flink-sql-td2012.html

■ 王志華 在社群提問 Flink DDL 如何支援自定義 Source/Sink 表。社群同學在郵件中進行了詳細的回答。

[14]

http://apache-flink.147419.n8.nabble.com/ddl-td1959.html

■ 111 在社群提問 Flink SQL1.10 大表 join 如何優化?Jark Wu、Kurt Young 和 Jingsong Lee 進行了詳細的解答。目前 Flink SQL 的并行度(非 Source )并不是自動推斷出來的,需要通過設定table.exec.resource.default-parallelism,詳細的内容參考:

[15]

http://apache-flink.147419.n8.nabble.com/Flink-SQL1-10-join-td2044.html

[16]

http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/Flink-SQL-How-can-i-set-parallelism-in-clause-of-group-by-td33736.html

■ Aaron Levin 在社群提問 如何能夠做到修改任務的并發,然後從 checkpoint 啟動任務。Piotr Nowojski、Till Rohrmann 參與了相關讨論。内容涉及到 unaligned checkpoints (FLIP-76) 對savepoint 和 checkpoint 的影響。同時 Lake Shen 也提出了類似的問題。有興趣的同學可以參考:

[17]

http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/Expected-behaviour-when-changing-operator-parallelism-but-starting-from-an-incremental-checkpoint-td33608.html

[18]

http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/Cancel-the-flink-task-and-restore-from-checkpoint-can-I-change-the-flink-operator-s-parallelism-td33613.html

■ Jiawei Wu 在社群提問“如何使用 Flink SQL 計算 按照供應商分組同時入庫時間大于 15 天的庫存資料?”,有興趣的同學可以參考:

[19]

http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/Use-flink-to-calculate-sum-of-the-inventory-under-certain-conditions-td33323.html

■ Vinod Mehra 在社群提出了一個關于 Join 相關的問題。這個問題比較複雜,Timo Walther 進行了相關解答。裡面涉及到了一些如何進行 Flink SQL 問題的排查。有興趣的同學可以參考:

[20]

http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/time-windowed-joins-and-tumbling-windows-td33551.html

活動部落格文章及其他

■ SQL 開發任務超 50% !滴滴實時計算的演進與優化

[21]

https://ververica.cn/corporate_practice/evolution-and-optimization-of-didi-real-time-computing/

■ Flink 生态:一個案例快速上手 PyFlink

[22]

https://ververica.cn/developers/pyflink-a-case-in-hand/

■ 一套 SQL 搞定資料倉庫?Flink有了新嘗試[23]

https://ververica.cn/developers/a-set-of-sql-to-handle-data-warehouse/

■ 如何在 Flink 中規劃 RocksDB 記憶體容量?

[24]

https://ververica.cn/developers/how-to-plan-the-memory-capacity-of-rocksdb-in-flink/

2 分鐘快速訂閱 Flink 中文郵件清單

Apache Flink 中文郵件清單訂閱流程:

  1. 發送任意郵件到 [email protected]
  2. 收到官方确認郵件
  3. 回複該郵件 confirm 即可訂閱

訂閱成功後将收到 Flink 官方的中文郵件清單的消息,您可以向 [email protected] 發郵件提問也可以幫助别人解答問題,動動手測試一下!

Flink Weekly 作者征集

Flink Weekly 是由社群同學發起的并持續更新的 Flink 社群每周動态彙總,内容涵蓋郵件清單中使用者問題的解答、社群開發和提議的進展、社群新聞以及其他活動、部落格文章等,釋出于 Apache Flink 中文郵件清單、Flink 中文社群官方微信公衆号及各大社群專欄。

  1. 如果你也想積極參與社群,掌握社群最新動态
  2. 獲得 Apache Flink PMC 及 Committer 對技術文章寫作的指導
  3. 與社群深度參與者們交流
  4. 擁有更多曝光的平台與機會

歡迎報名 Flink Weekly 作者!衆所周知,Flink 學的好,女朋友容易找,Flink 學成,頭發茂!點選“

閱讀原文

”填寫資訊即可加入小松鼠大家庭~

作者介紹:

張成,小紅書技術部基礎平台開發工程師,目前主要在做基于 Flink 的實時計算平台開發。