大家好,本文為 Flink Weekly 的第十期,由張成(Ace)整理,主要内容包括:近期社群開發進展,郵件問題答疑以及 Flink 最新社群動态及技術文章推薦。
社群開發進展
■ [release] 關于釋出 Flink 1.10.1 的讨論正在火熱進行,最新消息請參考 Yu Li 發起的讨論。
[1]
http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Releasing-Flink-1-10-1-td38689.html■ [Checkpoint] Arvid Heise 發起 FLIP-76 的投票已經通過。FLIP-76 提出了一種基于檢查點屏障的非阻塞對齊執行檢查點的方法。相關好處有:
- 即使某些 Operator 仍在等待正在輸入通道上的檢查點屏障,上遊仍可以繼續産生資料。
- 即使對于具有單個輸入通道的 Operator,在整個執行圖中的檢查點次數也大大減少。
- 即使在不穩定的環境中,最終使用者也将看到更多的進展,因為更及時的檢查點将避免過多的重複計算。
- 促進更快地 rescaling。
更多資訊參考:
[2]
https://cwiki.apache.org/confluence/display/FLINK/FLIP-76%3A+Unaligned+Checkpoints[3]
http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-FLIP-76-Unaligned-checkpoints-td33651.html■ [Connectors/Filesystem] 删除 BucketingSink。BucketingSink 已經在 Flink 1.9 版本标記為過期。Flink 有一個新的 StreamingFileSink 替代 BucketingSink。目前 StreamingFileSink 的 scala 版本存在 bug。
[4]
http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/jira-Created-FLINK-16616-Drop-BucketingSink-td38950.html[5]
http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Drop-Bucketing-Sink-td38830.html#a38831[6]
http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/jira-Created-FLINK-16684-StreamingFileSink-builder-does-not-work-with-Scala-td39109.html■ [Table API & SQL] Jingsong Li 發起了引入 StatefulSequenceSource 的讨論。這個能夠友善使用者更好的進行測試 SQL。最終讨論決定在 Table 支援 DataGenerator 的 source、Print 的 sink 和blackhole 的 sink。
[7]
http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Introduce-TableFactory-for-StatefulSequenceSource-td39116.html■ [sql] Timo 分享了一個關于新的 TableSource 和 TableSink 接口的提案(FLIP-95)。Jark、Dawid、Aljoscha、Kurt、Jingsong 等參考了讨論。其目标是簡化目前的接口架構,以支援變更日志源(FLIP-105)和删除對 DataStream API 和 planner 的依賴。
[8]
https://cwiki.apache.org/confluence/display/FLINK/FLIP-95%3A+New+TableSource+and+TableSink+interfaces■ [hadoop]跟進 Stephan 和 Till 的讨論。Sivaprasanna 分享了 Hadoop 相關實用程式元件的概述,以開始讨論将其移動到單獨的子產品中 “flink-hadoop-utils”。
[9]
http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/SerializableHadoopConfiguration-td38371.html[10]
http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Introduce-a-new-module-flink-hadoop-utils-td39107.html使用者問題
■ 葉賢勳在使用 Hive Source 的時候遇到了 Kerberos 認證的問題,社群同學進行了相關的讨論和建議,感興趣的同學可以參考如下連結:
[11]
http://apache-flink.147419.n8.nabble.com/Hive-Source-With-Kerberos-td1688.html■ hiliuxg 在社群提問 Flink SQL 如何支援每隔 5 分鐘觸發當日零點到目前 5 分鐘的聚合計算。Jark Wu 和 Tianwang Li 進行了相關解答。
[12]
http://apache-flink.147419.n8.nabble.com/flink-sql-5-5-td2011.html■ hiliuxg 在社群提問 Flink SQL COUNT DISTINCT 性能優化。Benchao Li、田志聲、Lucas Wu、Lake Shen 展開了一些讨論,有興趣的同學可以參考如下連結:
[13]
http://apache-flink.147419.n8.nabble.com/flink-sql-td2012.html■ 王志華 在社群提問 Flink DDL 如何支援自定義 Source/Sink 表。社群同學在郵件中進行了詳細的回答。
[14]
http://apache-flink.147419.n8.nabble.com/ddl-td1959.html■ 111 在社群提問 Flink SQL1.10 大表 join 如何優化?Jark Wu、Kurt Young 和 Jingsong Lee 進行了詳細的解答。目前 Flink SQL 的并行度(非 Source )并不是自動推斷出來的,需要通過設定table.exec.resource.default-parallelism,詳細的内容參考:
[15]
http://apache-flink.147419.n8.nabble.com/Flink-SQL1-10-join-td2044.html[16]
http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/Flink-SQL-How-can-i-set-parallelism-in-clause-of-group-by-td33736.html■ Aaron Levin 在社群提問 如何能夠做到修改任務的并發,然後從 checkpoint 啟動任務。Piotr Nowojski、Till Rohrmann 參與了相關讨論。内容涉及到 unaligned checkpoints (FLIP-76) 對savepoint 和 checkpoint 的影響。同時 Lake Shen 也提出了類似的問題。有興趣的同學可以參考:
[17]
http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/Expected-behaviour-when-changing-operator-parallelism-but-starting-from-an-incremental-checkpoint-td33608.html[18]
http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/Cancel-the-flink-task-and-restore-from-checkpoint-can-I-change-the-flink-operator-s-parallelism-td33613.html■ Jiawei Wu 在社群提問“如何使用 Flink SQL 計算 按照供應商分組同時入庫時間大于 15 天的庫存資料?”,有興趣的同學可以參考:
[19]
http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/Use-flink-to-calculate-sum-of-the-inventory-under-certain-conditions-td33323.html■ Vinod Mehra 在社群提出了一個關于 Join 相關的問題。這個問題比較複雜,Timo Walther 進行了相關解答。裡面涉及到了一些如何進行 Flink SQL 問題的排查。有興趣的同學可以參考:
[20]
http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/time-windowed-joins-and-tumbling-windows-td33551.html活動部落格文章及其他
■ SQL 開發任務超 50% !滴滴實時計算的演進與優化
[21]
https://ververica.cn/corporate_practice/evolution-and-optimization-of-didi-real-time-computing/■ Flink 生态:一個案例快速上手 PyFlink
[22]
https://ververica.cn/developers/pyflink-a-case-in-hand/■ 一套 SQL 搞定資料倉庫?Flink有了新嘗試[23]
https://ververica.cn/developers/a-set-of-sql-to-handle-data-warehouse/■ 如何在 Flink 中規劃 RocksDB 記憶體容量?
[24]
https://ververica.cn/developers/how-to-plan-the-memory-capacity-of-rocksdb-in-flink/2 分鐘快速訂閱 Flink 中文郵件清單
Apache Flink 中文郵件清單訂閱流程:
- 發送任意郵件到 [email protected]
- 收到官方确認郵件
- 回複該郵件 confirm 即可訂閱
訂閱成功後将收到 Flink 官方的中文郵件清單的消息,您可以向 [email protected] 發郵件提問也可以幫助别人解答問題,動動手測試一下!
Flink Weekly 作者征集
Flink Weekly 是由社群同學發起的并持續更新的 Flink 社群每周動态彙總,内容涵蓋郵件清單中使用者問題的解答、社群開發和提議的進展、社群新聞以及其他活動、部落格文章等,釋出于 Apache Flink 中文郵件清單、Flink 中文社群官方微信公衆号及各大社群專欄。
- 如果你也想積極參與社群,掌握社群最新動态
- 獲得 Apache Flink PMC 及 Committer 對技術文章寫作的指導
- 與社群深度參與者們交流
- 擁有更多曝光的平台與機會
歡迎報名 Flink Weekly 作者!衆所周知,Flink 學的好,女朋友容易找,Flink 學成,頭發茂!點選“
閱讀原文”填寫資訊即可加入小松鼠大家庭~
作者介紹:
張成,小紅書技術部基礎平台開發工程師,目前主要在做基于 Flink 的實時計算平台開發。