Flink從入門到精通(一) - 簡介

2020-04-08 18:50:00

官網的定義如下:

Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams.

Flink has been designed to run in all common cluster environments, perform computations at in-memory speed and at any scale.

從官網的定義我們可以看出

1. 首先，它是一個分布式處理引擎和架構

2. 其次，它進行有狀态的計算，針對有界和無界的資料流式計算

這裡有幾點我想詳細解釋一下：

2-1) 什麼叫有界和無界資料?

有界資料集：有限不會改變的資料集合

無界資料(無窮資料集): 無窮的持續內建的資料集合

那麼那些常見的無窮資料集有哪些呢？

使用者與用戶端的實時互動資料(使用者行為)

應用實時産生的日志

金融市場的實時交易記錄

2-2) 什麼是流式計算？

說到流式計算我們就不得不提一下批處理計算，因為它們是不同的東西。

批處理：在預先定義的時間内運作計算，當完成時釋放計算機資源

流式：隻要資料一直在産生，計算就持續地進行

3. Flink提供記憶體級的計算速度和高可擴充性

技術改變世界

繼續閱讀