Kafka 會不會丢消息？

一、認識 Kafka

Kafka 是分布式釋出-訂閱消息系統。它最初由 LinkedIn 公司開發，之後成為 Apache 項目的一部分。

Kafka 是一個分布式的，可劃分的，備援備份的持久性的日志服務。它主要用于處理活躍的流式資料。

Kafka 的整體架構非常簡單，是顯式分布式架構，主要由 producer、broker（kafka）和 consumer 組成。

Producer（生産者）可以将資料釋出到所選擇的 topic（主題）中。生産者負責将記錄配置設定到 topic 的哪一個 partition（分區）中。可以使用循環的方式來簡單地實作負載均衡，也可以根據某些語義分區函數（如記錄中的key）來完成。

Consumer（消費者）使用一個consumer group（消費組）名稱來進行辨別，釋出到 topic 中的每條記錄被配置設定給訂閱消費組中的一個消費者執行個體。消費者執行個體可以分布在多個程序中或者多個機器上。

在讨論 kafka 是否丢消息前先來了解一下什麼是消息傳遞語義。

message delivery semantic 也就是消息傳遞語義，簡單說就是消息傳遞過程中消息傳遞的保證性。主要分為三種：

理想情況下肯定是希望系統的消息傳遞是嚴格 exactly once，也就是保證不丢失、隻會被處理一次，但是很難做到。

回到主角 Kafka，Kafka 有三次消息傳遞的過程：

在這三步中每一步都有可能會丢失消息，下面詳細分析為什麼會丢消息，如何最大限度避免丢失消息。

先介紹一下生産者發送消息的一般流程（部分流程與具體配置項強相關，這裡先忽略）：

生産者采用 push 模式将資料釋出到 broker，每條消息追加到分區中，順序寫入磁盤。消息寫入 Leader 後，Follower 是主動與 Leader 進行同步。

Kafka 消息發送有兩種方式：同步（sync）和異步（async），預設是同步方式，可通過 producer.type 屬性進行配置。

Kafka 通過配置 request.required.acks 屬性來确認 Producer 的消息：

0：表示不進行消息接收是否成功的确認；不能保證消息是否發送成功，生成環境基本不會用。
1：預設值，表示當 Leader 接收成功時确認；隻要 Leader 存活就可以保證不丢失，保證了吞吐量。是以預設的 producer 級别是 at least once。
all：保證 leader 和 follower 不丢，但是如果網絡擁塞，沒有收到 ACK，會有重複發的問題。

如果 acks 配置為 0，發生網絡抖動消息丢了，生産者不校驗 ACK 自然就不知道丢了。

如果 acks 配置為 1 保證 leader 不丢，但是如果 leader 挂了，恰好選了一個沒有 ACK 的 follower，那也丢了。

如果 acks 配置為 all 保證 leader 和 follower 不丢，但是如果網絡擁塞，沒有收到 ACK，會有重複發的問題。

Kafka Broker 接收到資料後會将資料進行持久化存儲，你以為是下面這樣的：

沒想到是這樣的：

作業系統本身有一層緩存，叫做 Page Cache，當往磁盤檔案寫入的時候，系統會先将資料流寫入緩存中，至于什麼時候将緩存的資料寫入檔案中是由作業系統自行決定。

Kafka 提供了一個參數 producer.type 來控制是不是主動 flush，如果 Kafka 寫入到 mmap 之後就立即 flush 然後再傳回 Producer 叫同步 (sync)；寫入 mmap 之後立即傳回 Producer 不調用 flush 叫異步 (async)。

Kafka 通過多分區多副本機制中已經能最大限度保證資料不會丢失，如果資料已經寫入系統 cache 中但是還沒來得及刷入磁盤，此時突然機器當機或者掉電那就丢了，當然這種情況很極端。

消費者通過 pull 模式主動的去 kafka 叢集拉取消息，與 producer 相同的是，消費者在拉取消息的時候也是找 leader 分區去拉取。

多個消費者可以組成一個消費者組（consumer group），每個消費者組都有一個組id。同一個消費者組的消費者可以消費同一 topic 下不同分區的資料，但是不會出現多個消費者消費同一分區的資料。

消費者消費的進度通過 offset 儲存在 kafka 叢集的 __consumer_offsets 這個 topic 中。

消費消息的時候主要分為兩個階段：

先 commit 再處理消息。如果在處理消息的時候異常了，但是 offset 已經送出了，這條消息對于該消費者來說就是丢失了，再也不會消費到了。

先處理消息再 commit。如果在 commit 之前發生異常，下次還會消費到該消息，重複消費的問題可以通過業務保證消息幂等性來解決。

那麼問題來了，kafka到底會不會丢消息？答案是：會！

Kafka可能會在三個階段丢失消息：

在生産環境中嚴格做到 exactly once 其實是難的，同時也會犧牲效率和吞吐量，最佳實踐是業務側做好補償機制，萬一出現消息丢失可以兜底。

原文連結：面試被問：Kafka 會不會丢消息？我是這麼答的