kafka

1、kafka是什麼

apache kafka是一個開源消息系統，由scala寫成

kafka最初是由linkedin開發，并于2011年初開源

kafka是一個分布式消息隊列：生産者消費者的功能。它提供了類似于jms的特性，但是在設計實作上完全不同，此外它并不是jms規範的實作

kafka對消息儲存時根據topic進行分類，發送消息者稱為producer，消息接受者稱為consumer，此外kafka叢集有多個kafka執行個體組成，每個執行個體稱為broker

無論是kafka叢集還是producer和consumer都依賴于zookeeper叢集儲存一些meta資訊，來保證系統的可用性

jms：jms是java提供的一套技術規範。

可以用來異構系統內建通信，緩解系統瓶頸，提高系統的伸縮性增強系統使用者體驗，使得系統子產品化群組件化變得可行并更加靈活。

類jms消息隊列，結合jms中的兩種模式，可以有多個消費者主動拉取資料，在jms中隻有點對點模式才有消費者主動拉取資料。

kafka是一個生産-消費模型。

01.producer：生産者

隻負責資料生産，生産者的代碼可以內建到任務系統中。資料的分發政策由producer決定，預設是defaultpartition utils.abs(key.hashcode) % numpartitions

02.broker：

目前伺服器上的kafka程序,俗稱拉皮條。隻管資料存儲，不管是誰生産，不管是誰消費。在叢集中每個broker都有一個唯一brokerid，不得重複。

03.topic:

目标發送的目的地，這是一個邏輯上的概念，落到磁盤上是一個partition的目錄。partition的目錄中有多個segment組合(index,log)

一個topic對應多個partition[0,1,2,3]，一個partition對應多個segment組合。一個segment有預設的大小是1g。

每個partition可以設定多個副本(replication-factor 1),會從所有的副本中選取一個leader出來。所有讀寫操作都是通過leader來進行的。

特别強調，和mysql中主從有差別，mysql做主從是為了讀寫分離，在kafka中讀寫操作都是leader。

04.consumergroup：

資料消費者組，consumergroup可以有多個，每個consumergroup消費的資料都是一樣的。

可以把多個consumer線程劃分為一個組，組裡面所有成員共同消費一個topic的資料，組員之間不能重複消費。

（在下面代碼配置檔案中，可以設定groupid和讀取的位置）

05.zookeeper

依賴叢集儲存meta資訊（每次讀取到哪的資訊）。

2、kafka生産資料時的分組政策

預設是defaultpartition utils.abs(key.hashcode) % numpartitions

上文中的key是producer在發送資料時傳入的，produer.send(keyedmessage(topic,mypartitionkey,messagecontent))

3、kafka如何保證資料的完全生産

ack機制：broker表示發來的資料已确認接收無誤，表示資料已經儲存到磁盤。

0：不等待broker傳回确認消息

1：等待topic中某個partition leader儲存成功的狀态回報

-1：等待topic中某個partition 所有副本都儲存成功的狀态回報

4、broker如何儲存資料

在理論環境下，broker按照順序讀寫的機制，可以每秒儲存600m的資料。主要通過pagecache機制，盡可能的利用目前實體機器上的空閑記憶體來做緩存。

目前topic所屬的broker，必定有一個該topic的partition，partition是一個磁盤目錄。partition的目錄中有多個segment組合(index,log)

5、partition如何分布在不同的broker上

int i = 0

list{kafka01,kafka02,kafka03}

for(int i=0;i<5;i++){

brindex = i%broker;

hostname = list.get(brindex)

}

6、consumergroup的組員和partition之間如何做負載均衡

最好是一一對應，一個partition對應一個consumer。

如果consumer的數量過多，必然有空閑的consumer。

算法：

假如topic1,具有如下partitions: p0,p1,p2,p3

加入group中,有如下consumer: c1,c2

首先根據partition索引号對partitions排序: p0,p1,p2,p3

根據consumer.id排序: c0,c1

計算倍數: m = [p0,p1,p2,p3].size / [c0,c1].size,本例值m=2(向上取整)

然後依次配置設定partitions: c0 = [p0,p1],c1=[p2,p3],即ci = [p(i * m),p((i + 1) * m -1)]

7、如何保證kafka消費者消費資料是全局有序的

僞命題

如果要全局有序的，必須保證生産有序，存儲有序，消費有序。

由于生産可以做叢集，存儲可以分片，消費可以設定為一個consumergroup，要保證全局有序，就需要保證每個環節都有序。

隻有一個可能，就是一個生産者，一個partition，一個消費者。這種場景和大資料應用場景相悖。

8.kafka生産資料

9.kafka消費資料（低階）

10.kafka和zookeeper使用javaapi能夠拉取到資料（高階消費）

properties配置檔案

kafka配置檔案（注意groupid）

然後在spring配置檔案中import kafka的配置檔案

java接收：

kafka

繼續閱讀

go應用程式寫kafka阻塞（大坑）

虛拟機---kafka的安裝

白話描述Kafka

kafka環境部署(二)

Kafka學習篇（二）——Kafka環境搭建安裝JDK安裝KafkaKafka指令Kafka配置

大白話帶你認識Kafka一、Kafka基礎1.Topic 主題二、kafka的叢集架構3.Kafka的網絡設計finally

kafka使用筆記-librdkafka支援sasl認證

librdkafka consumer封裝的一點總結

用c++ 連接配接kafka我所踩過的坑(Connection refused || desired partition does not exist)

Linux 安裝kafka的庫librdkafka

librdkafka安裝步驟

Kafka：Topic概念與API介紹

Doris SQL日志審計部署，以及sql收集輸出kafka，後續血緣分析

Flink Kafka Doris實戰demo

Kafka 和 EMS 消息批量 ack 的實作

Spring Cloud整合Sleuth，當請求完成後，Zipkin沒有鍊路資訊