Kafka_01安装
推荐:
官方
https://github.com/apache/kafka
可视化工具
UI for Apache Kafka
https://github.com/kafbat/kafka-ui 新版
https://github.com/provectus/kafka-ui 旧版
脚本文件介绍
4.0 版本的一个重大变化是彻底移除了 ZooKeeper,因此所有脚本现在都通过 --bootstrap-server 直接与 Broker 或 Controller 通信。
集群与 Broker 管理
- kafka-server-start.sh / stop.sh: 启动和停止 Kafka Broker 服务。
- kafka-storage.sh: (重要) 用于格式化存储目录。在 KRaft 模式下,启动前必须用它生成 Cluster ID 并格式化日志目录。
- kafka-configs.sh: 动态修改配置(如修改 Topic 参数、用户配额、Broker 配置等)。
- kafka-broker-api-versions.sh: 查看 Broker 支持的 API 版本信息。
- kafka-features.sh: 查看或升级 Kafka 集群的功能特性版本(Feature Gates)。
- kafka-metadata-quorum.sh: 查看 KRaft 控制器(Controller )副本的状态和选举情况。
- kafka-metadata-shell.sh: 交互式工具,允许像查看文件系统一样查看 Kafka 的内部元数据(类似于旧版的 zkCli)。
- kafka-cluster.sh: 用于管理集群 ID 和注销已停止的 Broker。
业务操作 (Topic/Data)
- kafka-topics.sh: 最常用的工具,用于创建、删除、查看和修改 Topic 信息。
- kafka-console-producer.sh: 控制台生产者,手动向 Topic 发送消息。
- kafka-console-consumer.sh: 控制台消费者,直接在终端查看消息。
- kafka-delete-records.sh: 根据指定的偏移量(Offset)物理删除 Topic 中的旧数据。
- kafka-get-offsets.sh: 获取指定 Topic 各分区的最大/最小偏移量。
分区与副本管理
- kafka-reassign-partitions.sh: 用于在 Broker 之间迁移分区,实现负载均衡或扩容。
- kafka-leader-election.sh: 手动触发分区的 Leader 选举。
- kafka-log-dirs.sh: 查询各 Broker 上日志目录的占用情况。
- kafka-replica-verification.sh: 验证集群内各副本间的数据是否同步。
消费者组管理
- kafka-consumer-groups.sh: 管理传统的消费者组(列出组、查看积压、重置 Offset)。
- kafka-groups.sh: (4.0 新增) 通用组管理工具,支持新的消费组协议。
- kafka-share-groups.sh: (4.0 核心新特性) 用于管理“共享消费组”(Share Groups),这种组支持类似传统消息队列的竞争消费模式。
安全与权限
- kafka-acls.sh: 管理访问控制列表(ACL),设置用户读写权限。
- kafka-delegation-tokens.sh: 管理委托令牌,用于轻量级身份验证。
性能测试与调试
- kafka-producer-perf-test.sh: 生产者压力测试工具。
- kafka-consumer-perf-test.sh: 消费者压力测试工具。
- kafka-dump-log.sh: 查看底层的日志文件(.log)或索引文件(.index)的具体内容。
- kafka-e2e-latency.sh: 测试端到端的延迟。
- kafka-jmx.sh: 简单的 JMX 监控工具。
- trogdor.sh: Kafka 官方的测试框架,用于模拟各种故障和工作负载。
生态组件 (Connect & Streams)
- connect-distributed.sh / standalone.sh: 分别以分布式模式或单机模式启动 Kafka Connect 任务。
- connect-mirror-maker.sh: 启动 MirrorMaker 2.0,用于跨集群同步数据。
- connect-plugin-path.sh: 查看或列出 Connect 插件路径。
- kafka-streams-application-reset.sh: 重置 Kafka Streams 应用程序的状态(清理本地状态存储和中间 Topic)。
- kafka-streams-groups.sh: 管理 Kafka Streams 的消费组。
开发验证工具
- kafka-verifiable-producer.sh / consumer.sh: 带有验证功能的生产/消费工具,常用于集成测试。
- kafka-run-class.sh: 这是一个底层的辅助脚本,上面所有的脚本本质上都是通过它来启动 Java 类。
配置文件介绍
https://github.com/apache/kafka/tree/trunk/config
https://kafka.apache.org/42/configuration/
服务端配置文件
server.properties:KRaft 混合模式下的 Broker + Controller 配置,不推荐生产环境使用。适用于快速测试或单节点模式。
broker.properties:KRaft 专用模式下的 Broker 配置。专门用于纯 Broker 节点的配置。负责处理客户端的请求和存储数据。
controller.properties:KRaft 专用模式下的 Controller 配置。专门用于纯 Controller 节点的配置。负责管理集群状态和维护元数据。
客户端配置文件
producer.properties:示例文件,用于 kafka-console-producer.sh。
consumer.properties:示例文件,用于 kafka-console-consumer.sh。
不直接应用于集群,仅供 CLI 工具加载默认值。
Connect 配置文件
connect-standalone.properties:Kafka Connect 独立工作模式配置;
connect-distributed.properties:Kafka Connect 分布式模式配置;
connect-console-source.properties/connect-console-sink.properties:Console 示例连接器,包括数据源和数据目标。
connect-file-source.properties/connect-file-sink.properties:FileStream 示例连接器,包括数据源和数据目标。
MirrorMaker 2.0 配置文件
connect-mirror-maker.properties:定义跨集群数据复制的规则。与旧版 MirrorMaker 不同,MM2 是基于 Kafka Connect 框架构建的,该文件用于配置这种“连接器模式”的运行参数。
使用场景:集群备份、云迁移、数据聚合
日志配置文件(有惊喜)
log4j2.yaml:Kafka broker 和 controller 默认运行日志配置。
connect-log4j2.yaml:Kafka Connect 和 MirrorMaker 运行日志配置。
tools-log4j2.yaml:Kafka CLI 工具(如 kafka-topics、kafka-consumer-groups 等)运行日志配置。
[!IMPORTANT]
log4j2.yaml文件中日志输出目录为${sys:kafka.logs.dir},带有sys:前缀的变量会直接跳过内部变量配置(Property节点),仅读取 Java 系统属性中定义的值。查看 Kafka 启动脚本:
kafka-server-start.sh->kafka-run-class.sh,发现几个环境变量的使用:
KAFKA_LOG4J_CMD_OPTS="-Dkafka.logs.dir=$LOG_DIR $KAFKA_LOG4J_OPTS"$KAFKA_OPTSexec "$JAVA" $KAFKA_HEAP_OPTS $KAFKA_JVM_PERFORMANCE_OPTS $KAFKA_GC_LOG_OPTS $KAFKA_JMX_OPTS $KAFKA_LOG4J_CMD_OPTS -cp "$CLASSPATH" $KAFKA_OPTS "$@"所以,要想改变日志位置,可以在启动之前设置环境变量
export LOG_DIR="/data/local/kafka/logs"。 JVM GC 日志的路径也依赖LOG_DIR。
Trogdor 配置文件
trogdor.conf:Trogdor 分布式测试框架配置(定义 Coordinator 和 Agent 节点)
Linux下安装
下载并解压
二进制下载地址:https://kafka.apache.org/community/downloads/
1 | cd /data/local |
安装依赖
本地必须安装 Java 环境,兼容性:https://kafka.apache.org/42/getting-started/compatibility/
KRaft 动态控制器仲裁的格式化参数
--standalone:
- 定义: 格式化时自动将当前节点自身定义为唯一的初始投票者。
- 场景: 快速创建单节点 KRaft 集群时使用。它省去了手动指定控制器列表的麻烦,系统会自动识别本地配置并完成初始化。
- 作用: 简化单机模式的配置流程。它相当于执行了
--initial-controllers,但不需要手动列出节点信息,直接确立当前节点为仲裁中的唯一领袖(Leader)。
--initial-controllers:
- 定义: 格式化时明确定义集群的最初投票者列表(Controller 节点)。
- 场景: 首次创建 KRaft 集群时使用。必须确保此处的列表与配置文件中的
controller.quorum.bootstrap.servers一致,否则可能无法正确初始化。 - 作用: 设定初始的仲裁列表,定义谁拥有投票权。
--no-initial-controllers:
- 定义: 在格式化新节点时使用,表示该节点不是集群的最初投票者。
- 场景: 向现有已运行的 KRaft 集群添加新 Controller 节点(动态扩缩容)。
- 作用: 它允许新节点加入,但不需要其参与最初的投票者元数据生成,通常配合动态控制器功能(该功能允许在不重启整个集群或修改所有节点配置文件的情况下,动态地添加或删除控制器)进行动态成员变更。 当新节点从集群的 Leader 同步完元数据快照和日志后,管理员可手动运行
kafka-metadata-quorum.sh add-controller命令,正式将新节点从“观察者”提升为“投票者”(即正式加入控制器仲裁集)。
总结:
- 首次建群: 若为多节点高可用集群,使用
--initial-controllers明确定义初始投票者;若为单机测试环境,使用--standalone快速自立门户。 - 后期扩容: 向已有集群添加新控制器或更换故障磁盘时,使用
--no-initial-controllers以“观察者”身份加入,避免元数据冲突,待同步完成后再动态提升为投票者。
单机-KRaft 混合模式
配置
混合节点: cp /data/local/kafka/config/server.properties /data/local/kafka/config/server-standalone.properties
https://github.com/apache/kafka/blob/trunk/config/server.properties
只需要修改 log.dirs ,其他默认值即可。
1 | ############################# Server Basics ############################# |
初始化数据目录
1 | 生成集群 UUID,所有机器必须使用同一个 cluster-id(全局唯一) |
启动
1 | 前台运行 |
查看集群
1 | kafka-metadata-quorum.sh --bootstrap-controller localhost:9093 describe --status |
集群-KRaft 混合模式
配置
节点 1 (127.0.0.1): cp /data/local/kafka/config/server.properties /data/local/kafka/config/server1.properties
1 | ############################# Server Basics ############################# |
节点 2 (127.0.0.2): cp /data/local/kafka/config/server1.properties /data/local/kafka/config/server2.properties
1 | ############################# Server Basics ############################# |
节点 3 (127.0.0.3): cp /data/local/kafka/config/server2.properties /data/local/kafka/config/server3.properties
1 | ############################# Server Basics ############################# |
初始化数据目录
1 | 生成集群 UUID,所有机器必须使用同一个 cluster-id(全局唯一) |
启动
1 | export LOG_DIR="/data/local/kafka/logs/server1" |
查看集群
1 | kafka-metadata-quorum.sh --bootstrap-controller 127.0.0.1:9193 describe --status |
集群-KRaft 专用模式
配置
Controller 节点: cp /data/local/kafka/config/controller.properties /data/local/kafka/config/controller1.properties
https://github.com/apache/kafka/blob/trunk/config/controller.properties
1 | ############################# Server Basics ############################# |
Broker 节点: cp /data/local/kafka/config/broker.properties /data/local/kafka/config/broker2.properties
https://github.com/apache/kafka/blob/trunk/config/broker.properties
1 | ############################# Server Basics ############################# |
初始化数据目录
1 | 生成集群 UUID,所有机器必须使用同一个 cluster-id(全局唯一) |
启动
1 | export LOG_DIR="/data/local/kafka/logs/controller1" |
查看集群
1 | kafka-metadata-quorum.sh --bootstrap-controller localhost:9093 describe --status |
快速入门-官网
从主题读取事件-消费者
消费者命令行参数:
完整帮助列表:kafka-console-consumer.sh --help 。
| 参数 | 描述 |
|---|---|
--bootstrap-server <String: server toconnect to> |
连接的Kafka Broker主机名称和端口号。 |
--topic <String: topic> |
操作的topic名称。 |
--from-beginning |
从头开始消费。 |
--group <String: consumer group id> |
指定消费者组名称。 |
消费者配置文件中的重要属性:
| 属性 | 默认值 | 描述 |
|---|---|---|
打开另一个终端会话,运行控制台消费者客户端以读取您刚刚创建的事件:
1 | 消费主题中的新事件 |
您可以随时按 Ctrl-C 停止消费者客户端。
请随意尝试:例如,切换回生产端终端(上一步),写入更多事件,然后观察这些事件如何立即显示在消费者端终端上。
由于事件会被持久化存储在 Kafka 中(默认保留 7 天),因此可以被任意多次读取,且支持任意数量的消费者进行读取。您只需再打开一个终端会话并重新运行之前的命令,即可轻松验证这一点。
使用 Kafka Connect 将数据作为事件流导入/导出
您可能在现有系统(例如关系数据库或传统消息系统)中拥有大量数据,并且许多应用程序已经在使用这些系统。Kafka Connect 允许您持续地将数据从外部系统导入 Kafka Topic,反之亦然。运行连接器是一个可扩展的工具,这些连接器实现了与外部系统交互的自定义逻辑。因此,将现有系统与 Kafka 集成非常容易。为了进一步简化此过程,Kafka 提供了数百个现成的连接器。
下面了解如何使用简单的连接器运行 Kafka Connect,实现将数据从文件导入到 Kafka Topic,以及将数据从 Kafka Topic 导出到文件。
请确保将 connect-file-4.2.0.jar 添加到 Connect Worker 进程配置中的 plugin.path 属性。
1 | cd /data/local/kafka |
接下来,先创建一些用于测试的初始数据:
1 | echo foo > test.txt |
接下来,我们将启动两个以独立模式运行的连接器,这意味着它们运行在单个本地专用进程中。我们提供三个配置文件作为参数。第一个始终是 Kafka Connect 进程的配置,其中包含通用配置,例如要连接的 Kafka broker 和数据序列化格式。其余配置文件分别指定要创建的连接器。这些文件包含唯一的连接器名称、要实例化的连接器类以及连接器所需的任何其他配置。
1 | 三个配置文件分别是 Worker进程配置、数据源(Source)配置、数据目标(Sink)配置 |
Kafka 附带的这些示例配置文件使用您之前启动的默认本地集群配置,并创建两个连接器:
- 源连接器,它从文件中读取行,并将每一行作为一个事件写入 Kafka Topic。
- 接收器连接器,它从 Kafka Topic 中读取事件,并将每个事件作为一行输出到文件。
启动过程中,您会看到一些日志消息,其中一些指示连接器正在实例化。Kafka Connect 进程启动后,源连接器应开始从 test.txt 读取行并将其写入主题 connect-test,而接收器连接器应开始从主题 connect-test 中读取事件并将其输出到文件 test.sink.txt。我们可以通过检查输出文件的内容来验证数据是否已通过整个管道传输:more test.sink.txt 。
请注意,数据正存储在 Kafka 主题 connect-test 中,因此我们还可以运行一个控制台消费者来查看该主题中的数据(或使用自定义消费者代码进行处理):
1 | kafka-console-consumer.sh --topic connect-test --from-beginning --bootstrap-server localhost:9092 |
连接器会持续处理数据,因此我们可以向文件中添加数据 echo "Another line" >> test.txt,并观察数据在管道中的流动。控制台消费者 和 接收文件 应该能看到该行数据。
为什么用它?(与直接写代码的区别)
零代码/低代码:只需通过 JSON 配置文件即可启动连接器(Connector),无需为每个数据库编写重复的同步逻辑。
高可靠性:自动管理 offset(偏移量),如果同步过程中断,重启后能从断点继续,保证数据不丢不重。
横向扩展:支持集群模式(Distributed Mode),可以轻松增加节点来应对海量数据的处理压力。
转换能力 (SMTs):可以在数据流动过程中进行简单的转换,比如隐藏敏感字段、给数据打标签或格式转换。
常见应用场景
构建数据仓库/湖:把业务库(MySQL/Oracle)的数据实时同步到数据湖(Iceberg/HDFS)或数仓。
实时搜索:将数据库的更新实时推送到 Elasticsearch 供前端搜索。
多云/异构系统集成:连接 AWS S3、Google Cloud Pub/Sub、MongoDB 等各种云服务和中间件。
使用 Kafka Streams 处理事件
Kafka Streams 是一个 Java 库(Jar 包)。它让你的 Java 程序具备了实时处理海量数据的能力,而你只需要像写普通的 Java 代码一样去调用它的 API。
Kafka Streams = Kafka 读写能力 + 强大的逻辑处理(计算/转换/聚合) + 自动容错。
终止 Kafka 环境
终止 Ctrl-C 。
若想删除本地 Kafka 环境中的所有数据,包括创建的所有事件,请运行以下命令:
1 | 默认目录 |
主题
主题命令行参数:
完整帮助列表:kafka-topics.sh --help 。
| 参数 | 描述 |
|---|---|
--bootstrap-server <String: server toconnect to> |
连接的Kafka Broker主机名称和端口号,逗号分隔。 |
--topic <String: topic> |
操作的topic名称。 |
--create |
创建主题。 |
--delete |
删除主题。 |
--alter |
修改主题。 |
--list |
查看所有主题。 |
--describe |
查看主题详细信息。 |
--partitions <Integer: # of partitions> |
设置分区数。 若未指定,则使用集群默认配置(参数 default.replication.factor)。修改分区数时只能增加,不能减少。 |
--replication-factor<Integer: replication factor> |
设置分区副本数,即数据的总份数,包含“主本”在内。 若未指定,则使用集群默认配置(参数 default.replication.factor)。不能通过命令行修改。 |
--config <String: name=value> |
更新系统默认的配置。 |
主题配置文件中的重要属性:
| 属性 | 默认值 | 描述 |
|---|---|---|
Kafka 是一个分布式事件流平台,允许您跨多台机器读取、写入、存储和处理事件(在文档中也称为记录或消息)。
例如,事件包括支付交易、来自手机的地理位置更新、发货订单、来自物联网设备或医疗设备的传感器测量数据等等。这些事件被组织并存储在主题中。简单来说,主题类似于文件系统中的文件夹,而事件就是该文件夹中的文件。
因此,在编写第一个事件之前,您必须先创建一个主题。打开另一个终端会话并运行:
1 | 查看服务器中的所有主题 |
生产者-向主题写入事件
生产者命令行参数
完整帮助列表:kafka-console-producer.sh --help 。
| 参数 | 描述 |
|---|---|
--bootstrap-server <String: server toconnect to> |
连接的Kafka Broker主机名称和端口号。 |
--topic <String: topic> |
操作的topic名称。 |
--command-config |
指定配置文件。 适合配置较多或包含敏感信息(如 SASL 认证的用户名和密码)的情况。 |
--command-property |
以 key=value 的形式传递单项配置。适合快速临时修改单个非敏感参数,例如调整 acks 等级或 batch.size。 |
生产者重要属性
| 属性 | 默认值 | 描述 |
|---|---|---|
bootstrap.servers |
用于与 Kafka 集群建立初始连接的主机/端口对列表。客户端使用此列表进行初始化并发现完整的 Kafka 代理集。虽然列表中服务器的顺序无关紧要,但我们建议包含多个服务器,以确保在任何服务器不可用时具备容错能力。此列表无需包含全部代理,因为 Kafka 客户端会自动高效地管理和更新与集群的连接。此列表必须采用 host1:port1,host2:port2,…. 的格式。 | |
key.serializer |
用于键的序列化器类,该类实现了 org.apache.kafka.common.serialization.Serializer 接口。 | |
value.serializer |
用于值的序列化器类,该类实现了 org.apache.kafka.common.serialization.Serializer 接口。 | |
partitioner.class |
null | 确定在生成记录时将记录发送至哪个分区。可用选项包括: 1、如果未设置,则使用默认的分区逻辑。该策略会将记录发送到某个分区,直到该分区接收到的数据量至少达到 batch.size 字节为止。它与以下策略配合使用: a、如果未指定分区但存在键,则根据键的哈希值选择分区。 b、如果既未指定分区也未提供键,请选择当该分区接收的数据量达到至少 batch.size 字节时才会发生变化的粘性分区。 2、org.apache.kafka.clients.producer.RoundRobinPartitioner:一种分区策略,其中连续记录序列中的每条记录都会被发送到不同的分区,无论是否提供了“键”,直到分区用尽,然后该过程重新开始。注意:存在一个已知问题,即创建新批次时会导致分布不均。详情请参阅 KAFKA-9965。 实现 org.apache.kafka.clients.producer.Partitioner 接口可让您接入自定义分区器。 |
batch.size |
16384 | 当向同一分区发送多条记录时,生产端会尝试将这些记录批量合并,以减少请求次数。这有助于提升客户端和服务器端的性能。此配置用于控制默认的批处理大小(以字节为单位)。 |
linger.ms |
5 | 生产者会将两次请求传输之间收到的所有记录合并为一个批处理请求。通常,这种情况仅在高负载下发生,即记录到达速度快于发送速度时。但在某些情况下,即使在中等负载下,客户端也可能希望减少请求数量。**此设置通过添加少量人工延迟来实现这一目标——也就是说,生产者不会立即发送记录,而是会等待最长为给定延迟的时间,以便将其他记录也发送出去,从而将这些发送操作批量处理。**这可以类比为 TCP 中的纳格尔算法。**该设置为批处理的延迟提供了上限:一旦某个分区积累了与 batch.size 相当的记录,无论此设置如何,都将立即发送;但如果该分区积累的字节数少于此值,则会“滞留”指定时间,等待更多记录出现。该设置默认值为 5(即 5 毫秒延迟)。**例如,将 linger.ms 设为 50 会减少发送的请求数量,但在无负载情况下,会使记录的延迟累计增加 50 毫秒。Apache Kafka 4.0 中该默认值从 0 改为 5,因为尽管 linger 值增大,但更大的批次通常能带来效率提升,从而使生产者延迟保持在相同或更低的水平。 |
buffer.memory |
33554432 | 生产者可用于缓冲待发送至服务器的记录的总内存字节数。如果记录的发送速度快于其被传递至服务器的速度,生产者将阻塞 max.block.ms 毫秒,之后将抛出异常并失败。此设置应大致对应生产者将使用的总内存,但并非硬性限制,因为生产者使用的内存并非全部用于缓冲。部分额外内存将用于压缩(如果启用了压缩)以及维护正在传输中的请求。 默认 32 M。 |
compression.type |
none | 生产者生成的所有数据的压缩类型。默认值为 none(即不进行压缩)。有效值为 none、gzip、snappy、lz4 或 zstd。压缩操作针对完整的数据批次进行,因此批处理的效率也会影响压缩率(批处理次数越多,压缩效果越好)。 |
acks |
all | 生产者要求领导者收到多少个确认后,才将请求视为已完成。这控制了所发送记录的持久性。允许使用以下设置: acks=0 如果设置为零,则生产者将完全不等待服务器的任何确认。记录将立即添加到套接字缓冲区中,并被视为已发送。在此情况下,无法保证服务器已收到该记录,且重试配置将不会生效(因为客户端通常无法得知任何失败情况)。每条记录返回的偏移量将始终设置为 -1。 acks=1 这意味着 leader 会将记录写入其本地日志,但在未等待所有 follower 完全确认的情况下便会做出响应。在这种情况下,如果 leader 在确认记录后立即发生故障,且此时 follower 尚未完成复制,则该记录将会丢失。 一般用于传输普通日志,允许丢个别数据。 acks=all 这意味着主节点将等待所有同步的副本都确认该记录。这保证了只要至少有一个同步的副本仍处于活动状态,该记录就不会丢失。这是目前可用的最强保证。这相当于 acks=-1 的设置。 一般用于传输和钱相关的数据,对可靠性要求比较高的场景。 请注意,要启用幂等性,此配置值必须设为“all”。如果设置了冲突的配置且未显式启用幂等性,则幂等性将被禁用。 |
retries |
2147483647 | 因瞬时错误导致请求失败时的重试次数。设置大于零的值将导致客户端重新发送任何因潜在瞬时错误而发送失败的记录。请求将重试此次数,直到成功、因非瞬时错误失败,或 delivery.timeout.ms 超时为止。请注意,此自动重试功能仅会在收到错误时重新发送相同的记录。将该值设为零将禁用此自动重试行为,此时瞬时错误将传递给应用程序进行处理。通常建议用户不设置此配置项,而是使用 delivery.timeout.ms 来控制重试行为。要启用幂等性,此配置值必须大于 0。如果设置了冲突的配置且未显式启用幂等性,则幂等性将被禁用。 在将 enable.idempotence 设置为 false 且 max.in.flight.requests.per.connection 设置为大于 1 的情况下允许重试,可能会改变记录的排序顺序。因为如果向单个分区发送两个批次,且第一个批次失败并被重试,而第二个批次成功,那么第二个批次中的记录可能会出现在前面。 |
delivery.timeout.ms |
120000 (2 minutes) | 调用 send() 返回后,报告成功或失败的时限上限。这限制了记录在发送前被延迟的总时间、等待代理确认的时间(如果需要确认),以及允许重试发送失败的时间。如果遇到不可恢复的错误、重试次数已用尽,或者记录被添加到已达到较早投递过期截止时间的批次中,生产者可能会在此配置时间之前报告记录发送失败。此配置的值应大于或等于 request.timeout.ms 和 linger.ms 的总和。 |
request.timeout.ms |
30000 (30 seconds) | 该配置控制客户端等待请求响应的最长时间。如果在超时结束前未收到响应,客户端将在必要时重新发送请求;若重试次数已用尽,则会将请求标记为失败。该值应大于 replica.lag.time.max.ms(一个代理配置项),以减少因生产者不必要的重试而导致消息重复的可能性。 |
enable.idempotence |
true | 当设置为“true”时,发布者将确保每个消息在流中仅写入一份。如果设置为“false”,则发布者因代理故障等原因进行的重试可能会在流中写入重试消息的重复副本。请注意,启用幂等性需要满足以下条件:max.in.flight.requests.per.connection 小于或等于 5(对于任何允许的值,消息顺序均需保持),重试次数大于 0,且确认模式必须为 ‘all’。 |
max.in.flight.requests.per.connection |
5 | 客户端在阻塞前,单个连接上发送的未确认请求的最大数量。请注意,如果此配置值大于 1,且 enable.idempotence 设置为 false,则在发送失败后,由于重试(即如果启用了重试),消息可能会发生重新排序;如果禁用了重试,或者 enable.idempotence 设置为 true,则消息顺序将得到保留。此外,启用幂等性要求此配置的值小于或等于 5,因为消息代理(broker)为每个生产者最多仅保留 5 个批次。如果该值大于 5,消息代理端可能会移除之前的批次。 |
transactional.id |
null | 用于事务性投递的 TransactionalId。这启用了跨越多个生产者会话的可靠性语义,因为它允许客户端确保在使用相同 TransactionalId 的事务完成之前,不会启动任何新事务。如果未提供 TransactionalId,则生产者仅限于幂等投递。如果配置了 TransactionalId,则默认启用 idempotence。默认情况下未配置 TransactionalId,这意味着无法使用事务。请注意,默认情况下,事务需要至少包含三个代理的集群,这是生产环境的推荐设置;在开发环境中,您可以通过调整代理设置 transaction.state.log.replication.factor 来更改此配置。 |
快速入门
Kafka 客户端通过网络与 Kafka broker 通信,以写入(或读取)事件。broker 接收到事件后,会以持久且容错的方式存储这些事件,存储时间长短完全由您决定,甚至可以永久保存。
运行控制台生产者客户端,向主题写入一些事件。默认情况下,您输入的每一行都会生成一个独立的事件并写入主题。
1 | 发送消息。开启 auto.create.topics.enable 以支持自动创建主题 |
您可以随时按 Ctrl+C 停止生产者客户端。
生产者消息发送流程
在消息发送的过程中,涉及到了两个线程——main线程和Sender线程。在main线程中创建了一个双端队列RecordAccumulator。main线程将消息发送给RecordAccumulator,Sender线程不断从RecordAccumulator中拉取消息发送到Kafka Broker。

异步发送API
普通异步发送
1 | import org.apache.kafka.clients.producer.KafkaProducer; |
带回调函数的异步发送
回调函数会在producer收到ack时调用,为异步调用,该方法有两个参数,分别是元数据信息(RecordMetadata)和异常信息(Exception),如果Exception为null,说明消息发送成功,如果Exception不为null,说明消息发送失败。
注意:消息发送失败会自动重试,不需要我们在回调函数中手动重试。
1 | import org.apache.kafka.clients.producer.*; |
同步发送API
只需在异步发送的基础上,再调用一下get()方法即可。
1 | import org.apache.kafka.clients.producer.KafkaProducer; |
生产者分区
分区的好处
1、便于合理使用存储资源,每个 partition 在一个 broker 上存储,可以把海量的数据按照分区切割成一块一块数据存储在多台 broker 上。合理控制分区的任务,可以实现负载均衡的效果。
2、提高并行度,生产者可以以分区为单位发送数据;消费者可以以分区为单位进行消费数据。

生产者发送消息的分区策略
默认的分区器
默认的分区器:DefaultPartitioner
分区原则:ProducerRecord

案例一
将数据发往指定partition的情况下,例如,将所有数据发往分区1中。
1 | import org.apache.kafka.clients.producer.*; |
案例二
没有指明partition值但有key的情况下,将key的hash值与topic的partition数进行取余得到partition值。
1 | import org.apache.kafka.clients.producer.*; |
自定义分区器
研发人员可以根据企业需求,自己重新实现分区器。
**需求:**例如我们实现一个分区器实现,发送过来的数据中如果包含Ablaze,就发往0号分区,不包含Ablaze,就发往1号分区。
实现:
1 | import org.apache.kafka.clients.producer.Partitioner; |
使用分区器的方法,在生产者的配置中添加分区器参数。
1 | import org.apache.kafka.clients.producer.*; |
生产经验
生产者如何提高吞吐量
提高 Kafka 生产者吞吐量相关参数:batch.size、linger.ms、buffer.memory、compression.type。
1 | import org.apache.kafka.clients.producer.KafkaProducer; |
发送可靠消息
生产者配置属性 acks=all 的场景分析:

消息去重
消息重复分析
acks=all 时,生产者发送消息,leader 收到消息且与 ISR 队列里的所有 follower 同步完成,在响应生产者的一瞬间 leader 挂了,导致 ack 失败。然后生产者会再选择一个 leader 重新发消息,此时消息重复(因为上次发送的消息已经同步完成)。虽然概率很低,但确实有可能发生。
消息传递语义
- 至少一次(At Least Once):
ACK级别设置为-1+分区副本大于等于2+ISR里应答的最小副本数量大于等于2。保证消息不丢失,但可能重复。 - 最多一次(At Most Once):
ACK级别设置为0。保证消息不重复,但可能丢失。 - 精确一次(Exactly Once):
幂等性+至少一次。保证消息既不重复也不丢失。
幂等性
幂等性是指无论 Producer 向 Broker 发送多少次相同的消息,Broker 端都只会持久化一条,保证消息不重复。
Kafka 实现幂等性的核心原理是引入了 PID(Producer ID) 和 Sequence Number(序列号) 机制。以下是其运作的具体步骤:
核心概念:
- PID:当开启幂等性(配置
enable.idempotence=true)后,每个 Producer 在初始化启动时,都会向 Broker 申请并被分配一个唯一的 PID。这个过程对用户是完全透明的。 - Sequence Number:Producer 发送的每一条消息(更准确地说是每一个消息批次 RecordBatch)都会被分配一个从 0 开始单调递增的序列号。这个序列号的作用域是
<PID, Topic, Partition>三元组。也就是说,针对同一个 Producer 的同一个 Topic 的同一个 Partition,序列号从 0 开始严格递增。
Broker 端去重逻辑:
Broker 接收到消息后,会在内存中为每个 <PID, Topic, Partition> 维护一个状态,记录其对应的最新已提交序列号(假设记录为 SN_broker)。当 Broker 收到新消息时(带有序列号 SN_new),会执行以下校验逻辑:
- 如果
SN_new == SN_broker + 1: 这是预期的正常情况,说明消息是连续的。Broker 正常接收并追加该消息,同时更新内存中的SN_broker。 - 如果
SN_new <= SN_broker: 这说明该序列号的消息已经被 Broker 成功接收并写入过了。这是典型的网络延迟导致 Producer 误以为失败而发起的重试。此时,Broker 会丢弃这条重复消息,但依然会向 Producer 返回 ACK (确认成功),让 Producer 停止重试。 - 如果
SN_new > SN_broker + 1: 这说明序列号出现了跳跃,意味着中间有消息丢失了(可能之前的消息发送失败且重试耗尽)。此时,Broker 会拒绝该消息,并抛出OutOfOrderSequenceException异常,通常会导致 Producer 进入致命错误状态。
幂等性的局限性(作用范围):
- 只能保证单分区 (Single Partition):幂等性的序列号是绑定在特定 Partition 上的。如果消息被路由到了不同的 Partition,幂等性无法生效。
- 只能保证单会话 (Single Session):PID 是 Producer 进程启动时动态分配的。**如果 Producer 应用崩溃重启,它会获得一个新的 PID。**对于 Broker 来说,这完全是一个新的生产者,之前的序列号状态失效,因此无法防范应用重启导致的重复发送。
如果你的业务有着更严格的一致性要求——比如要求 “即使 Producer 崩溃重启,也不能发送重复消息”,或者要求 “同时向多个 Partition 发送消息时,必须全部成功或全部失败”——那么仅靠 Kafka 的幂等性是无法满足的。这时,你需要配合使用 Kafka 的事务机制 (Transactions)。事务机制要求开发者为 Producer 指定一个全局唯一的、固定不变的 Transactional.id (TID)。Kafka 底层会将这个固定的 TID 与动态的 PID 绑定。这样一来,即使 Producer 发生重启,Kafka 也能通过 TID 认出这个“老客户端”,从而接续之前的防重状态;同时,事务还能保证跨多个 Partition 写入时的原子性。
开启幂等性 enable.idempotence=true 。
生产者事务
开启事务必须要开启幂等性。
事务原理:

Kafka的事务一共有如下 5 个API:
1 | // 1、初始化事务 |
单个Producer,使用事务保证消息的仅一次发送:
1 | import org.apache.kafka.clients.producer.KafkaProducer; |
消息有序
Topic 单分区:消息有序,但条件如下:
- 未开启幂等性:
max.in.flight.requests.per.connection需要设置为=1。 - 开启幂等性:
max.in.flight.requests.per.connection需要设置为<=5(见官方属性说明)。
Topic 多分区:每个分区消息有序,分区间消息无序。
- 如何做到多分区间消息有序呢?方案:同一个消费者拉取所有分区的数据,然后进行全排序,效率低,建议使用单分区。
Kafka Broker
扩展集群
https://kafka.apache.org/42/operations/basic-kafka-operations/#expanding-your-cluster