1. 介绍

原文来自linkedin的一篇PPTproducer-performance-tuning-for-apache-kafka。

2. 本文的一些前提

讨论的kafka版本为0.10.0
没有broker端的再压缩
消息都有8字节的时间戳介绍信息

3. 优化目标

给定一个要发送的数据集，在满足持久性、有序性的前提下优化以下两点：

吞吐量
延迟

优化专注于优化平均性能，这样对所有的producer都有效。

4. kafka producer原理回顾

4.1 生产者的关键配置

batch.size：基于大小的batching策略
linger.ms：基于时间的batching策略
compression.type：压缩的速度上lz4=snappy<gzip。
max.in.flight.requests.per.connection (affects ordering，设置为1可以保证有序性，但是发送性能会受影响。不为1的时候，如果发生消息重发则会乱序)
acks (affects durability)

PS：更大的批次，意味着更好的压缩率、更高的吞吐量。但是负面影响，就是延迟会高些。

4.2 生产者发送原理

这个之前在kafka生产者原理详解一文中做了一些分析。现在来看看kafka的 committer如何来分析的发送者原理的。其分析相对更加简明扼要。

发送者发送消息的过程简单概括为：

序列化

根据topic的元信息对数据进行分区
分区数据经过压缩器处理后放入batch，产生M和CB。分区数据按照batch在Record Accumulator里面组织(used和callback)。一个batch对象本身会占用一些空间，图上的used和callbacks。

假设现在Record Accumulator中已经包含了如下的数据：

当一个batch准备完毕后，用户线程就可以去执行具体的发送操作了。当满足以下条件之一时，我们认为一个batch是已经“准备完毕的”：

batch.size达到了
linger.ms时间达到了
发现同一个broker的其他batch已经完毕了
flush()和close()方法被调用

用户线程获取batch的过程如下：

从batch队列中轮询获取batch
将batch根据leader broker来分组
将分完组的batches发送给broker
如果max.in.flight.requests.per.connection>1则在管道中排队

PS：接下来的说明，都假设max.in.flight.requests.per.connection=1

5. 生产者调优

5.1 调优工具

生产者调优，主要可以利用kafka-producer-perf-test.sh(org.apache.kafka.tools.ProducerPerformance)。通过测试不同的配置来对比发送效率。

使用方法例子：

./kafka-producer-perf-test.sh --num-records 1000000 --record-size 1000 --topic becket_test_3_replicas_1_partition --throughput 1000000 --producer-props bootstrap.servers=192.168.1.22:9092 max.in.flight.requests.per.connection=1 batch.size=100000 compression.type=lz4
PS: kafka 0.8的版本还支持thread-num等选项，现在0.10.1中还没有，不过已经有issue在解决了。相信马上会有了。详情见：

KAFKA-3554

关于第三点，是以前没有的特性。这个对生产者调优十分重要。使用ProducerPerformance的时候，打印的度量信息有:

Select_Rate_Avg (The rate that the sender thread runs to check if it can send some messages)
Request_Rate_Avg
Request_Latency_Avg (Not including the callback execution time)
Request_Size_Avg (After compression)
Batch_Size_Avg (After compression)
Records_Per_Request_Avg
Record_Queue_Time_Avg
Compression_Rate_Avg

PS：以上度量信息，需要至少1分钟运行时间才能保证稳定。

使用例子：

./kafka-producer-perf-test.sh --num-records 1000000 --record-size 1000 --topic becket_test_3_replicas_4_partition --throughput 100000 --num-threads 1 --value-bound 50000 --producer-props bootstrap.servers=localhost:9092 compression.type=gzip max.in.flight.requests.per.connection=1