扩展Kafka：实现高吞吐量与低延迟的策略

扩展Kafka意味着在不失控的情况下增加吞吐量，同时控制延迟、消费者滞后或代理负载。大多数扩展工作归结为分区、生产者批处理、消费者并行性、代理资源和复制设置。

没有单一的“让Kafka更快”的开关。你需要先找到瓶颈，然后调整实际限制集群的管道部分。

理解Kafka的可扩展性支柱

Kafka的可扩展性建立在几个核心概念之上：

在Kafka中实现高吞吐量主要围绕最大化并行性和优化数据流。

分区的数量和设计对吞吐量至关重要。更多的分区通常意味着更多的并行性，但存在收益递减和潜在缺点。

当一个主题饱和时增加分区数量。 更多的分区可以将写入和读取负载分散到更多的代理和消费者上。
选择避免热点分区的键。 像tenant_id这样的键在租户相似时可能没问题，但一个巨大的租户可能会使一个分区过载。在这种情况下，你可能需要一个复合键或不同的主题设计。
不要随意过度分区。 太多的分区会增加元数据、文件句柄、领导者选举工作和消费者再平衡时间。

例如，如果一个orders主题仅按region键控，并且80%的流量是us-east，那么一个分区可能会变热。像customer_id或region.customer_id这样的键可以更均匀地分布流量，同时保留应用程序所需的排序。

优化生产者设置可以显著提高写入吞吐量。

acks： acks=all在与合适的min.insync.replicas配合使用时提供最强的持久性，但会增加延迟。acks=1更快，因为只有领导者确认写入。acks=0最快，但没有代理确认。
batch.size和linger.ms： 更大的批次减少请求开销。小的linger.ms给生产者时间填充批次，代价是增加等待时间。
压缩： lz4、snappy或zstd可以减少网络和磁盘压力。压缩使用CPU，因此请使用实际消息形状进行测试。
max.request.size： 仅当合法批次或记录需要时才提高此值。还要检查代理端限制，如message.max.bytes和主题级别的max.message.bytes。

代理设置直接影响它们处理数据的效率。

在掌握指标的情况下更改这些设置。如果磁盘饱和，更多的线程不会修复集群。如果网络请求队列在CPU可用时增长，线程调整可能会有所帮助。

Kafka中的低延迟通常意味着最小化从生产者到消费者的消息传递延迟。

消费者是传递管道的最后一步。

生产者、代理和消费者之间的网络延迟是一个重要因素。

尽可能将生产者、代理和延迟敏感的消费者放在一起。跨区域的Kafka流量会增加延迟和故障模式。如果你需要多区域交付，将其视为复制或数据移动设计问题，而不是在远距离网络上拉伸一个低延迟集群。

低延迟依赖于稳定的代理。监控CPU、磁盘I/O等待、页面缓存行为、网络饱和、请求处理程序空闲比率和未完全复制的分区。如果代理过载，客户端调整只能暂时掩盖症状。

虽然复制主要用于容错，但它会影响性能和扩展。

持续监控对于识别瓶颈和调整性能至关重要。

跟踪代理CPU、磁盘I/O、网络吞吐量、请求延迟、分区吞吐量、生产错误率、未完全复制的分区和消费者滞后。Kafka通过JMX公开了许多这些指标，团队通常使用Prometheus和Grafana或Kafka特定平台收集它们。

一次只做一个有意义的更改。如果你增加分区，测量再平衡影响和热分区行为。如果你更改生产者批处理，测量延迟百分位数和错误率，而不仅仅是平均吞吐量。

从瓶颈向外扩展Kafka。从分区分布和客户端批处理开始，然后检查消费者滞后、代理磁盘和网络压力以及复制健康。一个良好扩展的Kafka集群不仅仅是更大；它拥有平衡的分区、可预测的客户端行为以及足够的故障余量。