Kafka 数据保留：理解和管理您的事件流

Kafka 是一种分布式事件流处理平台，以其高吞吐量、容错性和可扩展性而闻名。其核心是将所有传入数据视为不可变的事件日志，并持续追加新消息。然而，这种仅追加的特性引出了一个关键问题：这些数据应该保留多久？本文将深入探讨 Kafka 的数据保留策略，解释决定您的宝贵事件流存储时长以及如何有效管理它们以优化存储、性能和合规性的关键机制。

理解并正确配置数据保留对于任何 Kafka 部署都至关重要。不当的设置可能导致磁盘空间迅速耗尽、性能下降，或者相反，过早的数据丢失会影响下游消费者、分析或合规性要求。我们将探讨 Kafka 用于数据保留的主要策略——基于时间和基于大小——并提供有关如何配置和监控这些设置的实用指南，以确保您的 Kafka 集群高效可靠地运行。

Kafka 中数据保留的重要性

数据保留不仅仅是一个技术设置；它是一个对您的整个数据生态系统产生重大影响的战略决策。有效管理它需要平衡几个关键因素：

存储成本：无限期地存储大量历史数据可能会变得极其昂贵，尤其是在按存储付费的云环境中。高效的保留策略确保您只保留真正需要的数据。
性能和稳定性：虽然 Kafka 是为扩展而设计的，但过大的日志文件会影响代理的启动时间、故障后的恢复过程以及整体系统稳定性。适当的保留有助于维持可管理的日志大小。
合规性与治理：监管要求（例如 GDPR、HIPAA）通常规定必须保留某些类型的数据多长时间，或者相反，必须多快地清除它们。Kafka 的保留策略是满足这些义务的关键工具。
消费者需求：下游应用程序、数据仓库或分析工具可能需要访问历史数据以进行重新处理、错误恢复或批量分析。保留设置必须与您的消费者预期的最大重新处理窗口保持一致。

Kafka 的日志管理基础

Kafka 将消息存储在主题 (topics) 中，这些主题逻辑上被划分为分区 (partitions)。每个分区是一系列有序的、不可变的消息，类似于提交日志。新消息总是追加到分区日志的末尾。物理上，每个分区的日志被分解为日志段 (log segments)——代理磁盘上的文件。当日志段达到一定大小或年龄时，Kafka 会将其“滚动”，为传入消息创建一个新的活动段，并将旧段标记为已关闭。数据保留策略主要通过删除这些较旧的、已关闭的日志段来发挥作用。

Kafka 提供了两种主要的数据保留策略：

基于时间的保留：删除超过指定时长的旧消息。
基于大小的保留：当分区总大小超过定义的限制时，删除最旧的日志段。

这些策略是按分区应用的。当两者都配置时，首先触发删除的保留策略将优先生效。

基于时间的数据保留 (`log.retention.ms`)

基于时间的保留是最常用的策略。它规定任何超过指定时长的旧消息都将被删除。这确保了历史数据不会无限制地积累。

配置参数：

log.retention.ms：此代理级别属性定义了所有未覆盖它的主题的默认保留期（以毫秒为单位）。默认值为 604800000 毫秒（7 天）。
retention.ms：此主题级别属性允许您为特定主题覆盖代理级别的默认设置。它也以毫秒为单位指定保留期。

工作原理：

Kafka 代理会定期检查每个分区内的日志段。如果一个段内的所有消息都比 retention.ms（或 log.retention.ms）阈值旧，则整个段文件将从磁盘中删除。

实际考虑：

消费者延迟：确保保留期对于所有消费者处理消息来说足够长。如果消费者落后太多，它可能会丢失在被读取之前就被删除的数据。
恢复窗口：在应用程序错误或新消费者部署的情况下，您需要回溯多久来重新处理数据？
开发与生产：开发环境可能使用较短的保留期（例如，24 小时）来节省资源，而生产环境可能需要几天或几周。

示例：将主题设置为保留数据 3 天

要将一个名为 my-important-topic 的主题配置为保留数据 3 天（72 小时），您将使用 kafka-configs.sh 工具：

# 计算 3 天的毫秒数：3 * 24 * 60 * 60 * 1000 = 259200000 ms
kafka-configs.sh --bootstrap-server localhost:9092 --entity-type topics --entity-name my-important-topic --alter --add-config retention.ms=259200000

# 验证设置
kafka-configs.sh --bootstrap-server localhost:9092 --entity-type topics --entity-name my-important-topic --describe

基于大小的数据保留 (`log.retention.bytes`)

基于大小的保留可确保分区的日志在磁盘上不会超过某个总大小。当达到此限制时，Kafka 会删除最旧的日志段，直到总大小低于阈值。

配置参数：

log.retention.bytes：此代理级别属性定义了分区日志的默认最大大小（以字节为单位）。默认值为 -1，表示默认不应用大小限制（仅时间保留生效）。
retention.bytes：此主题级别属性允许您为特定主题覆盖代理级别的默认设置，指定单个分区日志的最大大小（以字节为单位）。

工作原理：

与基于时间的保留类似，Kafka 会定期检查每个分区日志的总大小。如果总大小超过 retention.bytes（或 log.retention.bytes），则会删除最旧的日志段，直到大小在配置的限制范围内。

实际考虑：

磁盘容量：当磁盘空间有限时，这一点至关重要。它保证了一个主题不会填满您的磁盘，无论消息吞吐量如何。
消息吞吐量波动：如果您的消息生产速率波动，基于大小的保留在高峰时可能会更快地删除数据，这可能会影响需要一致回看窗口的消费者。
每个分区的限制：请记住，retention.bytes 是每个分区适用的。因此，一个有 10 个分区且 retention.bytes=1GB 的主题总共可以存储高达 10GB 的数据。

示例：将主题设置为每个分区最多保留 1 GB

要将一个名为 high-volume-logs 的主题配置为每个分区最多保留 1 GB（1,073,741,824 字节）：

# 计算 1 GB 的字节数：1 * 1024 * 1024 * 1024 = 1073741824 bytes
kafka-configs.sh --bootstrap-server localhost:9092 --entity-type topics --entity-name high-volume-logs --alter --add-config retention.bytes=1073741824

# 验证设置
kafka-configs.sh --bootstrap-server localhost:9092 --entity-type topics --entity-name high-volume-logs --describe

在 Kafka 中配置数据保留

保留设置可以在代理级别（所有主题的默认值）进行配置，也可以在主题级别进行覆盖以进行精细控制。

代理级别配置

要为集群中的所有主题设置默认的保留策略，请修改每个 Kafka 代理上的 server.properties 文件：

# 所有主题的默认基于时间的保留：7 天
log.retention.ms=604800000

# 所有主题的默认基于大小的保留：无限制 (-1)
# 如果您想要全局大小限制，请取消注释并设置一个值
# log.retention.bytes=10737418240 # 示例：每个分区 10GB

# Kafka 检查要删除的日志段的频率（默认：5 分钟）
log.retention.check.interval.ms=300000

修改 server.properties 后，必须重启 Kafka 代理才能使更改生效。请谨慎使用代理级别的 log.retention.bytes；它适用于每个分区，在许多主题和分区之间加起来会很快。

主题级别覆盖

主题级别的配置优先于代理级别的默认设置。这是管理保留的首选方法，因为不同的主题通常具有不同的数据生命周期要求。

为新主题设置保留策略：

kafka-topics.sh --bootstrap-server localhost:9092 --create --topic my-new-topic \n    --partitions 3 --replication-factor 3 \n    --config retention.ms=172800000 `# 2 days` \n    --config retention.bytes=536870912 `# 每个分区 512 MB`

修改现有主题的保留策略：

# 将时间保留更改为 5 天
kafka-configs.sh --bootstrap-server localhost:9092 --entity-type topics --entity-name my-existing-topic --alter --add-config retention.ms=432000000

# 将大小保留更改为 2 GB
kafka-configs.sh --bootstrap-server localhost:9092 --entity-type topics --entity-name my-existing-topic --alter --add-config retention.bytes=2147483648

# 要删除主题级别的覆盖并恢复到代理默认值：
kafka-configs.sh --bootstrap-server localhost:9092 --entity-type topics --entity-name my-existing-topic --alter --delete-config retention.ms

描述主题配置：

要查看主题的当前配置，包括保留设置：

kafka-configs.sh --bootstrap-server localhost:9092 --entity-type topics --entity-name my-existing-topic --describe

数据保留与日志压缩 (`log.cleanup.policy`) 的区别

区分数据保留（删除）和日志压缩很重要。Kafka 的 log.cleanup.policy 决定了旧日志段如何处理：

delete（默认）：这是我们讨论过的保留策略，其中整个日志段根据时间和大小限制被删除。
compact：此策略保留每个消息键的最新消息。它适用于代表变更日志或当前状态的主题（例如，数据库变更日志、用户配置文件）。通过压缩，旧的消息版本对于同一个键最终会被删除，但每个键的最后一个值永远不会根据年龄或总日志大小被删除（除非使用 retention.ms 专门为墓碑配置）。

虽然本文重点关注 delete 策略，但了解 compact 作为不同用例的替代策略至关重要。

最佳实践与注意事项

了解您的消费者：在设置保留期之前，请分析您的下游应用程序需要访问数据多长时间。考虑它们的处理速度、停机可能性和重新处理需求。
监控磁盘使用情况：主动监控 Kafka 代理上的磁盘利用率。如果磁盘的填充速度快于预期，请检查您的保留策略和消息吞吐量。
从合理的默认值开始：从保守的保留期（例如，7 天）开始，并根据观察和需求进行调整。延长保留期比恢复丢失的数据更容易。
主题级别配置：始终优先在主题级别设置保留策略。这提供了灵活性，并防止对其他主题产生意外后果。
计算所需存储：估算您的数据摄取率，并乘以您期望的保留期（对于基于时间的）或每个分区的期望日志大小（对于基于大小的），以确保您拥有足够的磁盘容量。
log.retention.check.interval.ms：此设置控制 Kafka 检查要删除的日志段的频率。较小的值意味着更频繁的检查，但也需要更多的 CPU 开销。默认的 5 分钟通常足够了。
充分测试：在将保留更改应用于生产环境之前，务必在暂存环境中进行测试，尤其是减少保留期时。

结论

Kafka 的数据保留策略是管理事件流生命周期的强大且必不可少的机制。通过在代理和主题级别理解并有效配置 retention.ms（基于时间）和 retention.bytes（基于大小），您可以精确控制集群的存储占用空间、性能和合规性态势。请记住，数据保留不是一项“设置好就不用管”的任务；随着数据量、消费者需求和业务要求的不断发展，它需要持续的监控和调整。掌握这些概念可确保您的 Kafka 部署保持健壮、经济高效，并符合您的组织目标。

Kafka 数据保留：理解和管理您的事件流

Kafka 中数据保留的重要性

Kafka 的日志管理基础

基于时间的数据保留 (log.retention.ms)

配置参数：

工作原理：

实际考虑：

示例：将主题设置为保留数据 3 天

基于大小的数据保留 (log.retention.bytes)

配置参数：

工作原理：

实际考虑：

示例：将主题设置为每个分区最多保留 1 GB

在 Kafka 中配置数据保留

代理级别配置

主题级别覆盖

为新主题设置保留策略：

修改现有主题的保留策略：

描述主题配置：

数据保留与日志压缩 (log.cleanup.policy) 的区别

最佳实践与注意事项

结论

基于时间的数据保留 (`log.retention.ms`)

基于大小的数据保留 (`log.retention.bytes`)

数据保留与日志压缩 (`log.cleanup.policy`) 的区别