排查Redis内存泄漏与突增的四大核心策略

Redis是一个内存数据存储系统，因此内存问题会迅速显现。TTL处理中的一个小错误、一个过大的列表，或在没有足够空闲内存的主机上执行后台保存，都可能导致延迟、写入错误、逐出、交换，甚至操作系统杀死Redis进程。

第一个有用的习惯是停止将所有内存增长都称为泄漏。真正的Redis泄漏并不常见。大多数事件属于以下三种情况之一：真实数据增长、分配器碎片化，或持久化期间临时的写时复制开销。它们在仪表盘上看起来相似，但修复方法完全不同。

如果used_memory持续攀升，您的应用程序可能存储了超出预期的数据。如果used_memory稳定但used_memory_rss跳跃，请检查碎片化、fork的后台工作或操作系统。如果两者在流量高峰期间同时攀升，然后从未下降，请检查TTL、逐出策略和大键。

策略一：详细监控使用量和碎片指标

诊断任何内存问题的第一步是建立基线，并理解Redis如何报告内存使用情况。标准的INFO memory命令提供了关键指标，用于区分数据使用的内存和操作系统使用的内存。

诊断的关键指标

当发生内存突增时，立即查看INFO memory中的这些指标：

used_memory：Redis为数据和内部结构分配的内存。
used_memory_dataset：实际数据集使用的内存，不包括一些开销。
used_memory_rss：操作系统分配给Redis进程的常驻内存。
mem_fragmentation_ratio：RSS与已分配内存的粗略比较。将其视为线索，而非定论。

# 检查基本内存统计信息
redis-cli INFO memory

# 示例输出片段
# used_memory:1073741824 			# 1 GB 数据
# used_memory_rss:1509949440 		# 约 1.5 GB 在 RAM 中
# mem_fragmentation_ratio:1.40625 	# RSS 比 used_memory 高约 40%

解读碎片率

比率接近1.0通常是健康的。比率高于1.5值得调查，特别是如果RSS高到足以威胁主机。比率低于1.0并不自动证明发生了交换；它可能由测量边缘情况、共享内存记账或非常小的数据集引起。直接使用vmstat、top、sar或您的监控系统检查操作系统交换指标。

如果used_memory持平，但RSS在BGSAVE或BGREWRITEAOF期间飙升，写时复制是可能的原因。子进程正在写入持久化文件，而父进程继续处理写入操作。父进程更改的页面可能需要被复制，这会暂时增加内存压力。

策略二：实施稳健的逐出策略

无限制的增长是Redis中感知到的内存“泄漏”最常见的原因。如果实例用作缓存，它必须有一个由maxmemory指令强制执行的内存使用上限。

如果未设置maxmemory，Redis可能会持续分配内存，直到主机面临压力。在专用的Redis机器上，这可能导致内核杀死Redis。在容器中，容器运行时可能会更早地杀死它。

设置`maxmemory`和策略选择

在您的redis.conf或使用CONFIG SET指定最大内存限制：

# 设置最大内存为 4 GB。为Redis开销、fork的子进程、
# 操作系统页面缓存和其他进程预留空间。
CONFIG SET maxmemory 4gb

# 配置逐出策略
# allkeys-lru：从*整个*数据集中逐出最近最少使用的键
CONFIG SET maxmemory-policy allkeys-lru

策略名称	描述	使用场景
`noeviction`	默认。达到内存限制时，写入命令返回错误。	不允许数据丢失的数据库。
`allkeys-lru`	无论是否设置过期，逐出最近最少使用的键。	通用缓存。
`volatile-lru`	仅在设置了过期时间的键中逐出最近最少使用的键。	混合使用场景（持久化数据 + 缓存数据）。
`allkeys-random`	达到限制时随机逐出键。	简单的会话存储或访问模式不可预测的场景。

对于纯缓存，allkeys-lru或allkeys-lfu通常是一个合理的起点。对于混合Redis实例，其中只有部分键是可丢弃的，volatile-lru或其他volatile-*策略可能更安全，但前提是每个缓存键都设置了过期时间。危险的设置是使用noeviction、没有TTL纪律、并且在内存满之前没有警报的缓存。

策略三：诊断和修剪大键突增

有时问题不在于键的数量。而是一个键无边界地增长：一个从不修剪的用户feed列表、一个包含所有事件的有序集合、或一个用作会话字段转储的哈希。

使用 `redis-cli --bigkeys`

redis-cli --bigkeys 工具扫描键空间并按类型和元素数量报告大键。它不测量精确的字节大小，并且可能会给繁忙的生产实例增加负载，因此请谨慎运行，或尽可能在副本上运行。

# 运行大键分析
redis-cli --bigkeys

# 示例输出（识别出一个巨大的列表）
---------- Summary ----------
...
[5] Biggest list found 'user:1001:feed' with 859387 items

使用 `MEMORY USAGE` (Redis 4.0+)

要确定可疑键的精确字节大小，请使用 MEMORY USAGE 命令。这对于深度诊断至关重要。

# 检查特定键的内存使用量（以字节为单位）
redis-cli MEMORY USAGE user:1001:feed

# 输出: (例如) 84329014

如果您识别出大键，请审查写入路径。常见的修复方法包括使用 LTRIM 修剪列表、为临时结构设置过期时间、将非常大的哈希或有序集合拆分为更小的键分区，以及用分页访问（如 HSCAN、SSCAN 或 ZSCAN）替换“加载所有内容”的读取。真正的修复通常在于应用程序行为，而不是Redis的配置旋钮。

策略四：管理内存碎片和写时复制

高碎片率或RSS突然飙升常被误认为是数据泄漏。这些问题与内存分配、对象变更和基于fork的持久化有关。

主动碎片整理

主动碎片整理可以帮助Redis在服务器持续运行时回收浪费的分配器空间。它对于创建和删除许多不同大小值的工作负载很有用。它也会消耗CPU，因此请有意地启用它，并在更改后监控延迟。

在 redis.conf 中启用并配置它：

# 启用主动碎片整理
activedefrag yes

# 下限和上限是百分比风格的配置值。
active-defrag-threshold-lower 10
active-defrag-threshold-upper 100

减少写时复制开销

当Redis fork一个子进程用于RDB快照或AOF重写时，操作系统使用CoW优化。如果父进程在子进程活动期间执行大量写入操作，每个被写入的页面都必须被复制，这会导致used_memory_rss暂时飙升。这种飙升很容易使Redis内存占用翻倍。

缓解步骤：

安排持久化在低流量时段进行。
在maxmemory之上预留内存空间，用于分配器开销、客户端、复制缓冲区和fork的子进程。正确的余量取决于数据集大小和写入速率；在真实的BGSAVE或BGREWRITEAOF期间测量它。
避免重叠的后台繁重工作，如快照、AOF重写、备份和主机级扫描。
减少持久化期间的写入变更，如果批处理作业导致写时复制增长。

不要将分配器环境变量作为第一反应。Redis通常使用jemalloc构建，未经测试就更改分配器行为可能会产生新的延迟或内存行为。如果在主动碎片整理和工作负载修复后碎片仍然严重，请在接触生产环境之前，先在预发布实例或副本上测试更改。

一个实用的事件处理流程

当内存跳变时，在重启Redis之前收集事实。重启可能会隐藏证据。

运行：

redis-cli INFO memory
redis-cli INFO persistence
redis-cli DBSIZE
redis-cli --bigkeys

然后询问发生了什么变化。部署是否移除了TTL？队列消费者是否停止，导致列表增长？新的报表作业是否对巨大的哈希运行了HGETALL？AOF重写是否在流量高峰期启动？容器内存限制是否改变？

最好的Redis内存修复方法通常很简单：设置一个现实的maxmemory，选择与工作负载匹配的逐出策略，为每个缓存键设置TTL，分解无界结构，确保持久化运行时不会耗尽内存空间，并在实例达到极限之前对内存趋势发出警报。