Como Monitorar sua Instância RabbitMQ para Desempenho Ideal

O RabbitMQ fica entre seus produtores e consumidores, então pequenos problemas no broker podem rapidamente se tornar problemas na aplicação. Se a profundidade da fila cresce, as confirmações param, ou um nó atinge um alarme de memória ou disco, seus usuários podem ver trabalho atrasado muito antes do broker falhar completamente.

Um bom monitoramento do RabbitMQ rastreia o fluxo de mensagens, a saúde do consumidor, os recursos do nó e o estado do cluster. Este guia aborda o plugin de gerenciamento integrado, Prometheus e Grafana, e comandos rabbitmqctl que você pode usar durante um incidente.

Métricas Essenciais do RabbitMQ para Rastrear

Monitorar o RabbitMQ envolve rastrear três categorias principais de métricas: Saúde da Fila, Atividade de Conexão/Canal e Recursos do Sistema.

Métricas de Saúde da Fila

As métricas de fila são os indicadores mais críticos da eficiência do processamento de mensagens e do backlog potencial:

Taxas de Mensagens (Publicar/Entregar/Confirmar): Rastreia mensagens entrando, saindo e sendo confirmadas pelos consumidores. Baixas taxas de entrega combinadas com altas taxas de publicação geralmente indicam consumidores lentos ou gargalos.
Tamanho da Fila (messages_ready): O número total de mensagens aguardando para serem entregues. Um tamanho crescendo rapidamente indica que os consumidores não conseguem acompanhar a carga do produtor.
Mensagens Não Confirmadas (messages_unacknowledged): Mensagens que foram entregues mas ainda aguardam confirmação. Uma contagem alta aqui pode significar falhas do consumidor, longos tempos de processamento ou consumidores travados.
Número de Consumidores: O número de consumidores ativos conectados à fila. Uma fila com alta carga, mas zero consumidores, é um ponto definitivo de falha.
Uso de fila durável e mensagem persistente: Confirme que filas e mensagens que devem sobreviver a reinicializações do broker estão configuradas para durabilidade. Durabilidade é uma configuração de design, enquanto o comportamento de gravação em disco também depende de confirmações do editor e da saúde do armazenamento.

Atividade de Conexão e Canal

Essas métricas ajudam a identificar vazamentos ou limpeza inadequada de recursos:

Número de Conexões: Total de conexões TCP abertas. Muitas conexões podem sobrecarregar o SO subjacente ou a VM Erlang.
Número de Canais: Canais ativos dentro das conexões. Canais são mais baratos que conexões, mas números excessivos ainda indicam tensão nos recursos.
Estado da Conexão do Cliente: Procure por conexões presas em estados transitórios ou altas taxas de rotatividade de conexão.

Recursos do Sistema e da VM Erlang

O RabbitMQ é executado na VM Erlang, tornando seu uso de recursos interno distinto dos processos padrão do SO:

Uso de Memória: Memória total consumida pela VM Erlang. O RabbitMQ usa um sistema de limite; se a memória atingir o limite máximo, ele limita os produtores.
Processos Erlang: O número total de processos leves em execução dentro da VM. Uma contagem de processos descontrolada indica um possível vazamento de recursos ou loop infinito dentro de um plugin.
Descritores de Arquivo: Monitora a disponibilidade de manipuladores de arquivo, cruciais para conexões, filas e armazenamento persistente.
Limite de Disco Livre: O RabbitMQ levanta um alarme de disco e bloqueia os editores quando o espaço livre em disco cai abaixo do limite configurado. O padrão tem sido comumente baixo para pequenos sistemas de teste, então os nós de produção devem definir e monitorar um valor explícito.

Monitoramento com o Plugin de Gerenciamento do RabbitMQ

O Plugin de Gerenciamento do RabbitMQ é a ferramenta integrada principal para visualização e verificações operacionais em tempo real. Ele fornece uma interface web e uma API HTTP poderosa.

Habilitando o Plugin

O plugin é tipicamente instalado junto com o RabbitMQ, mas deve ser explicitamente habilitado:

sudo rabbitmq-plugins enable rabbitmq_management

Uma vez habilitado, a interface web geralmente é acessível na porta 15672 (ex.: http://localhost:15672).

Visualizações Principais na Interface Web

Página de Visão Geral: Fornece estatísticas de alto nível, incluindo taxas de fluxo de mensagens (publicação/entrega global), uso de memória e contagens de conexão. Este é seu painel de saúde inicial.
Aba Filas: Oferece métricas detalhadas para cada fila, incluindo taxas de mensagens instantâneas e agregadas, utilização do consumidor e tamanho da fila. Use o recurso de classificação para encontrar rapidamente as filas mais longas ou mais ocupadas.
Abas Conexões e Canais: Permite a inspeção de conexões individuais do cliente, mostrando seu status, detalhes do protocolo e uso de largura de banda.

Usando a API HTTP

Para verificações automatizadas e integração em painéis personalizados, o Plugin de Gerenciamento expõe uma API HTTP extensa. Isso é ideal para scripts de verificações de saúde ou integração com sistemas de monitoramento proprietários.

Exemplo: Verificando a Saúde do Cluster

# Verifica estatísticas básicas de visão geral
curl -u usuario:senha http://localhost:15672/api/overview

# Obtém métricas para uma fila específica (ex.: 'task_queue')
curl -u usuario:senha http://localhost:15672/api/queues/%2F/task_queue

Dica: A API HTTP retorna dados JSON detalhados, permitindo que você filtre e alerte sobre limites numéricos específicos, como tamanho da fila ou contagens de mensagens não confirmadas.

Monitoramento Avançado com Prometheus e Grafana

Para ambientes de produção, integrar as métricas do RabbitMQ com sistemas padrão de monitoramento de séries temporais como Prometheus (para coleta) e Grafana (para visualização) é a melhor prática. O RabbitMQ fornece um plugin dedicado para isso.

1. Habilitando o Plugin Prometheus

Este plugin expõe métricas no formato que o Prometheus espera, geralmente na porta 15692 (ou 15672/metrics se estiver usando a porta de gerenciamento).

sudo rabbitmq-plugins enable rabbitmq_prometheus

2. Configurando a Coleta do Prometheus

Uma vez habilitado, você deve configurar o Prometheus para coletar o endpoint. Adicione um trabalho semelhante ao seguinte à sua configuração prometheus.yml:

scrape_configs:
  - job_name: 'rabbitmq'
    metrics_path: /metrics
    # O plugin rabbitmq_prometheus expõe /metrics na porta 15692 por padrão.
    static_configs:
      - targets: ['rabbitmq-host:15692']

3. Visualização no Grafana

O Grafana usa os dados coletados pelo Prometheus para criar painéis poderosos. Os painéis principais devem incluir:

Backlog da Fila: Gráfico de rabbitmq_queue_messages_ready e rabbitmq_queue_messages_unacked ao longo do tempo.
Taxas de Mensagens: Acompanhe as taxas de publicação, entrega e confirmação para ver se os consumidores estão acompanhando.
Utilização de Recursos do Nó: Acompanhe memória, descritores de arquivo, uso de processos Erlang e alarmes de disco.

Exemplo de Métrica Prometheus para Tamanho da Fila:

A métrica padrão para tamanho da fila exposta pelo plugin é:

rabbitmq_queue_messages_ready{queue="my_critical_queue", vhost="/"}

Melhor Prática de Monitoramento: Alertas

Configure alertas no Prometheus Alertmanager ou Grafana com base em limites claros:

Sinal	Exemplo de Alerta	Ação Recomendada
Mensagens prontas	Backlog da fila continua crescendo por 5 minutos	Verifique erros do consumidor, adicione consumidores se o aplicativo puder processar com segurança, ou desacelere os produtores.
Mensagens não confirmadas	Contagem não confirmada permanece alta enquanto a taxa de confirmação é baixa	Inspecione latência do consumidor, falhas, configurações de pré-busca e dependências downstream.
Alarme de disco	Um nó relata um alarme de disco livre	Libere espaço, expanda o armazenamento ou mova os dados antes que os produtores permaneçam bloqueados.
Alarme de memória	Um nó relata um alarme de memória	Encontre filas grandes, contagens altas de conexão/canal ou plugins pesados em memória e ajuste a capacidade.

Diagnósticos CLI com `rabbitmqctl`

O utilitário de linha de comando rabbitmqctl é essencial para inspeção rápida e direta e verificações operacionais, especialmente quando a interface web ou sistemas de monitoramento externos estão indisponíveis.

Verificando o Status do Nó

Este comando fornece uma verificação rápida de saúde, mostrando os aplicativos em execução, uso de memória, contagens de descritores de arquivo e detalhes de conexão.

rabbitmqctl status

Listando Filas Críticas

Você pode usar list_queues para identificar rapidamente gargalos, focando nos principais indicadores de desempenho (KPIs):

# Lista filas mostrando o nome, total de mensagens, mensagens prontas e número de consumidores
rabbitmqctl list_queues name messages messages_ready consumers

# Para um nó ocupado, envie a saída através de sort localmente.
rabbitmqctl list_queues name messages messages_ready consumers | sort -k2 -nr | head

Analisando Conexões e Canais

Para solucionar problemas de comportamento específico do cliente, você pode listar conexões e canais, filtrando por usuário ou endereço de rede:

# Lista conexões ativas, mostrando usuário e IP de origem
rabbitmqctl list_connections user peer_host

# Lista canais ativos e seu status de fluxo de mensagens
rabbitmqctl list_channels connection_details consumer_count messages_unacknowledged

Em clusters grandes, comandos de listagem amplos podem adicionar carga a um nó já estressado. Prefira verificações direcionadas de fila, vhost ou conexão durante um incidente.

Melhores Práticas para Manter o Desempenho

Monitore a Capacidade do Consumidor: Observe a capacidade do consumidor na interface de gerenciamento e nas métricas exportadas. Um valor baixo geralmente significa que as filas podem entregar mais rápido do que os consumidores podem aceitar trabalho, o que aponta para consumidores lentos, pré-busca baixa ou latência downstream.
Lide com o Controle de Fluxo do Produtor: O RabbitMQ usa alarmes de memória e disco do Erlang para aplicar contrapressão. Monitore esses alarmes de perto, pois eles indicam que o nó está atingindo os limites de capacidade e os produtores estão sendo limitados.
Integração de Logs: Integre os logs do RabbitMQ em um sistema de logging centralizado (pilha ELK, Splunk, etc.). Procure por avisos recorrentes relacionados a falhas de rede, tentativas de autenticação falhadas ou sincronização lenta de memória.
Verificações de Saúde do Cluster: Se você executa um cluster, monitore a associação de nós, partições de rede, saúde das filas de quorum e estado de sincronização. rabbitmqctl cluster_status é uma verificação inicial útil quando os nós discordam sobre a associação ao cluster.

Conclusão Principal

Use a interface de gerenciamento para inspeção rápida, Prometheus e Grafana para tendências e alertas, e rabbitmqctl para diagnósticos focados quando algo já está errado. Comece alertas sobre backlogs crescentes, mensagens não confirmadas presas, alarmes de disco, alarmes de memória e saúde do cluster; esses sinais geralmente indicam problemas antes que os aplicativos atinjam o tempo limite.