Guia de Estratégias de Escalonamento de Cluster Elasticsearch para Crescimento

O escalonamento do cluster Elasticsearch se torna urgente quando as pesquisas ficam lentas, as filas de indexação acumulam ou os discos começam a encher mais rápido que o esperado. À medida que os volumes de dados e as cargas de consulta crescem, você precisa saber se deve adicionar recursos aos nós existentes, adicionar mais nós, alterar a estratégia de shards ou redesenhar índices ativos.

Este guia aborda escalonamento vertical e horizontal, funções de nós, dimensionamento de shards e etapas práticas para expandir um cluster sem adivinhação.

Compreendendo os Fundamentos do Escalonamento Elasticsearch

Escalar um cluster Elasticsearch envolve principalmente duas estratégias: Escalonamento Vertical (escalar para cima) e Escalonamento Horizontal (escalar para fora). A estratégia ideal geralmente envolve um equilíbrio cuidadoso de ambas, ditado pelas características da sua carga de trabalho.

Escalonamento Vertical (Escalar para Cima)

O escalonamento vertical envolve aumentar os recursos dos nós existentes. Esta é a abordagem mais simples, mas atinge limites físicos rapidamente.

Quando usar Escalonamento Vertical:

Quando a latência é a principal preocupação e você precisa de respostas de consulta mais rápidas do conjunto de dados existente.
Para pressão de curto prazo, onde adicionar e rebalancear novos nós levaria mais tempo do que o alívio necessário.

Principais Atualizações de Recursos:

RAM (Memória): O Elasticsearch precisa de heap JVM e um grande cache do sistema de arquivos do SO. Um ponto de partida comum é definir o heap perto de 50% da RAM do sistema, mantendo-se abaixo do limite do ponteiro de objeto comum comprimido, geralmente em torno de 26-32 GB, dependendo da JVM.
CPU: Necessário para agregações complexas, indexação pesada e alta concorrência de consultas.
Armazenamento (I/O de Disco): SSDs ou unidades NVMe mais rápidos melhoram significativamente a taxa de transferência de indexação e a velocidade de pesquisa, especialmente para cargas de trabalho pesadas de I/O.

Aviso sobre Escalonamento Vertical: Heaps JVM muito grandes podem perder os benefícios do ponteiro de objeto comum comprimido e podem sofrer pausas mais longas de coleta de lixo. RAM extra ainda é útil para o cache do sistema de arquivos, mas aumentar o tamanho do heap não é um plano de escalonamento de longo prazo.

Escalonamento Horizontal (Escalar para Fora)

O escalonamento horizontal envolve adicionar mais nós ao cluster. Isso distribui os dados e a carga de consulta por mais máquinas, oferecendo escalabilidade quase linear e alta disponibilidade.

Quando usar Escalonamento Horizontal:

Quando o volume de dados excede a capacidade dos nós existentes.
Quando você precisa melhorar a taxa de transferência geral de indexação ou a concorrência de consultas.
Como estratégia principal para crescimento sustentável de longo prazo.

O escalonamento horizontal é alcançado adicionando novos nós de dados. Nós de coordenação também podem ser adicionados, mas tipicamente, a expansão de nós de dados impulsiona o crescimento da capacidade.

Melhores Práticas Arquiteturais para Escalabilidade

Escalar é mais do que apenas adicionar hardware; requer uma topologia de índice e nó bem estruturada.

Funções e Especialização de Nós

Implantações modernas do Elasticsearch se beneficiam muito da atribuição de funções dedicadas aos nós, especialmente em clusters maiores. Isso evita contenção de recursos entre tarefas pesadas (como indexação) e tarefas críticas (como coordenar pesquisas).

Função do Nó	Responsabilidade Principal	Consideração de Melhor Prática
Nós Mestre	Gerenciamento de estado do cluster, estabilidade.	Conjunto dedicado de 3 ou 5 nós. Não deve lidar com dados ou solicitações de ingestão.
Nós de Dados	Armazenar dados, indexar, pesquisar.	Escale estes agressivamente com base no volume de dados e carga.
Nós de Ingestão	Pré-processar documentos antes da indexação (usando pipelines de ingestão).	Descarregue o pré-processamento intensivo de CPU dos nós de dados.
Nós de Coordenação	Lidar com grandes solicitações de pesquisa, reunir resultados dos nós de dados.	Adicione estes quando as solicitações de pesquisa se tornarem complexas ou sobrecarregarem frequentemente os nós de dados com sobrecarga de coordenação.

Estratégia de Alocação de Shards

Shards são a unidade fundamental de distribuição e paralelismo no Elasticsearch. A má alocação de shards é a causa número um de pontos problemáticos de escalonamento.

1. Otimização da Contagem de Shards Primários

Escolher o número certo de shards primários (index.number_of_shards) é crítico e não pode ser alterado facilmente após a criação do índice (a menos que use aliases de índice ou reindexação).

Poucos Shards: Limita o paralelismo durante as pesquisas e impede o escalonamento horizontal eficaz.
Muitos Shards: Adiciona sobrecarga ao estado do cluster, aumenta o uso de memória e cria o problema de "shard pequeno", onde os custos de coordenação dominam o trabalho útil.

Melhor Prática: Para muitas cargas de trabalho de séries temporais e registro de logs, busque tamanhos de shard na casa das dezenas de gigabytes, geralmente aproximadamente 10 GB a 50 GB. Trate isso como uma faixa inicial, depois teste com sua própria taxa de indexação, janela de retenção e padrão de consulta.

2. Shards de Réplica para Alta Disponibilidade e Taxa de Transferência de Leitura

Shards de réplica (index.number_of_replicas) fornecem redundância e aumentam a capacidade de leitura.

Definir number_of_replicas: 1 significa que cada shard primário tem uma cópia, garantindo alta disponibilidade (HA).
Aumentar as réplicas pode melhorar a capacidade de leitura porque as pesquisas podem ser atendidas por cópias primárias ou de réplica, mas também aumenta o uso de armazenamento e o trabalho de indexação.

Exemplo de Configuração de HA: Se você tem 10 shards primários e define number_of_replicas: 1, o cluster requer pelo menos 20 cópias de shard no total (10 primárias + 10 réplicas) distribuídas entre os nós.

PUT /my_growing_index
{
  "settings": {
    "index.number_of_shards": 20,
    "index.number_of_replicas": 1 
  }
}

Prevenindo Pontos Quentes com Awareness

Ao adicionar novos nós, certifique-se de que os shards estejam espalhados entre os domínios de falha. O Elasticsearch rebalanceia automaticamente, mas a awareness de zona ou rack só funciona se você configurar atributos de nó e configurações de awareness de alocação.

Use a API Cluster Allocation Explainer para diagnosticar por que os shards podem não estar se movendo para novos nós ou por que um nó está sobrecarregado.

Etapas Práticas de Escalonamento: Lidando com o Crescimento

Quando o desempenho do seu cluster degrada (alta pressão no heap JVM, consultas lentas, indexação lenta), siga estas etapas em ordem:

Etapa 1: Monitore e Diagnostique

Antes de fazer alterações, diagnostique o gargalo. Indicadores comuns:

CPU Alta/Memória Livre Baixa: Indica falta de computação ou memória (potencial necessidade de escalonamento vertical).
Tamanho Excessivo da Fila de Disco: Indica gargalo de I/O (necessidade de discos mais rápidos ou adição de nó).
Picos de Latência de Pesquisa: Frequentemente devido a cache insuficiente ou poucos shards/réplicas (precisa de mais memória ou escalonamento horizontal).

Etapa 2: Atenda às Necessidades Imediatas de Recursos (Ajustes Verticais)

Se a pressão de memória estiver alta, aumente o tamanho do heap JVM dentro dos limites seguros (máx. 32 GB) e garanta RAM adequada disponível para o cache do sistema de arquivos do SO.

Etapa 3: Escale Horizontalmente (Expansão Horizontal)

Se adicionar nós, siga este procedimento:

Provisione novos nós de dados com hardware idêntico ou superior.
Configure-os com as funções corretas. Para crescimento de capacidade, isso geralmente significa funções de dados como data_hot, data_content ou data, dependendo da sua implantação.
Aponte-os para o cluster existente usando discovery.seed_hosts.
Assim que os novos nós entrarem, o Elasticsearch começará automaticamente a rebalancear os shards existentes para utilizar a nova capacidade.

Etapa 4: Preparação para o Futuro dos Índices (Reindexação)

Se os índices existentes tiverem contagens de shards abaixo do ideal, eles não podem utilizar totalmente os novos nós. Você deve reconstruí-los:

Crie um novo modelo de índice ou use a API Create Index com o número desejado de shards e réplicas.
Use a API Reindex para migrar dados do índice antigo e mal dimensionado para o novo.
Após a conclusão da migração, troque o tráfego usando um alias.

Exemplo de Comando de Reindexação:

POST _reindex
{
  "source": {
    "index": "old_index_bad_shards"
  },
  "dest": {
    "index": "new_index_optimized_shards"
  }
}

Lista de Verificação de Melhores Práticas

Escalar o Elasticsearch funciona melhor quando você monitora primeiro, muda uma variável de cada vez e mantém o layout de shards alinhado com seu padrão de crescimento.

Principais Conclusões:

Priorize o Escalonamento Horizontal: Oferece o melhor caminho para crescimento contínuo e resiliência.
Nós Mestre Dedicados: Mantenha o gerenciamento do cluster estável separando as funções de mestre.
Dimensionamento de Shards é Permanente: Busque um tamanho de shard primário de 10 GB a 50 GB na criação do índice.
Monitore o Heap JVM: Mantenha o heap abaixo do limite de ponteiro comprimido para sua JVM e deixe RAM suficiente para o cache do SO.
Use Reindexação: Reconstrua índices cruciais ao escalar horizontalmente exigir uma mudança na contagem de shards primários.