Monitoramento de Logs do Nginx: Comandos Essenciais para Analisar Tráfego Web e Erros

O monitoramento de logs do Nginx é frequentemente a maneira mais rápida de responder à pergunta que as pessoas fazem durante um incidente: "O que está realmente acontecendo agora?" As métricas podem informar que os erros 5xx aumentaram. Os logs podem mostrar o caminho, upstream, código de status, IP do cliente e detalhes de tempo para as requisições que falharam.

Os comandos aqui usam ferramentas Linux comuns: tail, grep, awk, sort, uniq, less e suas variantes para logs compactados. Eles não substituem uma plataforma de logs real, mas são exatamente o que você precisa quando tem acesso SSH a um servidor e precisa de uma resposta rápida e defensável.

Entendendo os Tipos de Log do Nginx

O Nginx normalmente gera dois tipos principais de logs, que são configurados dentro do nginx.conf ou arquivos de configuração associados:

Logs de Acesso (access.log): Registra cada requisição processada pelo servidor. Este log é vital para entender o comportamento do usuário, volume de tráfego, distribuição geográfica e tempos de resposta. Por padrão, os campos geralmente incluem endereço IP, método de requisição, URI, código de status HTTP, tamanho da requisição e agente do usuário.
Logs de Erro (error.log): Registra informações de diagnóstico, avisos e erros críticos encontrados pelo próprio Nginx (por exemplo, problemas de configuração, timeouts de upstream, esgotamento de recursos). Este log é o primeiro local para solucionar falhas no lado do servidor.

Locais Padrão dos Logs

Embora os locais possam ser personalizados, os logs do Nginx são normalmente encontrados nos seguintes diretórios na maioria das distribuições:

Tipo de Distribuição	Caminho Padrão do Log
Debian/Ubuntu	`/var/log/nginx/`
RHEL/CentOS	`/var/log/nginx/`
Instalação Personalizada (Fonte)	Varia, verifique `nginx.conf`

Usaremos /var/log/nginx/access.log e /var/log/nginx/error.log como exemplos principais.

1. Monitoramento em Tempo Real com `tail`

O comando tail é essencial para observar a atividade atual do servidor conforme ela acontece. A flag -f (follow) mantém a saída rolando em tempo real.

Monitorando Tráfego de Acesso ao Vivo

Para visualizar novas requisições chegando ao servidor, use tail -f no log de acesso:

tail -f /var/log/nginx/access.log

Monitorando Erros Simultaneamente

Muitas vezes é útil monitorar erros enquanto testa alterações de configuração ou implantações. Você pode fazer isso executando duas sessões de terminal separadas ou usando uma ferramenta como multitail (se instalada):

tail -f /var/log/nginx/error.log

Dica: Se você precisar ver as últimas 100 linhas antes de seguir novas entradas, use tail -n 100 -f /var/log/nginx/access.log.

2. Pesquisando e Filtrando com `grep`

grep (Global Regular Expression Print) é o cavalo de batalha para encontrar linhas específicas em arquivos de log. Ele permite filtrar rapidamente logs com base em códigos de status, endereços IP, métodos e muito mais.

Encontrando Códigos de Status HTTP Específicos

Ao solucionar problemas, identificar rapidamente todas as requisições que resultaram em um erro específico é crítico. Usamos espaços ao redor do código de status para evitar falsos positivos de números semelhantes (por exemplo, evitar corresponder 200 em 2000).

Encontre todos os erros 404 (Não Encontrado):

grep " 404 " /var/log/nginx/access.log

Encontre todos os Erros de Servidor 5xx:

grep -E " 50[0-9] " /var/log/nginx/access.log

Filtrando por Caminho de Requisição ou Endereço IP

Para ver todas as requisições feitas por um endereço IP de cliente específico ou todas as tentativas de acessar um caminho específico (por exemplo, /admin):

# Filtrar por endereço IP do cliente
grep "192.168.1.10" /var/log/nginx/access.log

# Filtrar por tentativas de acessar uma URL específica
grep "/wp-login.php" /var/log/nginx/access.log

Filtragem em Tempo Real

Você pode canalizar a saída de tail -f para grep para monitorar apenas eventos específicos conforme eles ocorrem:

# Feed ao vivo de apenas erros 5xx
tail -f /var/log/nginx/access.log | grep -E " 50[0-9] "

3. Lidando com Logs Grandes e Rotacionados

Os arquivos de log podem se tornar enormes rapidamente. O Nginx normalmente usa utilitários de rotação de log (logrotate) para compactar logs antigos usando gzip.

Revisando Arquivos Grandes com `less`

Em vez de carregar o arquivo inteiro na memória (o que pode travar uma sessão de terminal), use less para percorrê-lo. less também permite navegação para trás e pesquisa eficiente.

less /var/log/nginx/access.log
# Dentro do less, pressione 'G' para ir ao final, 'g' para ir ao início e '/' para pesquisar.

Pesquisando Logs Compactados com `zgrep`

Para pesquisar em logs rotacionados (arquivos .gz) sem descompactá-los manualmente, use as variantes z dos comandos comuns (zcat, zgrep).

# Pesquisar por um erro 403 em um arquivo de log compactado
zgrep " 403 " /var/log/nginx/access.log.1.gz

4. Análise Estruturada com `awk`, `cut` e `sort`

Os logs do Nginx, especialmente aqueles que usam o formato combinado padrão, são estruturados por espaços. Essa estrutura permite que ferramentas como awk e cut extraiam campos de dados específicos para análise estatística.

No formato combinado padrão, os campos-chave são tipicamente:

$1: Endereço IP Remoto
$7: URI Solicitada
$9: Código de Status HTTP
$10: Bytes enviados
$12: Referenciador HTTP
$14: Agente do Usuário

Encontrando as Páginas Mais Solicitadas

Este pipeline usa awk para extrair a URI ($7), sort para agrupar entradas idênticas, uniq -c para contá-las e sort -nr para listá-las numericamente em ordem reversa (maior contagem primeiro).

awk '{print $7}' /var/log/nginx/access.log | \
sort | uniq -c | sort -nr | head -10

Contando Códigos de Status

Para obter rapidamente uma discriminação de todos os códigos de status registrados no log:

awk '{print $9}' /var/log/nginx/access.log | \
sort | uniq -c | sort -nr

Exemplo de Saída:

Identificando Requisições de Alta Latência (Se Registradas)

Se a sua configuração do Nginx registra o tempo de resposta upstream ($upstream_response_time), você pode usar awk para encontrar requisições lentas (por exemplo, mais lentas que 1 segundo).

Nota: Isso assume que o tempo de resposta é o 12º campo ($12). Verifique sua configuração log_format antes de confiar no número do campo.

awk '($12 > 1.0) {print $12, $7}' /var/log/nginx/access.log | sort -nr

Melhores Práticas para Análise de Logs

Use `grep -v` para Exclusão

Às vezes, você precisa filtrar ruídos comuns, como verificações de integridade ou bots benignos conhecidos. A flag -v no grep inverte a correspondência, mostrando linhas que não correspondem ao padrão.

# Visualizar logs de acesso, excluindo todas as respostas 200 bem-sucedidas
grep -v " 200 " /var/log/nginx/access.log

# Visualizar logs, excluindo agentes de usuário conhecidos do Googlebot
grep -v "Googlebot" /var/log/nginx/access.log

Compare Logs de Acesso com Logs de Erro

Quando você vir um pico nas respostas 502 ou 504, verifique o log de erro para a mesma janela de tempo. Os logs de acesso mostram o resultado voltado para o cliente. Os logs de erro geralmente explicam o motivo do lado do proxy:

grep "upstream" /var/log/nginx/error.log | tail -50
grep -E "connect\(\) failed|upstream timed out|no live upstreams" /var/log/nginx/error.log

Por exemplo, um 502 no log de acesso mais connect() failed (111: Connection refused) no log de erro aponta para um serviço upstream que não está aceitando conexões. Um 504 mais upstream timed out aponta para um upstream lento ou uma configuração de tempo limite muito baixa para aquele caminho de requisição.

Tenha Cuidado com os Números dos Campos

Muitos exemplos assumem o formato de log combinado do Nginx. Configurações de produção reais geralmente adicionam $request_time, $upstream_response_time, $host, $request_id ou campos de IP encaminhado. Antes de usar um comando awk '{print $9}' em uma investigação séria, verifique o formato ativo:

nginx -T 2>/dev/null | grep -A3 "log_format"

Se o seu formato de log envolver a requisição entre aspas, os campos awk separados por espaço ainda funcionam para verificações simples, mas são fáceis de serem mal interpretados para agentes de usuário e referenciadores porque esses valores contêm espaços. Para análises mais profundas, envie logs para um analisador ou use um formato como escape JSON em um log de acesso dedicado.

Manuseio Seguro

Os logs de acesso do Nginx contêm dados confidenciais, como endereços IP e potencialmente parâmetros de requisição. Certifique-se de que, ao transferir logs para análise, você use protocolos seguros (SCP/SFTP) e restrinja o acesso ao diretório de log ao pessoal autorizado (normalmente o usuário root ou syslog).

# Verificar permissões
ls -l /var/log/nginx/

Um Fluxo de Trabalho Prático

Comece com o sintoma. Se os usuários relatarem erros, conte os códigos de status e isole os caminhos com falha. Se o servidor parecer lento, procure campos de tempo de requisição ou adicione-os ao formato de log antes do próximo incidente. Se um IP for ruidoso, conte os principais endereços de cliente:

awk '{print $1}' /var/log/nginx/access.log | sort | uniq -c | sort -nr | head

Em seguida, vá do amplo para o estreito: código de status, caminho, erro upstream, janela de tempo, padrão do cliente. Mantenha os comandos exatos que você usou nas notas do incidente. Eles tornam a próxima revisão muito mais fácil e ajudam outro engenheiro a reproduzir suas descobertas em vez de confiar em uma memória vaga de como os logs "pareciam".

Os logs do Nginx são texto simples, o que é uma vantagem quando as ferramentas certas estão à mão. Conheça seu formato de log, evite confiar cegamente em números de campo copiados e combine padrões de log de acesso com mensagens de log de erro antes de decidir o que quebrou.