掌握Nginx日志分析，实现高效故障排查

Nginx日志通常是将“网站挂了”转化为具体问题的最快途径。访问日志告诉你客户端请求了什么以及收到了什么状态码。错误日志则告诉你Nginx无法做什么：连接上游、读取证书、打开文件、解析配置，或等待后端响应超时。

高效的Nginx日志分析并非盯着文件直到发现可疑之处。它关乎提出精准问题、快速过滤，并将访问日志与错误日志及上游应用日志关联起来。访问日志中的502是症状，匹配的错误日志行通常是答案的开端。

1. Nginx日志基础：访问日志与错误日志

Nginx维护两种不同类型的日志，各自承担关键且独立的功能：

1.1 访问日志（`access.log`）

访问日志记录Nginx处理的每个请求的详细信息。它对于理解用户行为、监控流量流向以及评估响应时间至关重要。

默认位置： 通常为 /var/log/nginx/access.log

目的： 跟踪客户端交互、成功请求、客户端错误、通过Nginx返回的服务器错误、发送字节数、用户代理以及（如果配置了）请求计时。

1.2 错误日志（`error.log`）

错误日志跟踪Nginx处理生命周期中发生的内部问题、操作失败和通信问题。该日志是排查后端连接问题和服务器配置错误的最终来源。

默认位置： 通常为 /var/log/nginx/error.log

目的： 跟踪服务器端错误、警告和系统事件（5xx错误、配置文件解析失败）。

错误日志严重级别

Nginx使用八个严重级别。排查问题时，通常应从 error 级别或更高级别开始。严重级别通过 error_log 指令配置：

# 设置最低严重级别为 'warn'
error_log /var/log/nginx/error.log warn;

级别	描述	优先级
crit	严重条件，例如严重的运行时故障	最高
error	发生错误，阻止了请求被服务	高
warn	发生了意外情况，但操作继续	中
notice	正常但重要的情况（例如服务器重启）	低
info	信息性消息	最低

还有 emerg、alert 和 debug 级别。debug 级别可能极其冗长，通常需要支持调试的Nginx构建版本。仅用于针对性排查，不作为正常生产设置。

2. 为性能分析自定义访问日志

默认的Nginx访问日志格式（通常称为 combined）很有用，但缺少关键的计时变量。为了有效排查缓慢问题，必须定义一个自定义格式，以捕获Nginx处理请求所花费的时间以及上游服务器所花费的时间。

2.1 定义性能日志格式

使用 log_format 指令（通常在 nginx.conf 中定义）创建自定义格式，例如 timing_log：

log_format timing_log '$remote_addr - $remote_user [$time_local] ' 
                    '"$request" $status $body_bytes_sent ' 
                    '"$http_referer" "$http_user_agent" ' 
                    '$request_time $upstream_response_time';

server {
    listen 80;
    server_name example.com;
    
    # 在此应用自定义格式
    access_log /var/log/nginx/timing_access.log timing_log;
    # ... 其余配置
}

变量	描述	排查价值
$request_time	从收到第一个字节到发送最后一个字节的总时间。	高值表示网络慢、Nginx慢或后端慢。
$upstream_response_time	等待上游服务器（例如应用服务器）响应所花费的时间。	此处的高值将瓶颈指向后端应用程序。
$status	返回给客户端的HTTP状态码。	对于过滤错误（4xx、5xx）至关重要。

当日志发送到集中式系统时，考虑使用JSON日志格式。JSON肉眼阅读较困难，但工具解析更可靠。如果保留纯文本日志，请注意，当用户代理、请求路径或带引号的字段包含空格时，awk 字段编号可能会出错。

同时考虑记录请求ID。如果负载均衡器或应用程序已发送请求ID头，请将其传递并记录下来：

log_format timing_log '$remote_addr [$time_local] '
                    '"$request" $status $body_bytes_sent '
                    'request_time=$request_time '
                    'upstream_time=$upstream_response_time '
                    'request_id=$request_id '
                    'upstream=$upstream_addr';

请求ID允许你将一个缓慢的公共请求与一个应用程序日志条目关联起来。没有它，你需要通过时间戳、路径和客户端IP进行匹配，这虽然可行但远不那么方便。

3. 解读访问日志条目

使用自定义格式的典型条目可能如下所示（末尾添加了计时值）：

192.168.1.10 - - [10/May/2024:14:30:05 +0000] "GET /api/data HTTP/1.1" 200 450 "-" "Mozilla/5.0" 0.534 0.528

诊断：

状态码（200）： 成功。
请求时间（0.534秒）： 总时间为半秒。
上游时间（0.528秒）： 几乎所有时间都花在了等待后端应用程序上（0.534 - 0.528 = 0.006秒 为Nginx开销）。

诊断： 对于此请求，后端应用程序很可能是500毫秒延迟的来源。Nginx开销似乎很小。

不要仅凭一行就过度概括。查看慢请求的样本。如果大多数慢请求都有较高的 $upstream_response_time，请重点关注应用或上游网络。如果 $request_time 高而 $upstream_response_time 低，则延迟可能来自客户端上传时间、客户端下载缓慢、缓冲行为或Nginx端的工作。

使用状态码进行故障排查

状态码范围	含义	典型操作/日志来源
4xx（客户端错误）	客户端发送了无效或未经授权的请求。	检查访问日志的高频出现。查找 `404 Not Found`（文件缺失）或 `403 Forbidden`（权限问题）。
5xx（服务器错误）	Nginx或上游服务器未能完成有效请求。	立即检查错误日志中的相应条目。
502 Bad Gateway	Nginx无法从上游应用程序获取响应。	错误日志将显示详细信息（连接被拒绝、超时）。
504 Gateway Timeout	上游服务器在配置的代理限制内响应时间过长。	错误日志将显示超时警告。在提高超时时间之前，先调查后端延迟。

提高 proxy_read_timeout 可能会掩盖症状，而用户仍然等待过久。对于长时间运行的端点、流媒体或已知的慢操作，这是有效的，但对于正常的API请求，应首先触发后端调查。

4. 在错误日志中诊断关键问题

当请求导致5xx错误时，访问日志只告诉你发生了错误。错误日志则告诉你原因。

案例研究：502 Bad Gateway

当Nginx用作反向代理时，502错误是最常见的问题之一。它几乎总是指向后端应用程序宕机、过载或不可达。

在错误日志中查找这些特定消息：

4.1 连接被拒绝（后端宕机）

这表示Nginx尝试连接到后端端口，但没有任何进程在监听，这意味着应用服务器（例如PHP-FPM、Gunicorn）已停止或配置错误。

2024/05/10 14:35:10 [error] 12345#0: *1 connect() failed (111: Connection refused) while connecting to upstream, client: 192.168.1.10, server: example.com, request: "GET /test"

操作： 检查后端服务是否正在运行，是否在预期的端口或Unix套接字上监听，以及Nginx是否指向相同的地址。在理解停止原因后再重启。

4.2 上游过早关闭连接（后端崩溃）

当Nginx建立连接但后端服务器在发送完整HTTP响应之前终止连接时发生。这通常表明应用程序代码中存在致命错误或崩溃。

2024/05/10 14:38:22 [error] 12345#0: *2 upstream prematurely closed connection while reading response header from upstream, client: 192.168.1.10, server: example.com, request: "POST /submit"

操作： 检查应用服务器自身的错误日志（例如PHP-FPM日志、Node.js日志）以查找具体的致命错误。

警告： 如果Nginx在启动时无法读取其配置文件，错误通常会直接输出到标准错误或引导日志文件，而不是配置的 error.log 位置。如果Nginx启动失败，请始终检查 journalctl -xe 或系统日志。

案例研究：403 Forbidden

访问日志中的403可能由应用程序授权、Nginx访问规则、文件系统权限或目录索引行为引起。仅凭访问日志无法确定是哪种原因。

在错误日志中查找类似以下的行：

2024/05/10 15:02:01 [error] 12345#0: *12 directory index of "/var/www/site/" is forbidden

这意味着Nginx到达了一个目录，但没有可提供的索引文件，并且目录列表已禁用。解决方法可能是创建预期的 index.html，调整 index 指令，或将请求路由到应用程序。

对于权限问题，你可能会看到：

2024/05/10 15:04:44 [error] 12345#0: *15 open() "/var/www/site/private.txt" failed (13: Permission denied)

检查文件所有权、目录执行权限、SELinux或AppArmor策略（如适用），以及Nginx工作进程运行的用户。

案例研究：499 客户端关闭请求

Nginx特有的状态码 499 表示客户端在Nginx完成响应之前关闭了连接。当用户导航离开、移动客户端失去连接或上游响应时间过长导致客户端放弃时，这种情况很常见。

不要将每个499都视为Nginx错误。查看计时。如果许多499具有高请求时间并且与慢上游匹配，则用户可能正在放弃慢请求。如果它们立即从一个客户端或网络发生，则可能是客户端行为。

5. 用于日志分析的实用Shell命令

虽然生产环境推荐使用健壮的日志监控系统，但Linux命令行提供了强大的工具用于快速、实时的故障排查。

5.1 实时监控

在请求到来时监控日志（在部署修复或测试新功能后特别有用）：

tail -f /var/log/nginx/access.log
# 或者，仅查看错误
tail -f /var/log/nginx/error.log

对于轮转和压缩的日志，使用 zgrep：

zgrep '" 50[0-9] ' /var/log/nginx/access.log*.gz

在事件审查期间，日志轮转很重要。错误可能恰好发生在午夜之前或轮转作业压缩昨天文件之前。

5.2 过滤和统计错误

快速查找并统计过去一小时或一天内最常见的5xx错误：

# 查找所有5xx请求
grep '" 50[0-9] ' /var/log/nginx/access.log | less

# 统计5xx错误的分布（例如，有多少502 vs 504）
grep '" 50[0-9] ' /var/log/nginx/access.log | awk '{print $9}' | sort | uniq -c | sort -nr

解释： awk '{print $9}' 提取HTTP状态码（假设默认或组合日志格式，状态码是第9个字段）。

如果使用自定义日志格式，请在信任计数前确认字段编号。一个更安全的快速检查是打印几行解析后的内容：

awk '{print NR, $0; if (NR == 3) exit}' /var/log/nginx/access.log

对于JSON日志，使用 jq 代替字段编号：

jq -r 'select(.status >= 500) | .status' /var/log/nginx/access.json \
  | sort | uniq -c | sort -nr

5.3 识别慢请求（需要自定义日志格式）

如果你已实现 timing_log 格式（其中 $request_time 是倒数第二个字段，或在我们示例中是第16个字段）：

# 查找10个最慢的请求（例如，耗时超过1秒的请求）
awk '($16 > 1.0) {print $16, $7}' /var/log/nginx/timing_access.log | sort -nr | head -10

解释： 此命令打印任何耗时超过1.0秒的请求的请求时间和URI（$7），并按降序排序。

一种更易读的纯文本计时格式使用命名值，例如 request_time=0.534。然后你可以不太优雅但更少字段编号意外地grep慢范围。对于严肃的分析，将结构化日志发送到日志系统，并按路由查询百分位数。

5.4 识别请求最多的IP地址

有助于发现潜在的DoS攻击、流量激增或可疑活动：

# 查找发出请求的前20个IP
awk '{print $1}' /var/log/nginx/access.log | sort | uniq -c | sort -nr | head -20

排名靠前的IP是起点，而非滥用证据。企业NAT、CDN边缘或负载均衡器可能使许多用户看起来像一个来源。如果Nginx位于代理之后，请使用 real_ip_header 和受信任的代理范围仔细配置并记录真实客户端IP。切勿信任来自开放互联网的任意 X-Forwarded-For 头。

实用的故障排查流程

从用户的症状和时间窗口开始。“结账在14:35 UTC左右返回502”比“Nginx坏了”有用得多。

首先，统计状态码：

grep '10/May/2024:14:3' /var/log/nginx/access.log \
  | awk '{print $9}' | sort | uniq -c | sort -nr

使用纯文本日志进行日期过滤很麻烦，具体命令取决于你的日志格式。对于快速事件检查，即使粗略过滤也能显示问题主要是502、504、403还是404。

接下来，提取几个匹配的请求：

grep '" 502 ' /var/log/nginx/access.log | tail -20

注意时间戳、URI、上游时间和请求ID（如果存在）。然后搜索相同时间戳附近的错误日志：

grep '14:35' /var/log/nginx/error.log

如果错误显示 connect() failed (111: Connection refused)，检查上游服务及其端口。如果显示 upstream timed out，检查后端延迟和排队情况。如果显示 no live upstreams，检查上游健康状态、DNS或负载均衡器配置。

最后，使用相同的请求ID或时间戳检查后端日志。Nginx通常告诉你交接失败的位置，但后端日志告诉你应用程序为何如此表现。

在故障发生前让日志变得有用

改进日志记录最糟糕的时机是在故障期间。在需要之前添加请求计时、上游计时、上游地址和请求ID。当一台服务器托管多个应用程序时，按站点分离访问日志和错误日志。确保轮转保留足够的历史记录，以覆盖你实际调查的事件。

当出现问题时，成对阅读日志：访问日志了解发生了什么，错误日志了解Nginx无法做什么，应用程序日志了解上游接下来做了什么。这个习惯能让故障排查保持专注，并且通常比随机更改超时或重启服务更快地找到真正的故障。