Nginx 日志监控：分析网络流量与错误的关键命令

Nginx 日志监控通常是回答人们在事件中提出的问题的最快方式：“现在到底发生了什么？”指标可以告诉你 5xx 错误上升了。日志可以显示失败请求的路径、上游、状态码、客户端 IP 和时序细节。

这里的命令使用普通的 Linux 工具：tail、grep、awk、sort、uniq、less 及其压缩日志变体。它们不能替代真正的日志平台，但当你拥有服务器的 SSH 访问权限并需要快速、可辩护的答案时，它们正是你所需要的。

理解 Nginx 日志类型

Nginx 通常生成两种主要类型的日志，这些日志在 nginx.conf 或相关配置文件中配置：

访问日志 (access.log)： 记录服务器处理的每个请求。此日志对于理解用户行为、流量量、地理分布和响应时间至关重要。默认情况下，字段通常包括 IP 地址、请求方法、URI、HTTP 状态码、请求大小和用户代理。
错误日志 (error.log)： 记录 Nginx 自身遇到的诊断信息、警告和关键错误（例如，配置问题、上游超时、资源耗尽）。此日志是排查服务器端故障的第一站。

标准日志位置

虽然位置可以自定义，但 Nginx 日志通常位于大多数发行版的以下目录中：

发行版类型	默认日志路径
Debian/Ubuntu	`/var/log/nginx/`
RHEL/CentOS	`/var/log/nginx/`
自定义安装（源码）	因情况而异，检查 `nginx.conf`

我们将以 /var/log/nginx/access.log 和 /var/log/nginx/error.log 为主要示例。

1. 使用 `tail` 进行实时监控

tail 命令对于实时查看当前服务器活动至关重要。-f（跟随）标志使输出实时滚动。

监控实时访问流量

要查看进入服务器的新请求，请在访问日志上使用 tail -f：

tail -f /var/log/nginx/access.log

同时监控错误

在测试配置更改或部署时，同时监控错误通常很有帮助。你可以通过运行两个独立的终端会话，或使用像 multitail 这样的工具（如果已安装）来实现：

tail -f /var/log/nginx/error.log

提示： 如果你需要在跟随新条目之前查看最后 100 行，请使用 tail -n 100 -f /var/log/nginx/access.log。

2. 使用 `grep` 搜索和过滤

grep（全局正则表达式打印）是在日志文件中查找特定行的主力工具。它允许你根据状态码、IP 地址、方法等快速过滤日志。

查找特定 HTTP 状态码

在故障排除时，快速识别所有导致特定错误的请求至关重要。我们在状态码周围使用空格，以防止与相似数字产生误匹配（例如，避免在 2000 中匹配 200）。

查找所有 404（未找到）错误：

grep " 404 " /var/log/nginx/access.log

查找所有 5xx 服务器错误：

grep -E " 50[0-9] " /var/log/nginx/access.log

按请求路径或 IP 地址过滤

要查看特定客户端 IP 地址发出的所有请求，或所有尝试访问特定路径（例如 /admin）的请求：

# 按客户端 IP 地址过滤
grep "192.168.1.10" /var/log/nginx/access.log

# 过滤尝试访问特定 URL 的请求
grep "/wp-login.php" /var/log/nginx/access.log

实时过滤

你可以将 tail -f 的输出通过管道传递给 grep，以仅监控实时发生的特定事件：

# 仅实时显示 5xx 错误
tail -f /var/log/nginx/access.log | grep -E " 50[0-9] "

3. 处理大型和轮转日志

日志文件可能会迅速变得庞大。Nginx 通常使用日志轮转工具 (logrotate) 使用 gzip 压缩旧日志。

使用 `less` 查看大型文件

与其将整个文件加载到内存中（这可能导致终端会话崩溃），不如使用 less 分页查看。less 还允许向后导航和高效搜索。

less /var/log/nginx/access.log
# 在 less 中，按 'G' 跳转到末尾，按 'g' 跳转到开头，按 '/' 进行搜索。

使用 `zgrep` 搜索压缩日志

要搜索轮转日志（.gz 文件）而无需手动解压缩，请使用常用命令的 z 变体（zcat、zgrep）。

# 在压缩日志文件中搜索 403 错误
zgrep " 403 " /var/log/nginx/access.log.1.gz

4. 使用 `awk`、`cut` 和 `sort` 进行结构化分析

Nginx 日志，尤其是使用标准组合格式的日志，由空格分隔。这种结构允许 awk 和 cut 等工具提取特定数据字段进行统计分析。

在默认组合格式中，关键字段通常是：

$1：远程 IP 地址
$7：请求的 URI
$9：HTTP 状态码
$10：发送的字节数
$12：HTTP 引用页
$14：用户代理

查找最常请求的页面

此管道使用 awk 提取 URI ($7)，sort 对相同条目进行分组，uniq -c 进行计数，sort -nr 按数字逆序列出（最高计数在前）。

awk '{print $7}' /var/log/nginx/access.log | \
sort | uniq -c | sort -nr | head -10

统计状态码

要快速获取日志中记录的所有状态码的细分：

awk '{print $9}' /var/log/nginx/access.log | \
sort | uniq -c | sort -nr

示例输出：

识别高延迟请求（如果已记录）

如果你的 Nginx 配置记录了上游响应时间 ($upstream_response_time)，你可以使用 awk 查找慢请求（例如，慢于 1 秒）。

注意：这假设响应时间是第 12 个字段 ($12)。在信任字段编号之前，请检查你的 log_format 配置。

awk '($12 > 1.0) {print $12, $7}' /var/log/nginx/access.log | sort -nr

日志分析的最佳实践

使用 `grep -v` 进行排除

有时你需要过滤掉常见的噪音，例如健康检查或已知的无害爬虫。grep 中的 -v 标志反转匹配，显示不匹配模式的行。

# 查看访问日志，排除所有成功的 200 响应
grep -v " 200 " /var/log/nginx/access.log

# 查看日志，排除已知的 Googlebot 用户代理
grep -v "Googlebot" /var/log/nginx/access.log

比较访问日志和错误日志

当你看到 502 或 504 响应激增时，请检查同一时间窗口的错误日志。访问日志显示面向客户端的结果。错误日志通常解释代理端的原因：

grep "upstream" /var/log/nginx/error.log | tail -50
grep -E "connect\(\) failed|upstream timed out|no live upstreams" /var/log/nginx/error.log

例如，访问日志中的 502 加上错误日志中的 connect() failed (111: Connection refused) 指向不接受连接的上游服务。504 加上 upstream timed out 指向慢上游或对该请求路径设置过低的超时值。

注意字段编号

许多示例假设 Nginx 的组合日志格式。实际生产配置通常会添加 $request_time、$upstream_response_time、$host、$request_id 或转发的 IP 字段。在严肃的调查中使用 awk '{print $9}' 命令之前，请检查当前格式：

nginx -T 2>/dev/null | grep -A3 "log_format"

如果你的日志格式将请求用引号括起来，空格分隔的 awk 字段对于简单检查仍然有效，但很容易误读用户代理和引用页，因为这些值包含空格。对于更深入的分析，请将日志发送到解析器，或在专用访问日志中使用 JSON 转义等格式。

安全处理

Nginx 访问日志包含敏感数据，如 IP 地址和可能的请求参数。确保在传输日志进行分析时，使用安全协议（SCP/SFTP），并限制对日志目录的访问权限，仅限授权人员（通常是 root 或 syslog 用户）。

# 检查权限
ls -l /var/log/nginx/

一个实用工作流程

从症状开始。如果用户报告错误，统计状态码并隔离失败的路径。如果服务器感觉缓慢，查找请求时序字段，或在下次事件之前将其添加到日志格式。如果某个 IP 地址嘈杂，统计顶级客户端地址：

awk '{print $1}' /var/log/nginx/access.log | sort | uniq -c | sort -nr | head

然后从广泛到狭窄：状态码、路径、上游错误、时间窗口、客户端模式。将你使用的确切命令保留在事件记录中。它们使下一次审查更容易，并帮助其他工程师重现你的发现，而不是依赖对日志“看起来像”的模糊记忆。

Nginx 日志是纯文本，当正确的工具触手可及时，这是一个优势。了解你的日志格式，避免过度信任复制的字段编号，并在决定什么出问题之前，将访问日志模式与错误日志消息配对。