Bash 脚本中有效的错误处理策略

Bash 脚本是系统自动化、配置管理和部署管道的支柱。然而，一个静默失败或在关键故障后仍继续运行的脚本可能导致严重的数据损坏或部署难题。实施强大的错误处理不仅仅是最佳实践——它是创建专业、可靠和可用于生产环境的自动化工具的必要条件。

本文概述了 Bash 中全面错误处理的基本策略和命令，重点介绍那些强制立即失败、保证资源清理并提供信息性退出代码的技术。

基础：理解退出状态

在 Unix 世界中，每个执行的命令都会返回一个退出状态（或退出代码），这是一个表示其操作结果的整数值。此状态会立即存储在特殊变量 $? 中。

退出代码 0： 按惯例，这表示成功（或“真”）。
退出代码 1–255： 这些表示失败（或“假”）。特定的代码通常与特定类型的失败相关（例如，1 表示一般错误，127 表示找不到命令）。

可靠的脚本必须检查关键命令的退出状态，并在脚本失败时返回一个有意义的非零代码。

核心策略 1：防御性脚本三件套

对于任何严肃的自动化脚本，您应该在 shebang 行 (#!/bin/bash) 之后立即应用三个基本选项。这些选项强制执行严格、可预测的行为。

1. 遇到错误立即退出 (`set -e`)

set -e 选项（或 set -o errexit）规定脚本在任何命令失败（返回非零退出状态）时必须立即退出。

这通常被称为“快速失败”原则，可以防止脚本使用不完整或失败的先决条件结果继续执行可能具有破坏性的操作。

#!/bin/bash
set -e

echo "开始处理..."
mkdir /tmp/test_dir
cp non_existent_file /tmp/test_dir/ # 此命令失败（退出代码 > 0）

echo "此行将不会执行。" # 脚本在此处退出

警告：set -e 的注意事项

在某些条件下，set -e 不会触发退出，例如当一个命令是 if 语句条件、while 循环条件的一部分，或者当其输出通过 || 或 && 重定向时（因为错误被明确处理了）。在设计逻辑时，请注意这些细微差别。

2. 将未设置的变量视为错误 (`set -u`)

set -u 选项（或 set -o nounset）确保脚本将使用任何未设置的变量视为错误，导致脚本立即退出（类似于 set -e）。这可以防止因变量名拼写错误而向关键命令传递空字符串的微妙错误。

#!/bin/bash
set -u

# echo "变量是: $UNDEFINED_VAR" # 脚本在此处失败并退出

MY_VAR="defined"
echo "变量是: ${MY_VAR}"

3. 处理命令管道 (`set -o pipefail`)

默认情况下，命令管道（command1 | command2 | command3）仅报告最后一个命令（command3）的退出状态。如果 command1 失败但 command3 成功，$? 将为 0，从而掩盖了失败。

set -o pipefail 改变了这种行为，确保如果管道中的任何命令失败，管道将返回一个非零状态。这对于可靠的数据处理至关重要。

#!/bin/bash
set -o pipefail

# 命令 `false` 总是退出 1
# 没有 pipefail，此行将返回 0，因为 `cat` 成功。
false | cat # 由于 pipefail 返回 1

if [ $? -ne 0 ]; then
    echo "管道失败。"
fi

最佳实践：头部

始终使用组合的防御性选项来启动健壮的脚本：
```bash

!/bin/bash

set -euo pipefail
```

核心策略 2：手动检查和条件执行

虽然 set -e 可以处理大多数失败，但您通常需要手动检查命令状态，尤其是在预期失败或需要特定日志记录时。

`if` 语句检查

检查命令成功与否的标准方法是在 if 块中捕获其退出状态。此方法会覆盖 set -e 的行为，允许您明确处理错误。

#!/bin/bash
set -euo pipefail

TEMP_FILE="/tmp/data_processing_$$/config.dat"

# 尝试创建目录；明确处理失败
if ! mkdir -p "$(dirname "$TEMP_FILE")"; then
    echo "[错误] 无法创建临时目录。" >&2
    exit 1
fi

# 尝试获取数据
if ! curl -sSf https://api.example.com/data > "$TEMP_FILE"; then
    echo "[错误] 从 API 获取数据失败。" >&2
    exit 2
fi

echo "数据成功检索。"

提示： curl 的 -sSf 标志（静默、失败、显示错误）强制 curl 在 HTTP 错误时返回非零退出代码，从而简化了错误处理。

使用短路运算符 (`&&` 和 `||`)

这些逻辑运算符提供了一种简洁的方式，根据成功 (&&) 或失败 (||) 来链接命令。

command1 && command2：仅在 command1 成功时运行 command2。
command1 || command2：仅在 command1 失败时运行 command2。

# 示例：创建目录 AND 复制文件，如果任一步骤失败则退出
mkdir logs && cp /var/log/syslog logs/system.log

# 示例：尝试备份，如果备份失败，则记录错误并退出
pg_dump database > backup.sql || { echo "备份失败!" >&2; exit 10; }

高级策略 3：使用 `trap` 保证清理

当脚本处理临时文件、锁文件或建立的网络连接时，突然退出（无论是成功还是由于错误）都可能使系统处于不一致的状态。trap 命令允许您定义一个命令或函数，以便在脚本接收到特定信号时执行。

`EXIT` 信号

EXIT 信号对于通用清理最有用。无论退出是成功的、手动 exit 调用还是由 set -e 触发的退出，被捕获的命令都会在脚本退出时运行。

#!/bin/bash

TEMP_DIR=$(mktemp -d)

# 清理函数定义
cleanup() {
    EXIT_CODE=$?
    echo "正在清理临时目录: ${TEMP_DIR}"
    rm -rf "$TEMP_DIR"
    # 如果脚本因失败而退出，恢复失败代码
    if [ $EXIT_CODE -ne 0 ]; then
        exit $EXIT_CODE
    fi
}

# 设置陷阱：在脚本退出时运行 'cleanup' 函数
trap cleanup EXIT

# --- 主脚本逻辑 ---

echo "在 ${TEMP_DIR} 中处理数据"

# 模拟成功操作...
# ... 脚本继续 ...

# 模拟触发 set -e 的关键故障（如果启用）
false

# 此行无法到达，但清理仍保证运行。
echo "完成。"

处理特定信号 (`TERM`, `INT`)

您还可以捕获特定的终止信号，如 TERM（终止请求）或 INT（中断，通常是 Ctrl+C），以确保在用户或调度程序取消作业时能优雅地关闭。

trap 'echo "脚本被用户中断 (Ctrl+C)。正在中止清理。" >&2; exit 130' INT

策略 4：自定义错误报告和日志记录

专业的脚本应使用专用的错误函数来集中报告，确保一致性和正确的输出通道。

将错误重定向到标准错误 (`>&2`)

错误消息应始终打印到标准错误（stderr 或文件描述符 2），允许标准输出（stdout 或文件描述符 1）保持干净，用于数据或成功的结果。

`die` 函数模式

创建一个函数，通常命名为 die 或 error_exit，它负责记录消息、清理（如果未设置陷阱）并以指定的代码退出。

# 打印错误消息并退出的函数
die() {
    local msg=$1
    local code=${2:-1}
    echo "$(date +'%Y-%m-%d %H:%M:%S') [致命]: ${msg}" >&2
    exit "$code"
}

# 用法示例：

REQUIRED_VAR="$1"

if [ -z "$REQUIRED_VAR" ]; then
    die "缺少必需的参数 (数据库名称)。" 3
fi

# ... 脚本后部 ...

if ! validate_checksum "$FILE"; then
    die "$FILE 的校验和验证失败。" 5
fi

健壮 Bash 脚本实践总结

为确保最大的可靠性和可维护性，请将这些策略集成到您所有的自动化脚本中：

头部： 始终使用 set -euo pipefail。
退出状态： 确保所有函数和脚本本身返回有意义的退出代码（成功为 0，特定失败为非零）。
清理： 使用 trap cleanup EXIT 保证无论脚本成功与否，资源（临时文件、锁）都会被移除。
报告： 使用自定义 die 函数来标准化错误消息并将它们定向到 stderr (>&2)。
防御性检查： 使用 if ! command; then die ...; fi 手动检查外部命令的成功情况，以防 set -e 被绕过或需要特定的错误处理。