理解退出码：使用 $? 和 exit 进行高效错误处理

在自动化和 shell 脚本的世界中，知道脚本为何失败与知道它 失败了 同样重要。Bash 脚本严重依赖于一种标准化的机制来报告成功或失败：退出码（也称为退出状态或返回码）。理解这些代码如何工作，如何使用特殊变量 $? 来检查它们，以及如何使用 exit 命令有目的地终止脚本，是编写健壮、可靠和可调试自动化脚本的基础。

本指南将分解退出码的概念，演示 Bash 如何自动跟踪它们，并向您展示在 shell 脚本中实现高效错误检查的实用技术。掌握这些知识可确保您的自动化流程优雅地失败并提供有意义的反馈。

退出状态的概念

在类 Unix shell 环境中执行的每个命令或程序（无论是像 cd 这样的内置命令、像 grep 这样的外部实用程序，还是另一个 shell 脚本）在完成时都会返回一个整数值。该整数就是退出码，它向调用进程表明操作的结果。

标准约定

退出码的约定是普遍公认的：

0（零）：表示成功。命令执行完全符合预期，没有发生错误。
1 到 255：表示失败或特定的错误条件。这些非零值表明出现了问题。较高的数字通常对应于特定类型的错误（例如，文件未找到、权限被拒绝、语法错误），尽管确切的含义取决于特定的程序。

关于范围的说明： 虽然退出码在技术上是一个 8 位值 (0-255)，但 shell 脚本通常只关注 0 表示成功，非零表示失败。大于 255 的退出码通常会被 shell 截断或解释为模 256 的结果。

检查上一个退出码：`$`? 变量

特殊的 shell 变量 $?（美元问号）是监控命令状态的核心。在任何命令执行后，shell 都会立即将其退出码存储在 $? 中。

如何使用 `$?`

您必须在您感兴趣的命令执行 后立即 检查 $?，因为任何后续命令（即使是回显该变量）都会覆盖其值。

示例 1：检查成功与失败

# 1. 一个成功的命令
echo "Success test" > /dev/null
echo "Exit code for success: $?"

# 2. 一个失败的命令（例如，尝试列出不存在的文件）
ls /non/existent/path
echo "Exit code for failure: $?"

预期输出：

Exit code for success: 0
ls: cannot access '/non/existent/path': No such file or directory
Exit code for failure: 2

实现条件错误检查

仅仅知道退出码是不够的；它的强大之处在于利用这些信息来控制脚本流程。这通常是使用 if 语句或短路运算符（&& 和 ||）来完成的。

使用 `if` 语句

这是处理错误最明确的方法：

if grep -q "important data" logfile.txt;
then
    echo "Data found successfully."
else
    LAST_STATUS=$?
    echo "Error: Grep failed with status $LAST_STATUS. Data not found."
    # 如果脚本无法继续，请考虑在此处退出
fi

在上面的示例中，grep -q 会抑制输出 (-q)，并且仅在找到匹配项时返回 0。if 结构会自动检查退出状态，但在 else 块内明确捕获 $? 对于详细日志记录很有用。

使用短路逻辑（`&&` 和 `||`）

对于简单的顺序检查，短路运算符提供了简洁的错误处理：

&&（AND/与）：只有当前面的命令成功（返回 0）时，&& 后面的命令才会执行。
||（OR/或）：只有当前面的命令失败（返回非零值）时，|| 后面的命令才会执行。

示例 2：简洁的错误处理

# 1. 只有当 'fetch_data' 成功时才运行 'process_data'
fetch_data.sh && ./process_data.sh

# 2. 只有当主操作失败时才运行 'send_alert'
rsync -a source/ dest/ || echo "RSync failed on $(date)" >> /var/log/rsync_errors.log

使用 `exit` 控制脚本终止

exit 命令用于立即终止当前的 shell 脚本或函数，并向调用者（可能是另一个脚本或用户的终端）返回指定的退出状态。

语法和用法

语法很简单：exit [status_code]。

如果没有提供状态码，exit 默认为最近执行的前台命令的状态。如果您在没有先运行任何命令的情况下显式调用 exit 0，它将返回 0。

示例 3：因先决条件失败而退出

此脚本确保在继续执行之前，必需的配置文件存在。

CONFIG_FILE="/etc/app/config.conf"

if [[ ! -f "$CONFIG_FILE" ]]; then
    echo "Error: Configuration file not found at $CONFIG_FILE."
    # 立即终止脚本，并返回特定的错误码（例如 20）
    exit 20 
fi

echo "Configuration loaded. Continuing script..."
# ... 脚本的其余部分
exit 0

最佳实践：使用有意义的退出码

虽然 0 和 1 涵盖了大多数基本情况，但使用不同的非零代码有助于调用脚本诊断确切的问题：

退出码	含义（示例）
0	成功
1	一般性、包罗万象的错误
2-10	语法错误、参数解析问题
20	缺少先决条件（例如，文件未找到）
30	权限问题

使脚本快速失败：`set` 命令

为了在复杂脚本中实现最大可靠性，强烈建议的最佳实践是在脚本顶部使用 set 命令选项全局启用错误检查：

#!/bin/bash

# 如果命令以非零状态退出，则立即退出。
set -e

# 在替换时，将未设置的变量视为错误。
set -u

# Pipefail: 确保管道的返回状态是退出状态为非零的最右边命令的状态。
set -o pipefail

# （可选但有用）在执行命令时打印出来以便调试
# set -x 

# 如果以下任何命令失败，脚本将立即停止。
ls /valid/path && grep pattern file.txt && ./next_step.sh

# 只有当所有前面的命令都成功时，才会运行以下行。
echo "All steps complete."

当 set -e 处于活动状态时，脚本执行会在遇到第一个非零退出状态时自动停止，从而防止后续命令在错误的中间数据基础上继续运行。

理解退出码：使用 $? 和 exit 进行高效错误处理

退出状态的概念

标准约定

检查上一个退出码：$? 变量

如何使用 $?

实现条件错误检查

使用 if 语句

使用短路逻辑（&& 和 ||）

使用 exit 控制脚本终止