使用 Jenkins CLI 快速排查构建失败问题

Jenkins 是无数组织持续集成和持续交付 (CI/CD) 流水线的支柱。虽然它自动化了构建、测试和部署过程，但构建失败是软件开发中不可避免的一部分。当构建失败时，快速诊断和解决问题对于最大限度地减少停机时间并保持开发进展至关重要。

虽然 Jenkins Web UI 提供了丰富的信息，但有时最快的排查方法是直接通过 Jenkins 命令行界面 (CLI)。CLI 提供了一种强大、可脚本化且通常比导航 UI 更快的方式来替代，尤其是在处理重复性任务或处理大量构建日志时。本指南将引导您了解如何利用 Jenkins CLI 快速诊断构建失败、检索详细日志、检查环境变量以及高效地重新启动构建。

为什么使用 Jenkins CLI 进行故障排除？

Jenkins CLI 在故障排除方面具有以下几个优势：

速度：无需浏览器导航即可快速获取日志和信息。
自动化：将故障排除步骤集成到脚本或自动化报告中。
远程访问：可以从任何能访问您的 Jenkins 实例的网络终端执行诊断。
效率：使用 grep、awk 和 sed 等标准 shell 工具过滤日志和信息。

先决条件

在您开始使用 Jenkins CLI 进行故障排除之前，请确保您拥有以下内容：

Jenkins 服务器正在运行：一个您拥有管理权限的活动 Jenkins 实例。
Jenkins CLI JAR：从您的 Jenkins 实例下载 jenkins-cli.jar 文件。您通常可以在 JENKINS_URL/jnlpJars/jenkins-cli.jar 找到它。
身份验证：CLI 需要身份验证。推荐的方法是为 Jenkins 用户使用 API 令牌。通过 Your_User_Name -> Configure -> Add new Token 生成 API 令牌。

设置 CLI

首先，下载 jenkins-cli.jar：

wget JENKINS_URL/jnlpJars/jenkins-cli.jar
# 或者使用 curl
curl -O JENKINS_URL/jnlpJars/jenkins-cli.jar

为简化命令，您可以为 Jenkins URL、用户名和 API 令牌设置环境变量：

export JENKINS_URL="http://your-jenkins-instance.com"
export JENKINS_USER="your_username"
export JENKINS_API_TOKEN="your_api_token"

# 为方便起见，为 CLI 命令设置别名
alias jcli='java -jar jenkins-cli.jar -s "$JENKINS_URL" -auth "$JENKINS_USER:$JENKINS_API_TOKEN"'

现在，您只需使用 jcli 加上命令即可。

识别失败的构建

故障排除的第一步是确定是哪个作业和构建失败了。虽然 CLI 没有直接的命令来仅列出失败的构建，但您可以列出作业然后检查它们，或者使用 Groovy 进行更高级的过滤。

列出作业

要查看 Jenkins 实例上所有作业的列表：

jcli list-jobs

这会提供一个基本列表。要获取有关特定作业的更详细信息，包括其上次的构建状态，请使用 get-job：

jcli get-job MyPipelineJob

输出（默认为 XML 格式）将包含 lastFailedBuild、lastSuccessfulBuild 等信息，您可以对其进行解析。

提示：使用 Groovy 进行高级过滤

对于更高级的过滤，特别是查找特定的失败构建，您可以通过 CLI 执行 Groovy 脚本。这非常强大。

jcli groovy =
    'Jenkins.instance.getAllItems(hudson.model.Job.class).each { job ->
        def lastBuild = job.getLastBuild()
        if (lastBuild != null && lastBuild.result == hudson.model.Result.FAILURE) {
            println "Failed Job: ${job.name}, Build: ${lastBuild.number}"
        }
    }'

检索详细的构建日志

故障排除中最常见也是最关键的一步是查看构建日志（控制台输出）。Jenkins CLI 使此操作变得简单明了。

获取控制台输出

要检索特定构建的完整控制台输出，请使用 console 命令：

jcli console MyPipelineJob 123

将 MyPipelineJob 替换为您的作业名称，将 123 替换为构建编号。这将把整个日志转储到您的终端。

过滤错误日志

当日志内容过多时，手动解析效率低下。利用 grep 快速查找相关的错误消息、堆栈跟踪或关键字。

jcli console MyPipelineJob 123 | grep -iE "error|fail|exception|stacktrace"

-i：忽略大小写。
-E：使用扩展正则表达式（允许使用 | 表示“或”）。

此命令显著缩小了输出范围，帮助您更快地找到失败原因。

监控实时构建

对于仍在运行但看起来卡住或失败缓慢的构建，您可以实时监控其控制台输出，类似于 tail -f：

jcli console MyPipelineJob LAST_BUILD_NUMBER --follow

这将持续流式传输出现的新日志条目，直到构建完成或您停止该命令。

检查构建环境变量

环境变量在构建执行中通常起着关键作用，影响路径、机密和配置。错误或缺失的环境变量可能导致构建失败。虽然没有直接的 CLI 命令可以列出过去构建的所有环境变量，但您可以使用通过 CLI 执行的 Groovy 脚本来检索它们。

首先，确保您的流水线明确打印了相关的环境变量，或者您有权访问 dumpEnvVars 步骤（如果使用 Pipeline Utility Steps 插件）。如果没有，您可以使用 Groovy。

使用 Groovy 访问环境变量

jcli groovy =
    'def job = Jenkins.instance.getItemByFullName("MyPipelineJob")
    def build = job.getBuildByNumber(123)
    if (build) {
        build.getEnvironment().each { key, value ->
            println "${key}=${value}"
        }
    } else {
        println "Build 123 not found for MyPipelineJob"
    }'

此脚本连接到 Jenkins API，检索指定的作业和构建，然后迭代并打印在该构建执行期间设置的所有环境变量。

安全警告：打印环境变量时要小心，因为它们可能包含敏感信息（API 密钥、密码等）。仅在安全环境中使用此功能，并确保适当的访问控制。

分析流水线中的阶段性失败

对于 Jenkins 流水线，知道哪个阶段失败至关重要。虽然原始的 console 输出会显示 [Pipeline] stage 标记（有助于划分阶段），但 CLI 本身并没有提供像 UI（例如 Blue Ocean）那样直接查询阶段状态的结构化方法。

在日志中定位阶段性失败

查看 console 输出时，查找错误消息或堆栈跟踪之前的最后一个 [Pipeline] stage 条目。这通常表明发生故障的阶段。

jcli console MyPipelineJob 123 | less

在 less 中，您可以搜索 [Pipeline] stage，然后滚动查找错误。

重新运行或重启失败的构建

一旦您确定了失败的根本原因并应用了修复（例如，推送了新代码、更新了配置），您就需要重新运行构建。CLI 提供了一种简单的方法来执行此操作。

重新运行整个构建

要触发作业的新构建：

jcli build MyPipelineJob

如果您的作业接受参数，您可以使用 -p 标志传递它们：

jcli build MyPipelineJob -p BRANCH=feature/fix-bug -p BUILD_VERSION=1.0.1

--wait (-s)：等待构建完成。
--verbose (-v)：显示进度和构建日志。

jcli build MyPipelineJob -p BRANCH=master --wait --verbose

从特定阶段重启（高级）

Jenkins CLI 没有直接的 restart-stage 命令。从特定阶段重新启动流水线主要是 Jenkins UI 的一项功能（通常由“Pipeline Steps”插件启用），或者需要特定的流水线逻辑。

但是，您可以通过设计您的流水线以接受允许跳过初始阶段的参数来实现类似的效果。例如：

// 在您的 Jenkinsfile 中

parameters {
    booleanParam(name: 'SKIP_SETUP_STAGE', defaultValue: false, description: 'Skip the initial setup stage')
}

pipeline {
    agent any
    stages {
        stage('Setup') {
            when {
                expression { !params.SKIP_SETUP_STAGE }
            }
            steps {
                echo 'Running setup...'
                // ... setup steps ...
            }
        }
        stage('Build') {
            steps {
                echo 'Building application...'
                // ... build steps ...
            }
        }
        // ... other stages ...
    }
}

然后，您可以通过 CLI 触发此参数化构建以跳过“Setup”阶段：

jcli build MyPipelineJob -p SKIP_SETUP_STAGE=true

这种方法需要在您的 Jenkinsfile 设计中提前考虑，但它提供了通过 CLI 对流水线执行的强大控制。

使用 Groovy（通过 CLI）进行高级故障排除

groovy 和 groovy-script 命令允许您在 Jenkins 控制器上执行任意 Groovy 代码。这提供了对 Jenkins 内部 API 的无与伦比的访问权限，以进行深度检查和操作。

示例：获取构建详情

jcli groovy =
    'def job = Jenkins.instance.getItemByFullName("MyPipelineJob")
    def build = job.getBuildByNumber(123)

    if (build) {
        println "Build #${build.number} for ${job.name}"
        println "Status: ${build.result}"
        println "Duration: ${build.durationString}"
        println "Description: ${build.description ?: "N/A"}"
        println "Causes:"
        build.getCauses().each { cause ->
            println "  - ${cause.shortDescription}"
        }
    } else {
        println "Build 123 not found for MyPipelineJob"
    }'

此脚本检索有关特定构建的全面信息，这对于理解构建为何失败非常有价值，特别是当控制台日志不太清晰时。

执行本地 Groovy 脚本

对于更复杂的 Groovy 脚本，将其编写到 .groovy 文件中并通过 groovy-script 执行：

# my_troubleshooting_script.groovy

def jobName = System.getenv('JOB_NAME') ?: 'MyPipelineJob'
def buildNumber = System.getenv('BUILD_NUMBER') ? Integer.parseInt(System.getenv('BUILD_NUMBER')) : 123

def job = Jenkins.instance.getItemByFullName(jobName)
def build = job?.getBuildByNumber(buildNumber)

if (build) {
    println "Build details for ${job.name} #${build.number}"
    println "Status: ${build.result}"
    build.getAction(hudson.model.ParametersAction.class)?.getParameters()?.each { p ->
        println "Param: ${p.name} = ${p.value}"
    }
} else {
    println "Job ${jobName} or Build ${buildNumber} not found."
}

然后运行它：

JOB_NAME=MyPipelineJob BUILD_NUMBER=123 jcli groovy-script my_troubleshooting_script.groovy

这使得您可以对故障排除工具进行版本控制。

高效故障排除技巧

具体化：使用 grep 时，请优化您的模式。查找特定的错误代码、唯一消息或时间戳。
上下文是关键：始终考虑周围的日志行。错误通常有前因或后续消息，提供更多上下文。
流水线结构：通过清晰的阶段名称和关键步骤中详细的日志来设计您的 Jenkinsfile。这使得更容易精确定位问题。
使用 tee：运行 CLI 命令时，可以将输出通过管道传输到 tee，以便同时显示并保存到文件中供以后分析。
bash jcli console MyPipelineJob 123 | tee build_123_log.txt | grep -i error
Jenkins 系统日志：请记住，Jenkins 本身也有系统日志（JENKINS_HOME/logs）。有时构建失败是由于 Jenkins 系统问题，而不是流水线代码问题。您可以通过 UI（Manage Jenkins -> System Log）或直接在 Jenkins 服务器文件系统上访问它们。

结论

Jenkins CLI 是管理员和开发人员不可或缺的工具，它提供了一种快速而强大的方式来与您的 Jenkins 实例进行交互。通过掌握检索日志、检查环境变量（通过 Groovy）和高效触发构建的命令，您可以显著减少诊断和解决构建失败所花费的时间。将这些 CLI 技术集成到您的日常工作流程中，以维护高性能和可靠的 CI/CD 流水线。

继续探索丰富的 Jenkins CLI 命令列表（jcli help）以及 Groovy 脚本的强大功能，以解锁更高级的自动化和故障排除功能。