理解 Systemd 依赖关系：防止和修复单元冲突

Systemd 是现代系统和服务管理器，在大多数主流 Linux 发行版中都有使用。它强大的设计严重依赖于单元文件来定义服务、挂载点、套接字和其他系统组件。管理这些组件的一个关键方面是依赖关系解析。当依赖关系配置不当时，服务可能无法启动，或者启动顺序错误，甚至相互冲突，从而导致服务不稳定甚至启动失败。

本指南将深入探讨 systemd 的依赖关系机制。我们将研究用于建立服务关系的 P核心指令，诊断依赖关系相关启动问题的技巧，以及解决常见单元冲突的实用方法，以确保稳定且可预测的系统启动顺序。

基础：Systemd 单元依赖指令

Systemd 在单元文件（通常位于 /etc/systemd/system/ 或 /lib/systemd/system/）中使用特定的指令来决定一个单元何时应启动、停止或等待另一个单元。

核心排序指令

这些指令控制单元相对于其他单元的处理顺序：

Requires=：
- 建立强依赖关系。如果所需单元启动失败，当前单元也将失败。
- 它隐含 PartOf=。
Wants=：
- 弱依赖关系。如果所需单元失败，当前单元仍会尝试启动。这用于可选依赖项。
BindsTo=：
- 类似于 Requires=，但在停止方面更强。如果绑定的单元停止（无论出于何种原因），当前单元也会停止。
PartOf=：
- 表示当前单元是另一个单元的从属部分（例如，与主服务相关的特定套接字激活）。如果上级单元停止，从属单元也会停止。

核心启动同步指令

这些指令决定了何时依赖单元相对于所需单元启动：

After=：
- 指定当前单元应在列出的单元成功启动（或达到指定状态，通常是 active）之后才启动。
Before=：
- 指定当前单元应在列出的单元之前启动。

最佳实践： 对于典型的服务启动排序，Wants= 结合 After= 是最常见和最安全的方式。Requires= 应保留给依赖项失败必须导致依赖服务失败的场景。

示例：在服务文件中定义依赖关系

考虑一个自定义应用程序服务 myapp.service，它必须与 PostgreSQL (postgresql.service) 管理的数据库进行通信。

# /etc/systemd/system/myapp.service
[Unit]
Description=My Custom Application

# 确保 PostgreSQL 在我尝试启动之前运行
Requires=postgresql.service
After=postgresql.service

[Service]
ExecStart=/usr/bin/myapp

[Install]
WantedBy=multi-user.target

诊断依赖关系问题

当服务启动失败时，systemd 通常会在日志中提供足够的信息，但依赖关系链可能会掩盖根本原因。以下是排查故障的基本工具和命令。

1. 检查单元状态和日志

最基本的起点是检查服务状态，并在启动失败后立即查看其日志。

# 检查总体状态，通常会提到依赖关系失败
systemctl status myapp.service

# 查看与该单元相关的详细日志
journalctl -u myapp.service --since "5 minutes ago"

2. 分析依赖关系树

Systemd 提供了强大的可视化工具来精确显示什么在等待什么。

`systemctl list-dependencies`

此命令显示指定单元所需的或期望的单元，并遍历整个依赖关系链。

查看 myapp.service 启动所需的内容：

# 前向依赖（必须在我之前启动的）
systemctl list-dependencies --after myapp.service

# 反向依赖（依赖于我的）
systemctl list-dependencies --before myapp.service

`systemctl graphical-view`（如果可用/已配置）

虽然通常用于可视化图（例如，输出 SVG 或 DOT 格式），但理解结构有助于追踪循环依赖。

3. 检测冲突和排序问题

依赖关系冲突通常表现为服务因启动过早或意外停止而失败。

循环依赖： 这是最危险的冲突，单元 A 需要 B，而单元 B 需要 A。Systemd 会尝试解决此问题，但通常会导致一个或两个单元无限期地停留在 failed 或 activating 状态。

要查找可能贯穿整个系统的潜在问题，您可以搜索日志中与排序相关的特定失败消息：

journalctl -b | grep -E "failed|refused to start|dependency was not satisfied"

修复常见的依赖关系问题

一旦识别出问题，可以通过调整相关单元文件中的指令来解决依赖关系问题。

情况 1：服务在先决条件准备就绪之前启动

症状： 您的应用程序日志显示数据库连接错误，但 systemctl status 显示 postgresql.service 是 active 状态。

诊断： 服务可能使用了 After= 但没有足够强的排序机制，或者先决服务已完成其初始化序列，但其套接字/端口尚未开始监听。

修复： 如果服务依赖于网络套接字或设备完全可用，请考虑使用基于套接字的激活。如果不可能，请确保您使用的是 Requires= 和 After=，或者，如果可用，在先决服务报告 'active' 之后检查特定条件。

情况 2：启动/停止顺序冲突

症状： 停止系统导致关键进程挂起或突然失败。

诊断： 这通常表明 BindsTo= 的误用或兄弟服务之间 Before= 和 After= 指令的复杂交互。

修复： 查看兄弟服务（例如，由同一目标启动的服务）。确保如果服务 A 必须在服务 B 运行时运行，则使用 BindsTo= 或 Requires=。如果服务 A 必须在其任务完成之后服务 B 才能开始清理，请验证 After= 顺序是否正确。

情况 3：删除不必要的依赖关系

症状： 由于不必要的服务被拉入启动链，系统启动缓慢。

诊断： 您可能在只需要可选连接时使用了 Requires=。

修复： 将 Requires= 更改为 Wants=。如果服务不绝对需要依赖项才能运行，Wants= 允许系统即使在依赖项失败或被屏蔽的情况下也能继续进行。

# 之前（过于严格）
Requires=optional_logging.service

# 之后（更好）
Wants=optional_logging.service
After=optional_logging.service

应用更改和重新加载

每当您修改单元文件时，都必须在测试更改之前指示 systemd 重新加载其配置。

# 1. 重新加载 systemd 管理器配置
sudo systemctl daemon-reload

# 2. 重启受影响的服务
sudo systemctl restart myapp.service

# 3. 验证状态
systemctl status myapp.service

总结和后续步骤

Systemd 依赖关系管理是稳定服务编排的支柱。通过掌握 Requires/Wants（用于包含）和 After/Before（用于排序）之间的交互，管理员可以精确控制启动过程。在故障排除时，始终从 systemctl status 开始，并利用 systemctl list-dependencies 来可视化导致失败的链。一致、定义良好的单元文件可带来可预测的系统行为，从而最大限度地减少启动或运行时意外的服务中断。