ディスクI/Oレイテンシ高騰のトラブルシューティング:Linuxのためのステップバイステップガイド
ディスクI/O(入出力)レイテンシは、Linuxシステムにおいて一般的なボトルネックであり、アプリケーションのパフォーマンス低下、起動時間の遅延、システム全体の不安定化を招くことがよくあります。CPU使用率は低く見えても、プロセスがディスク操作の完了を待つのに過剰な時間を費やしている場合、システムは高いレイテンシを報告します。これらのI/Oボトルネックを診断し軽減する方法を理解することは、Linuxシステム管理者にとって不可欠なスキルです。
この包括的なガイドでは、Linuxマシン上の高いディスクI/Oレイテンシの原因を特定するための必須ツールと方法論を順を追って説明します。症状の観察から根本原因の解決へと進むために、iostat、iotopなどの強力なユーティリティを活用した実践的な手順に焦点を当てます。
ディスクI/Oメトリクスの理解
トラブルシューティングに入る前に、I/Oの問題を示す主要なメトリクスを理解することが不可欠です。高いレイテンシが主な症状ですが、問題の深刻度と発生源を確認するためには裏付けとなるデータポイントが必要です。
I/O競合の主要な指標
- 高いレイテンシ (await/svctm): I/Oリクエストの処理にかかる時間。高い値(一般的なワークロードでは20ms超、データベースシステムではそれよりはるかに高い値)はボトルネックを示します。
- 高い使用率 (%util): このメトリクスが100%に近づくと、デバイスは飽和し、さらなるリクエストを効率的に処理できなくなります。
- 高いキューイング (avgqu-sz): 平均キューサイズが大きいということは、多くのプロセスがディスクが解放されるのを待っていることを意味します。
ステップ1:iostatによる初期システムヘルスチェック
iostatユーティリティ(sysstatパッケージの一部)は、デバイスの使用率とパフォーマンス統計を監視するための基礎となります。CPUとデバイスI/Oに関する履歴データと現在のデータを提供します。
継続的なI/Oパフォーマンスの確認を行うには、間隔(例:2秒ごと)を指定してiostatを実行します。
sudo iostat -dxm 2
iostat -dxm出力の分析
特にデバイス統計の列(xフラグ)に焦点を当てます。
| 列名 | 説明 | 値が高い場合の意味 |
|---|---|---|
| r/s, w/s | 1秒あたりの読み取り/書き込み数(IOPS) | 高い値は高いスループット要求を示します。 |
| rkB/s, wkB/s | 1秒あたりの読み取り/書き込みキロバイト数 | スループット量を測定します。 |
| await | I/Oリクエストの平均待機時間(ミリ秒)(サービス時間 + キュー時間) | 高いレイテンシの主要な指標です。 |
| %util | デバイスがリクエストの処理に使用されていた時間の割合 | ほぼ100%は飽和を示します。 |
シナリオ例: /dev/sdaがawait時間150ms、%utilが98%を示している場合、そのディスク上で深刻なI/Oボトルネックが発生していることが確認できます。
ヒント: 拡張統計には
-xフラグを、キロバイト(-k)よりも分かりやすいメガバイト単位でのレポートには-mフラグを使用します。
ステップ2:iotopによる原因プロセスの特定
iostatで特定のデバイス(例:/dev/sda)の高いレイテンシが確認されたら、次に重要なステップは、その負荷を生成しているどのプロセスかを特定することです。topコマンドの機能に似ていますがI/Oアクティビティに焦点を当てたiotopユーティリティはここで不可欠です。
iotopがインストールされていない場合は、まずインストールします。
# Debian/Ubuntu
sudo apt update && sudo apt install iotop
# RHEL/CentOS/Fedora
sudo yum install iotop # または dnf install iotop
ルート権限でiotopを実行し、アクティブにスワップしているプロセスのみに絞り込みます。
sudo iotop -oP
-o: アクティブにI/Oを実行しているプロセスのみを表示します。-P: 個々のスレッドではなくプロセスを表示します。
出力を確認し、IO_READとIO_WRITEの列に注意を払います。上位にリストされているプロセスが、ディスク帯域幅を最も消費しています。一般的な原因には、データベースサーバー(MySQL、PostgreSQL)、バックアップユーティリティ、ログローテーションスクリプト、またはスワップ領域に積極的に書き込んでいるシステムなどが挙げられます。
iotop出力の解釈
iotopはプロセスごとの合計ディスク使用量を表示します。もし単一のアプリケーションがディスク使用率を独占している(例:レイテンシの急増時にバックアップスクリプトが50 MB/sで動作している)場合、それが即座の原因です。
ステップ3:pidstatによる詳細調査
iotopはプロセスごとの集計I/Oを示しますが、pidstatは特定のPIDによって開始されたI/O操作に関する詳細な履歴コンテキストを提供でき、長時間実行される問題や断続的な問題の調査に役立ちます。
すべてのプロセスについて、5秒間隔で5回、I/O統計(ブロックの読み取りと書き込み)を監視するには:
sudo pidstat -d 5 5
-d出力の主要なメトリクスは次のとおりです。
- kB_rd/s: タスクによって1秒あたりにディスクから読み込まれたデータ量。
- kB_wr/s: タスクによって1秒あたりにディスクに書き込まれたデータ量。
- kB_ccwr/s: スワップ領域に書き込まれたデータ量(c=キャンセル済み/コミット済み書き込み)。
kB_ccwr/sが継続的に高い場合、システムはスラッシング状態にあります。つまり、RAMが不足しているためにメモリをディスクにスワップしており、これが直接高いレイテンシにつながっています。
ステップ4:メモリのスラッシング(スワップ使用量)の診断
高いスワップアクティビティは、システムが遅い物理ディスクを仮想RAMとして使用することを余儀なくされるため、高いディスクI/Oレイテンシとして現れることがよくあります。メモリ不足の状況を確認するには、freeコマンドを使用します。
free -h
usedメモリがtotalメモリに近く、swap usedの値が急速に増加している場合、システムはメモリ不足であり、I/Oレイテンシはスワップの二次的な症状です。
スラッシングの解決策:
1. topまたはhtopを使用してメモリを大量に消費しているプロセスを特定します。
2. 可能な場合はシステムRAMを増やします。
3. アプリケーションの設定を変更して、メモリ使用量を減らします。
一般的な原因と修復戦略
発生源を特定したら、適切な修正を適用します。
1. スケジュールされていないバックアップまたはメンテナンス
症状: スケジュールされたジョブ(cronジョブなど)と一致する高いI/O使用率。
修復: 大容量のI/Oジョブ(データベースダンプや大規模ファイル転送など)をオフピーク時間帯に再スケジュールするか、ユーティリティがサポートしていればその速度を制限します。
2. 非効率的なデータベースクエリ
症状: iotopでデータベースプロセス(例:mysqld)がトップコンシューマーである。
修復: インデックスが不十分なクエリを最適化し、フルテーブルスキャンによる大量のランダムリードを引き起こさないようにします。
3. 過剰なロギング
症状: アプリケーションまたはシステムロギングプロセスが大量のデータを書き込んでいる。
修復: アプリケーションのロギングレベルを見直します。ログのバッファリングを検討するか、ローカルディスクへの書き込みを減らすためにリモートロギングソリューション(SyslogやELKスタックなど)を使用します。
4. ディスク障害または設定ミス
症状: 高いスループットと相関しない極端に高いawait時間、または奇妙な読み書きパターン。これは、ハードウェアの障害または不適切なRAID構成を示している可能性があります。
修復: ディスクの健全性を確認するためにSMARTデータ(smartctl)をチェックします。RAIDを使用している場合は、アレイの状態を確認します。
プロアクティブな監視のためのベストプラクティス
I/Oボトルネックを修正するよりも予防する方が賢明です。継続的な監視を導入します。
- アラートの設定: モニタリングツール(Prometheus/Grafana、Nagiosなど)を設定し、平均ディスク
await時間がクリティカルな閾値(例:50ms)を超えた場合、または%utilが数分間にわたって90%を超えた場合にアラートを出すようにします。 - ベースラインパフォーマンスの確立: 特定のワークロードにおける「通常」のI/Oレイテンシを把握します。これにより、異常を検知しやすくなります。
- ワークロードの種類の理解: ランダムI/Oパターン(データベースで一般的)は、シーケンシャルI/O(メディアストリーミングや大規模ファイル読み取りで一般的)よりもはるかに高いレイテンシを引き起こします。
iostatでシステム全体のパフォーマンスを測定し、iotop/pidstatで特定の違反者を特定するという体系的なツール使用により、システム管理者はピーク時のディスクパフォーマンスを迅速に回復させ、I/O関連のレイテンシの問題を解消することができます。