PostgreSQLトラブルシューティングの落とし穴トップ5と回避方法

ほとんどのPostgreSQLインシデントは、特別な原因から始まるわけではありません。遅いエンドポイント、ブロックされたセッションのキュー、予想以上に急速に成長したテーブル、あるいは最悪のタイミングでWALパーティションから発生するディスクアラートから始まります。難しいのは、PostgreSQLにインデックス、autovacuum、メモリ設定、ロック、WALがあることを知ることではありません。難しいのは、今どれが重要で、次のインシデントを悪化させる修正を避ける方法を知ることです。

以下に挙げるPostgreSQLトラブルシューティングの落とし穴は、実際の運用業務で最も頻繁に見られるものです。これらは単なる「このパラメータを調整してください」というヒントではありません。それぞれに症状、罠、そして本番環境を変更する前に問題をより安全に推論する方法が含まれています。

落とし穴1：インデックスの不足と誤用

PostgreSQLのパフォーマンス低下の最も頻繁な原因の1つは、不適切なインデックス設定です。多くのDBAは自動的に作成されるプライマリキーインデックスにのみ依存し、特定のクエリパターンを考慮しないため、効率的なインデックススキャンの代わりに、頻繁でコストのかかるシーケンシャルスキャンが発生します。

診断：シーケンシャルスキャン

クエリのパフォーマンスが悪い場合、実行計画から始めます。クエリがデータを変更する場合や長時間実行される可能性がある場合は、最初にプレーンなEXPLAINを使用します。安全に実行でき、実際のタイミングとI/O動作が必要な場合は、EXPLAIN (ANALYZE, BUFFERS)を使用します。

EXPLAIN ANALYZE
SELECT * FROM user_data WHERE last_login > '2023-10-01' AND status = 'active';

落とし穴の回避：複合インデックスと部分インデックス

クエリがWHERE句で複数のカラムを使用する場合、複合インデックスが役立つことがありますが、カラムの順序はクエリの形状に依存します。等価フィルタは通常、範囲フィルタの前に配置します。WHERE status = 'active' AND last_login > ...のようなクエリの場合、(status, last_login)のインデックスは、PostgreSQLが1つのステータスに絞り込んでから日付範囲をスキャンできるため、(last_login, status)よりも有用であることがよくあります。ORDER BY last_login DESC LIMIT 50の場合は、最適なインデックスが異なる場合があります。

さらに、特定の条件を満たす場合にのみインデックスが必要なカラムには、部分インデックスを検討してください。これにより、インデックスサイズが削減され、インデックスの作成とメンテナンスが高速化されます。

-- 上記のクエリ例に対する複合インデックスを作成
CREATE INDEX idx_user_login_status ON user_data (status, last_login);

-- アクティブユーザーのみの部分インデックスを作成
CREATE INDEX idx_active_users_email ON user_data (email) WHERE status = 'active';

idx_scanが今日ゼロだからといって、インデックスを削除しないでください。統計は再起動や手動リセット後にリセットされ、一部のインデックスは稀ではあるが重要なジョブのために存在します。より安全な確認方法は次のとおりです。

SELECT schemaname, relname, indexrelname, idx_scan,
       pg_size_pretty(pg_relation_size(indexrelid)) AS index_size
FROM pg_stat_user_indexes
ORDER BY pg_relation_size(indexrelid) DESC;

インデックスが大きく、完全なビジネスサイクルにわたって使用されておらず、制約をバックアップしていない場合、削除の候補となります。ビジーなシステムでは、通常の読み取りと書き込みが操作全体でブロックされないように、DROP INDEX CONCURRENTLYを使用します。

落とし穴2：Autovacuumデーモンの軽視

PostgreSQLはマルチバージョン同時実行制御（MVCC）を使用します。更新と削除では、バキュームがクリーンアップするまで古い行バージョンが残ります。Autovacuumはオプションのハウスキーピングではなく、通常のデータベース操作の一部です。デッドタプルを削除し、autoanalyzeを通じてプランナ統計を更新し、トランザクションIDの周回を防ぎます。

診断：過度のブロート

autovacuumを無視すると、テーブルブロートが発生し、ファイルシステムが未使用領域を保持するため、シーケンシャルスキャンが大幅に遅くなります。autovacuumが高い書き込みトラフィックに追いつけない場合、XIDの消費が加速します。

一般的な症状： 高いI/O待機、テーブルファイルの増大、古い行推定値、ライブ行数がほぼ安定しているにもかかわらずテーブルサイズが増加し続ける。

有用な最初のチェック：

SELECT schemaname, relname, n_live_tup, n_dead_tup,
       last_autovacuum, last_autoanalyze,
       vacuum_count, autovacuum_count
FROM pg_stat_user_tables
ORDER BY n_dead_tup DESC
LIMIT 20;

SELECT datname, age(datfrozenxid) AS xid_age
FROM pg_database
ORDER BY age(datfrozenxid) DESC;

落とし穴の回避：Autovacuumのチューニング

多くのチームはデフォルト設定のままにし、その後、1つか2つの高チャーンテーブルに対してデフォルトが十分にアグレッシブでないことを発見します。クラスター全体をノイズだらけにする代わりに、それらのテーブルを直接チューニングします。

最初に理解すべき設定は次のとおりです。

autovacuum_vacuum_scale_factor：バキュームがトリガーされる前に変更が必要なテーブルの割合。大きなテーブルは通常、より低い値が必要です。
autovacuum_vacuum_threshold：スケールファクター計算に追加される固定行しきい値。
autovacuum_vacuum_cost_delayとautovacuum_vacuum_cost_limit：スロットリング制御。autovacuumを高速化するとI/Oプレッシャーが増加する可能性があるため、変更後はシステムを監視します。

これらはpostgresql.confでグローバルに、またはストレージパラメータを使用してテーブルごとにチューニングし、autovacuumが高チャーンテーブルを管理するのに十分アグレッシブに実行されるようにします。

ALTER TABLE high_churn_table SET (
  autovacuum_vacuum_scale_factor = 0.02,
  autovacuum_vacuum_threshold = 5000
);

罠は、パフォーマンス問題の際にautovacuumが表示されたために無効にすることです。autovacuumが常に表示されている場合、それは通常、書き込みチャーンに追いつこうとしていることを意味します。それを、autovacuumが原因であるという証拠としてではなく、キャパシティとチューニングのシグナルとして扱います。

落とし穴3：`shared_buffers`と`work_mem`の難題

メモリ割り当ての誤った設定は、データベースのI/Oパフォーマンスに直接影響を与える一般的な落とし穴です。この領域では、shared_buffers（データブロックのキャッシュ）とwork_mem（セッション内のソートおよびハッシュ操作に使用されるメモリ）の2つのパラメータが支配的です。

診断：高いディスクI/Oとスピル

ワークロードに対してshared_buffersが小さすぎる場合、PostgreSQLはオペレーティングシステムのキャッシュとストレージにより大きく依存します。work_memが小さすぎる場合、ソートやハッシュ操作が一時ファイルをディスクにスピルします。work_memがグローバルに大きすぎる場合、同時クエリのバーストがメモリを枯渇させる可能性があります。

ディスクスピルを確認するには、EXPLAIN ANALYZEを使用します。次のような行を探します。

Sort Method: external merge Disk: 1234kB

落とし穴の回避：戦略的なメモリ割り当て

1. `shared_buffers`

shared_buffersの一般的な出発点はシステムRAMの約25％ですが、これは普遍的なルールではありません。小規模なインスタンス、コンテナメモリ制限、混合ワークロード、マネージドデータベースプラットフォームはすべて、適切な値を変更する可能性があります。PostgreSQLはオペレーティングシステムのページキャッシュも利用するため、すべてのメモリをshared_buffersに割り当てるのは通常、間違いです。

2. `work_mem`

このパラメータはセッション固有です。一般的な落とし穴は、高いグローバルwork_memを設定することです。これは、数百の同時接続で乗算されると、システムRAMを急速に枯渇させ、スワップやクラッシュを引き起こす可能性があります。代わりに、控えめなグローバルデフォルトを設定し、複雑なレポートやバッチジョブを実行する特定のセッションに対してSET work_memを使用して増やします。

# postgresql.confの例
shared_buffers = 12GB   # 合計RAM 48GBを想定
work_mem = 4MB          # 控えめなグローバルデフォルト

レポートジョブの場合は、そのセッションまたはトランザクションに対してのみ設定します。

BEGIN;
SET LOCAL work_mem = '128MB';
-- レポートクエリを実行
COMMIT;

1つのクエリがwork_memを複数回使用する可能性があることに注意してください。複数のソートノードやハッシュノードを持つパラレルクエリは、実際に使用されるメモリを増加させる可能性があります。

落とし穴4：長時間実行クエリとロックの無視

制約のない、不適切に記述されたクエリやアプリケーションエラーにより、接続が何時間もアクティブなままになり、リソースを消費し、さらに悪いことに、他のプロセスをブロックするトランザクションロックを保持する可能性があります。これらのクエリを監視および管理しないことは、主要な安定性リスクです。

診断：アクティブセッションの監視

pg_stat_activityビューを使用して、長時間実行クエリ、実行中の特定のSQL、および現在の状態（例：ロック待機、アクティブ）を迅速に特定します。

SELECT pid, usename, client_addr, backend_start, state, query_start, query
FROM pg_stat_activity
WHERE state = 'active' AND now() - query_start > interval '5 minutes';

ロック待機の場合、ブロックしているPIDを含めます。

SELECT a.pid,
       a.usename,
       a.state,
       now() - a.query_start AS age,
       pg_blocking_pids(a.pid) AS blocked_by,
       a.query
FROM pg_stat_activity a
WHERE cardinality(pg_blocking_pids(a.pid)) > 0
ORDER BY age DESC;

落とし穴の回避：タイムアウトと終了

セッションおよびステートメントのタイムアウトを実装して、暴走プロセスが重大な害を引き起こす前に自動的に終了させます。

statement_timeout：単一のステートメントがキャンセルされるまでに実行できる最大時間。これはグローバルまたはアプリケーション接続ごとに設定する必要があります。
lock_timeout：ステートメントがロックを待機してから試行を放棄するまでの最大時間。

即時の緩和策として、pg_stat_activityで特定された問題のあるプロセスを、そのプロセスID（PID）を使用して終了できます。

-- グローバルステートメントタイムアウトを10分（600000ミリ秒）に設定
ALTER SYSTEM SET statement_timeout = '600s';

-- PIDを使用して特定のクエリを終了
SELECT pg_terminate_backend(12345);

クエリが単に高コストであるだけの場合は、最初にpg_cancel_backend(pid)を優先します。これにより、現在のステートメントはキャンセルされますが、セッションは存続します。セッションがトランザクション内でアイドル状態、ロックを保持、またはキャンセルに応答しない場合は、pg_terminate_backend(pid)を使用します。間違ったバックエンドを終了すると、アプリケーションがまだ完了することを期待している作業がロールバックされる可能性があるため、アクションを実行する前に、クエリ、ユーザー、クライアントアドレス、およびブロック関係をキャプチャします。

落とし穴5：不適切なWAL管理とディスク容量計画

PostgreSQLは、耐久性とレプリケーションのためにWrite-Ahead Logging（WAL）に依存しています。WALセグメントは、書き込みトラフィックが多いときに急速に蓄積されます。一般的な運用上の落とし穴は、WALアーカイブに関連するディスク容量の使用状況を監視しないこと、または適切なストレージ計画なしにアグレッシブなWALパラメータを設定することです。

診断：データベースの停止

不適切なWAL管理の最も深刻な症状は、pg_walを保持するパーティションのスペースがデータベースで不足することです。これは、アーカイブが失敗した場合、スタンバイがダウンした場合、またはレプリケーションスロットがもはや存在しないコンシューマーのためにWALを保持している場合によく発生します。

落とし穴の回避：サイジングとアーカイブ

1. WALサイズの制御

max_wal_sizeパラメータはチェックポイントのターゲットであり、ハードディスククォータではありません。PostgreSQLは、アーカイブ、レプリケーション、またはリカバリのためにWALを保持する必要がある場合、これを超える可能性があります。低く設定しすぎると、頻繁なチェックポイントと余分なI/Oが発生します。高く設定すると、チェックポイントのプレッシャーを緩和できますが、それでもディスク監視とアーカイブ監視が必要です。

# postgresql.confの例
# 高負荷下でのチェックポイント頻度を減らすために増加
max_wal_size = 4GB 
min_wal_size = 512MB

2. アーカイブ戦略

ポイントインタイムリカバリ（PITR）またはレプリケーションのためにWALアーカイブ（archive_mode = on）が有効になっている場合、アーカイブプロセスは信頼性が高くなければなりません。アーカイブ先（例：ネットワークストレージ）にアクセスできなくなると、PostgreSQLはセグメントを保持し続け、最終的にローカルディスクを満たします。archive_commandの障害が続く場合にDBAに警告するための監視が設定されていることを確認します。

また、レプリケーションスロットも確認します。

SELECT slot_name, slot_type, active, restart_lsn,
       pg_size_pretty(pg_wal_lsn_diff(pg_current_wal_lsn(), restart_lsn)) AS retained_wal
FROM pg_replication_slots
ORDER BY pg_wal_lsn_diff(pg_current_wal_lsn(), restart_lsn) DESC NULLS LAST;

保持されるWALが増加している非アクティブなスロットは、プライマリを満たす最も速い方法の1つです。

実用的なトラブルシューティングの順序

プレッシャーがかかっているときは、固定された順序を使用して、ランダムに症状を追いかけないようにします。

ディスク容量、特にデータディレクトリ、pg_wal、および一時ファイルの場所を確認します。
pg_stat_activityでアクティブセッションとブロッカーを確認します。
EXPLAIN (ANALYZE, BUFFERS)を使用して、遅いクエリプランが実際に期待どおりに動作しているかどうかを確認します。
テーブルのチャーン、デッドタプル、およびautovacuumの履歴を確認します。
WALアーカイブ、レプリケーションラグ、およびスロット保持を確認します。
一度に1つのことを変更し、変更前後の証拠を保持します。

最大のPostgreSQLトラブルシューティングの間違いは、すべてのインシデントをチューニングの問題として扱うことです。適切な修正がインデックスである場合もあります。タイムアウトの欠如である場合もあります。スタックしたレプリケーションスロットである場合もあります。データベースは通常、十分な証拠を提供します。規律は、ノブを回す前にその証拠を読むことです。