Meilleures pratiques pour le partitionnement déclaratif des grandes tables PostgreSQL

Les grandes tables PostgreSQL deviennent difficiles à gérer lorsque chaque requête, reconstruction d'index ou tâche de conservation des données doit toucher la même relation massive. Le partitionnement déclaratif vous permet de diviser une table logique en tables enfants plus petites, afin que PostgreSQL puisse acheminer les lignes et élaguer les partitions pour les requêtes qui utilisent la clé de partition.

La clé est la planification. Le partitionnement est le plus utile lorsqu'il correspond à vos filtres de requête et à votre cycle de vie des données ; il peut ajouter une surcharge lorsque la clé de partition est rarement utilisée.

Comprendre le partitionnement déclaratif

Le partitionnement déclaratif vous permet de définir une table comme partitionnée, en spécifiant la clé de partitionnement et la stratégie. PostgreSQL achemine ensuite automatiquement les données vers la partition appropriée en fonction de la valeur de la clé de partitionnement. Cela élimine le besoin de déclencheurs complexes ou de gestion manuelle des données, ce qui en fait une solution beaucoup plus propre et plus efficace par rapport aux méthodes plus anciennes.

Avantages clés du partitionnement déclaratif :

Amélioration des performances des requêtes : Les requêtes qui filtrent par la clé de partitionnement peuvent analyser uniquement les partitions pertinentes, réduisant ainsi la quantité de données traitées.
Chargement de données plus rapide : Les opérations de chargement en masse peuvent être dirigées vers des partitions spécifiques, améliorant ainsi l'efficacité.
Maintenance simplifiée : Les opérations telles que l'archivage, la suppression de données anciennes ou la réindexation peuvent être effectuées sur des partitions individuelles sans affecter l'ensemble de la table.
Surcharge réduite : Élimine le besoin de logique de partitionnement manuelle et de maintenance associée.

Stratégies de partitionnement dans PostgreSQL

PostgreSQL propose trois stratégies principales pour le partitionnement déclaratif, chacune adaptée à différents cas d'utilisation :

1. Partitionnement par plage

Le partitionnement par plage divise les données en fonction d'une plage continue de valeurs dans la clé de partitionnement. C'est idéal pour les données de séries temporelles, les identifiants séquentiels ou toute donnée dont les valeurs se situent dans des intervalles définis.

Quand l'utiliser :

Données de séries temporelles (par exemple, journaux, événements par date/timestamp).
Identifiants générés séquentiellement.
Données avec des valeurs ordonnées et continues.

Exemple : Partitionnement d'une table ventes par date_vente.

-- Créer la table parente partitionnée
CREATE TABLE ventes (
    vente_id SERIAL,
    produit_id INT,
    montant DECIMAL(10, 2),
    date_vente DATE NOT NULL
)
PARTITION BY RANGE (date_vente);

-- Créer des partitions pour des plages de dates spécifiques
CREATE TABLE ventes_2023_t1 PARTITION OF ventes
    FOR VALUES FROM ('2023-01-01') TO ('2023-04-01');

CREATE TABLE ventes_2023_t2 PARTITION OF ventes
    FOR VALUES FROM ('2023-04-01') TO ('2023-07-01');

CREATE TABLE ventes_2023_t3 PARTITION OF ventes
    FOR VALUES FROM ('2023-07-01') TO ('2023-10-01');

CREATE TABLE ventes_2023_t4 PARTITION OF ventes
    FOR VALUES FROM ('2023-10-01') TO ('2024-01-01');

-- L'insertion de données va automatiquement dans la bonne partition
INSERT INTO ventes (produit_id, montant, date_vente) VALUES (101, 150.50, '2023-02-15');

2. Partitionnement par liste

Le partitionnement par liste divise les données en fonction d'une liste discrète de valeurs dans la clé de partitionnement. C'est utile lorsque vous avez un ensemble fixe et connu de catégories ou d'identifiants.

Quand l'utiliser :

Régions géographiques (par exemple, pays, état).
Catégories de produits.
Rôles ou statuts d'utilisateurs.

Exemple : Partitionnement d'une table clients par code_pays.

-- Créer la table parente partitionnée
CREATE TABLE clients (
    client_id SERIAL,
    nom VARCHAR(100),
    code_pays CHAR(2) NOT NULL
)
PARTITION BY LIST (code_pays);

-- Créer des partitions pour des codes pays spécifiques
CREATE TABLE clients_us PARTITION OF clients
    FOR VALUES IN ('US');

CREATE TABLE clients_ca PARTITION OF clients
    FOR VALUES IN ('CA');

CREATE TABLE clients_uk PARTITION OF clients
    FOR VALUES IN ('GB');

-- L'insertion de données va automatiquement dans la bonne partition
INSERT INTO clients (nom, code_pays) VALUES ('John Doe', 'US');

3. Partitionnement par hachage

Le partitionnement par hachage divise les données en fonction d'une valeur de hachage de la clé de partitionnement. C'est utile pour répartir uniformément les données entre les partitions lorsqu'il n'y a pas de plage ou de liste naturelle, aidant à équilibrer la charge d'E/S.

Quand l'utiliser :

Répartir les données uniformément lorsque d'autres stratégies ne conviennent pas.
Éviter les points chauds dans les E/S.
Tables de transactions à volume élevé où une distribution uniforme est critique.

Exemple : Partitionnement d'une table commandes par commande_id.

-- Créer la table parente partitionnée
CREATE TABLE commandes (
    commande_id BIGSERIAL,
    utilisateur_id INT,
    total_commande DECIMAL(10, 2)
)
PARTITION BY HASH (commande_id);

-- Créer un nombre spécifié de partitions (par exemple, 4)
CREATE TABLE commandes_part_1 PARTITION OF commandes FOR VALUES WITH (MODULUS 4, REMAINDER 0);
CREATE TABLE commandes_part_2 PARTITION OF commandes FOR VALUES WITH (MODULUS 4, REMAINDER 1);
CREATE TABLE commandes_part_3 PARTITION OF commandes FOR VALUES WITH (MODULUS 4, REMAINDER 2);
CREATE TABLE commandes_part_4 PARTITION OF commandes FOR VALUES WITH (MODULUS 4, REMAINDER 3);

-- L'insertion de données va automatiquement dans la bonne partition
INSERT INTO commandes (utilisateur_id, total_commande) VALUES (500, 250.75);

Meilleures pratiques pour la mise en œuvre du partitionnement déclaratif

La mise en œuvre efficace du partitionnement nécessite une planification minutieuse et le respect des meilleures pratiques pour maximiser ses avantages.

1. Choisir la bonne clé de partitionnement

La clé de partitionnement est la décision la plus critique. Elle impacte directement les performances des requêtes et la maintenance. Choisissez une clé fréquemment utilisée dans les clauses WHERE de vos requêtes les plus courantes.

Pour les données de séries temporelles : Les colonnes DATE, TIMESTAMP sont d'excellents candidats pour le partitionnement par plage.
Pour les données catégorielles : Les colonnes comme code_pays, statut, région sont bonnes pour le partitionnement par liste.
Pour une distribution uniforme : Une colonne à haute cardinalité fréquemment utilisée dans les requêtes, adaptée au partitionnement par hachage.

Astuce : Évitez de partitionner sur des colonnes rarement utilisées dans les clauses WHERE ou sur des colonnes qui n'ont pas de valeurs distinctes entre les partitions, car cela peut entraîner l'analyse de toutes les partitions par les requêtes.

2. Sélectionner la stratégie de partitionnement appropriée

Comme discuté, choisissez la stratégie (plage, liste, hachage) qui correspond le mieux à vos données et à vos modèles de requêtes.

Plage : Pour des données ordonnées et continues.
Liste : Pour des catégories discrètes et connues.
Hachage : Pour une distribution uniforme des données et un équilibrage de charge.

3. Planifier la taille et le nombre de partitions

Il n'y a pas de réponse unique pour la taille des partitions. Cependant, considérez ces points :

Trop de petites partitions : Peut augmenter la surcharge pour le planificateur et le système. Chaque partition a ses propres métadonnées.
Trop peu de grandes partitions : Peut annuler les avantages de performance du partitionnement.
Taille idéale : Visez des partitions suffisamment grandes pour offrir des avantages de performance mais gérables pour les opérations de maintenance. Un point de départ courant est d'aligner les partitions sur une unité de temps logique (par exemple, quotidienne, hebdomadaire, mensuelle pour les données de séries temporelles) ou un volume de données gérable.

Astuce : Surveillez la taille de vos partitions et ajustez votre stratégie de partitionnement à mesure que vos données croissent. Vous pouvez détacher et rattacher des partitions, ou même recréer des partitions avec une stratégie différente si nécessaire.

4. Définir une stratégie de partitionnement pour les données futures

Lors de la création d'une table partitionnée, vous pouvez également définir des partitions par défaut ou des stratégies pour gérer les données qui ne tombent pas dans les partitions existantes. Cependant, il est généralement recommandé de créer explicitement des partitions pour éviter un placement inattendu des données ou des erreurs.

Exemple : Utilisation d'une partition DEFAULT pour le partitionnement par plage afin de capturer les valeurs inattendues.

CREATE TABLE evenements (
    evenement_id BIGSERIAL,
    cree_le DATE NOT NULL,
    payload JSONB
)
PARTITION BY RANGE (cree_le);

CREATE TABLE evenements_2026_01 PARTITION OF evenements
    FOR VALUES FROM ('2026-01-01') TO ('2026-02-01');

CREATE TABLE evenements_default PARTITION OF evenements DEFAULT;

Meilleure pratique : Pour plus de clarté et de contrôle, créez manuellement des partitions pour les plages/listes de données attendues. Considérez les partitions DEFAULT avec prudence, en particulier pour le partitionnement par liste ou plage, car elles peuvent accumuler des données non intentionnelles.

5. Gérer le cycle de vie des partitions (archivage/suppression de données)

L'un des plus grands avantages du partitionnement est la gestion simplifiée du cycle de vie des données. Pour les données de séries temporelles, il est courant d'archiver ou de supprimer les anciennes données.

Détacher des partitions : Vous pouvez détacher une partition pour archiver ses données ou la supprimer complètement sans affecter les autres partitions.

-- Détacher une partition
ALTER TABLE ventes DETACH PARTITION ventes_2023_t1;

-- Optionnellement, archiver la partition détachée avant de la supprimer
-- CREATE TABLE ventes_archive_2023_t1 (LIKE ventes INCLUDING ALL);
-- INSERT INTO ventes_archive_2023_t1 SELECT * FROM ventes_2023_t1;

-- Supprimer la partition détachée
DROP TABLE ventes_2023_t1;

Supprimer des partitions : Pour des données très anciennes qui n'ont plus besoin d'être interrogées.

-- Supprimer directement une partition (si elle n'est pas détachée en premier, la table parente doit le savoir)
DROP TABLE ventes_2023_t1;

Astuce : Automatisez la création de nouvelles partitions et le détachement/suppression des anciennes partitions à l'aide de tâches cron ou d'autres outils de planification, souvent combinés avec des scripts.

6. Indexation sur les partitions

Les index sur les tables partitionnées peuvent être gérés au niveau de la table parente ou au niveau de la partition individuelle.

Index partitionnés sur le parent : Un index déclaré sur le parent partitionné est virtuel. PostgreSQL crée ou attache des index correspondants sur les partitions ; les données d'index réelles résident dans les index enfants.
Index sur des partitions individuelles : Vous pouvez toujours gérer les index par partition lorsqu'une partition a besoin d'un index différent ou lorsque vous attachez une table existante en tant que partition.

Meilleure pratique : Créez des index communs sur le parent partitionné afin que les nouvelles partitions héritent du modèle d'indexation prévu. Utilisez la gestion des index par partition pour les exceptions et les opérations de maintenance importantes.

-- Exemple : Création d'un index local sur une partition
CREATE INDEX ON ventes_2023_t2 (produit_id);

7. Utiliser la syntaxe déclarative de manière cohérente

Utilisez PARTITION BY sur la table parente et PARTITION OF ... FOR VALUES sur les tables enfants pour le partitionnement déclaratif. Les modèles de partitionnement basés sur l'héritage plus anciens existent encore dans les systèmes hérités, mais ils nécessitent un routage et une maintenance plus manuels.

8. Surveiller et analyser les plans de requêtes

Après avoir implémenté le partitionnement, il est crucial de surveiller les performances des requêtes. Utilisez EXPLAIN ANALYZE pour vérifier que les requêtes élaguent correctement les partitions (c'est-à-dire qu'elles n'analysent que les partitions pertinentes).

EXPLAIN ANALYZE SELECT * FROM ventes WHERE date_vente BETWEEN '2023-02-01' AND '2023-02-28';

Recherchez des indications dans la sortie EXPLAIN que le planificateur de requêtes ne considère que la partition ventes_2023_t1. Si le plan de requête montre qu'il analyse plusieurs ou toutes les partitions alors qu'il ne le devrait pas, votre clé de partitionnement ou votre requête pourrait nécessiter un ajustement.

Considérations avancées

Clés étrangères et contraintes uniques

Clés étrangères : PostgreSQL moderne prend en charge les clés étrangères impliquant des tables partitionnées, mais le comportement de verrouillage et les performances méritent toujours d'être testés sur votre version et votre schéma.
Contraintes uniques : Une clé primaire ou une contrainte unique sur une table partitionnée doit inclure toutes les colonnes de la clé de partition, et les clés de partition ne peuvent pas être des expressions. Cette restriction permet à PostgreSQL d'appliquer l'unicité avec des index par partition.

Astuce : Pour l'unicité sur l'ensemble de la table logique, incluez la clé de partitionnement dans la contrainte. Par exemple, utilisez UNIQUE (code_pays, client_id) pour le partitionnement par liste sur code_pays.

Performances `INSERT`

Bien que le partitionnement améliore généralement les performances SELECT, les performances INSERT peuvent être affectées. Si la clé de partitionnement n'est pas uniformément distribuée ou si la logique de partitionnement est complexe, les insertions peuvent entraîner une certaine surcharge car PostgreSQL détermine la partition correcte. Le partitionnement par hachage est souvent bon pour répartir la charge d'écriture.

Stratégie de partitionnement pour les grandes tables existantes

Partitionner une table existante très volumineuse peut être une opération complexe. Cela implique souvent :

Créer la nouvelle structure de table partitionnée.
Créer des partitions pour les données historiques.
Copier les données de l'ancienne table vers la nouvelle table partitionnée (potentiellement par lots).
Basculer les lectures/écritures de l'application vers la nouvelle table partitionnée.
Supprimer l'ancienne table.

Ce processus doit être soigneusement planifié, testé dans un environnement de préproduction et exécuté pendant une fenêtre de maintenance pour minimiser les temps d'arrêt.

Partitionner pour les requêtes et le calendrier

Le partitionnement déclaratif fonctionne mieux lorsque la clé de partition apparaît dans vos filtres les plus importants et correspond à la façon dont vous conservez ou archivez les données. Commencez par les modèles de requêtes, choisissez le partitionnement par plage, liste ou hachage à partir de là, et vérifiez l'élagage avec EXPLAIN ANALYZE. Ensuite, automatisez la création et la suppression des partitions pour que la conception continue de fonctionner après le premier mois d'arrivée des données.

Meilleures pratiques pour le partitionnement déclaratif des grandes tables PostgreSQL

Comprendre le partitionnement déclaratif

Avantages clés du partitionnement déclaratif :

Stratégies de partitionnement dans PostgreSQL

1. Partitionnement par plage

2. Partitionnement par liste

3. Partitionnement par hachage

Meilleures pratiques pour la mise en œuvre du partitionnement déclaratif

1. Choisir la bonne clé de partitionnement

2. Sélectionner la stratégie de partitionnement appropriée

3. Planifier la taille et le nombre de partitions

4. Définir une stratégie de partitionnement pour les données futures

5. Gérer le cycle de vie des partitions (archivage/suppression de données)

6. Indexation sur les partitions

7. Utiliser la syntaxe déclarative de manière cohérente

8. Surveiller et analyser les plans de requêtes

Considérations avancées

Clés étrangères et contraintes uniques

Performances INSERT

Stratégie de partitionnement pour les grandes tables existantes

Partitionner pour les requêtes et le calendrier

Performances `INSERT`