Comprendre la cohérence MongoDB : Le modèle BASE expliqué aux développeurs

Dans le monde du développement d'applications modernes, le choix de la bonne base de données est crucial, et la compréhension de son modèle de cohérence sous-jacent est primordiale. MongoDB, une base de données orientée document NoSQL de premier plan, a acquis une immense popularité pour sa flexibilité, son évolutivité et ses performances. Cependant, son approche de la cohérence des données diffère souvent considérablement des bases de données relationnelles traditionnelles. Cet article démystifiera le concept de cohérence éventuelle et du modèle BASE tel qu'appliqué à MongoDB, explorera comment MongoDB gère les niveaux de cohérence de lecture (Read Concerns) et d'écriture (Write Concerns), le comparera au modèle ACID, et expliquera pourquoi ces choix sont fondamentaux pour l'évolutivité des applications haute performance.

Pour les développeurs migrant depuis des bases de données SQL ou ceux qui construisent des systèmes distribués, saisir les garanties de cohérence de MongoDB est essentiel pour concevoir des applications résilientes et prévisibles. Nous examinerons les compromis impliqués et fournirons des informations pratiques sur la manière dont vous pouvez ajuster le comportement de MongoDB pour répondre aux exigences spécifiques de votre application.

ACID vs BASE : Deux approches de la cohérence

Avant de plonger dans le modèle de MongoDB, il est utile de comprendre les deux paradigmes principaux de cohérence des bases de données : ACID et BASE.

Les Propriétés ACID (SGBDR Traditionnels)

Les systèmes de gestion de bases de données relationnelles (SGBDR) traditionnels comme PostgreSQL ou MySQL adhèrent généralement aux propriétés ACID, garantissant la fiabilité des données, en particulier dans les charges de travail transactionnelles. ACID signifie :

Atomicité (Atomicity) : Chaque transaction est traitée comme une unité unique et indivisible. Elle est soit entièrement exécutée (validée) soit n'a pas lieu du tout (annulée). Il n'y a pas de transactions partielles.
Cohérence (Consistency) : Une transaction fait passer la base de données d'un état valide à un autre. Elle garantit que les données écrites dans la base de données doivent être valides conformément à toutes les règles et contraintes définies.
Isolation (Isolation) : Les transactions concurrentes s'exécutent en isolation, donnant l'impression qu'elles s'exécutent séquentiellement. Le résultat des transactions concurrentes est le même que s'ils avaient été exécutés l'un après l'autre.
Durabilité (Durability) : Une fois qu'une transaction a été validée, elle le reste même en cas de perte de courant, de plantage ou d'autres défaillances du système. Les modifications sont stockées de manière permanente.

ACID garantit une cohérence forte, ce qui les rend idéaux pour les applications nécessitant une intégrité stricte des données, telles que les transactions financières.

Les Propriétés BASE (Bases de données NoSQL comme MongoDB)

En revanche, de nombreuses bases de données NoSQL, y compris MongoDB, privilégient la disponibilité et la tolérance aux partitions sur la cohérence immédiate, s'alignant souvent sur le modèle BASE. BASE signifie :

Basically Available (Globalement Disponible) : Le système garantit la disponibilité, ce qui signifie qu'il répondra à toute requête, même s'il ne peut pas garantir la version la plus récente des données.
Soft State (État Évolutif) : L'état du système peut changer avec le temps, même sans entrée. Ceci est dû au modèle de cohérence éventuelle où les données se propagent dans le système de manière asynchrone.
Eventual Consistency (Cohérence Éventuelle) : Si aucune nouvelle mise à jour n'est effectuée sur un élément de données donné, toutes les lectures de cet élément finiront par renvoyer la dernière valeur mise à jour. Il y a un délai avant que les changements ne soient visibles sur tous les nœuds d'un système distribué.

Les systèmes conformes à BASE sont conçus pour une haute disponibilité et une évolutivité dans les environnements distribués, ce qui les rend adaptés aux applications qui peuvent tolérer une certaine latence dans la propagation des données.

Comprendre la Cohérence Éventuelle dans MongoDB

Le modèle de cohérence par défaut de MongoDB est la cohérence éventuelle. Cela signifie que lorsque vous écrivez des données dans un jeu de répliques MongoDB, le nœud primaire accusera réception de l'écriture, puis répliquera cette écriture de manière asynchrone vers ses nœuds secondaires. Bien que le primaire garantisse la durabilité de l'écriture, il n'attend pas que tous les secondaires soient à jour avant d'accuser réception du succès au client. Par conséquent, une lecture ultérieure à partir d'un nœud secondaire pourrait ne pas refléter immédiatement la dernière écriture, bien qu'elle devienne éventuellement cohérente.

Ce choix de conception est fondamental pour la capacité de MongoDB à évoluer horizontalement et à maintenir une haute disponibilité. En ne nécessitant pas que tous les nœuds soient parfaitement synchronisés pour chaque opération, MongoDB peut continuer à servir les lectures et les écritures même si certains nœuds sont temporairement indisponibles ou en retard.

Les Compromis de la Cohérence Éventuelle

Avantages : Disponibilité plus élevée, meilleure performance (latence plus faible pour les écritures) et évolutivité accrue pour les systèmes distribués.
Inconvénients : Les applications doivent être conçues pour gérer la possibilité de lire des données obsolètes. Ceci est particulièrement pertinent pour les opérations où une cohérence immédiate sur toutes les répliques est critique.

Les Niveaux de Cohérence de Lecture et d'Écriture de MongoDB : Ajuster la Cohérence

Bien que MongoDB utilise par défaut la cohérence éventuelle, il fournit des mécanismes puissants – les Niveaux de Cohérence de Lecture (Read Concerns) et les Niveaux de Cohérence d'Écriture (Write Concerns) – qui permettent aux développeurs d'ajuster le niveau de cohérence pour chaque opération. Cela vous permet d'équilibrer la cohérence, la disponibilité et la performance en fonction des besoins de votre application.

Niveaux de Cohérence d'Écriture (Write Concerns)

Un Niveau de Cohérence d'Écriture décrit le niveau d'accusé de réception demandé à MongoDB pour une opération d'écriture. Il dicte combien de membres du jeu de répliques doivent confirmer l'écriture avant que l'opération ne retourne un succès.

Options clés des Niveaux de Cohérence d'Écriture :

w : Spécifie le nombre d'instances mongod qui doivent accuser réception de l'écriture.
- w: 0 : Aucun accusé de réception. Le client n'attend aucune réponse de la base de données. Ceci offre le débit le plus élevé mais risque une perte de données si le primaire plante immédiatement après l'écriture.
- w: 1 (Défaut) : Accusé de réception du seul nœud primaire. Le primaire confirme avoir reçu et traité l'écriture. C'est rapide mais ne garantit pas que l'écriture a été répliquée vers des secondaires.
- w: "majority" : Accusé de réception de la majorité des membres du jeu de répliques (y compris le primaire). Ceci fournit des garanties de durabilité plus fortes, car l'écriture est validée sur la majorité des nœuds. Si le primaire tombe en panne, la donnée est garantie d'exister sur la majorité des autres nœuds.
j : Spécifie si l'instance mongod doit écrire dans le journal sur disque avant d'accuser réception de l'écriture. Activer la journalisation (j: true) assure la durabilité même si le processus mongod plante.
wtimeout : Une limite de temps pour que le niveau de cohérence d'écriture soit atteint. Si le niveau de cohérence d'écriture n'est pas atteint dans ce délai, l'opération d'écriture retourne une erreur.

Exemple de Niveau de Cohérence d'Écriture (utilisant w: "majority" avec journalisation) :

db.products.insertOne(
  { item: "laptop", qty: 50 },
  { writeConcern: { w: "majority", j: true, wtimeout: 5000 } }
);

Astuce : Pour les données critiques qui doivent être durables et hautement disponibles, w: "majority" avec j: true est recommandé. Pour les données moins critiques ou la journalisation à haut débit, w: 1 ou même w: 0 peuvent être acceptables.

Niveaux de Cohérence de Lecture (Read Concerns)

A Niveau de Cohérence de Lecture vous permet de spécifier le niveau de cohérence et d'isolation pour les opérations de lecture. Il détermine quelles données MongoDB retourne à vos requêtes, en particulier dans un environnement répliqué.

Options clés des Niveaux de Cohérence de Lecture :

local : Retourne les données de l'instance (primaire ou secondaire) à laquelle le client est connecté. C'est le défaut pour les instances autonomes et les secondaires. Pour les jeux de répliques, cela offre la latence la plus faible mais peut retourner des données obsolètes.
available : Retourne les données de l'instance sans garantir que les données ont été écrites sur la majorité du jeu de répliques. Similaire à local, il privilégie la disponibilité et la faible latence.
majority (Défaut pour les lectures depuis le primaire) : Retourne les données qui ont été reconnues par la majorité des membres du jeu de répliques. Ceci garantit que les données sont durables et ne seront pas annulées. Il offre une cohérence plus forte que local ou available au prix d'une latence potentiellement plus élevée.
linearizable : Garantit que les données retournées reflètent l'écriture reconnue la plus récente globalement. C'est le niveau de cohérence de lecture le plus fort, assurant que les lectures voient toutes les écritures qui ont été reconnues par un niveau de cohérence d'écriture majority. Cela peut engendrer une surcharge de performance significative et n'est disponible que pour les lectures depuis le primaire.
snapshot (pour les transactions multi-documents) : Garantit que la requête retourne des données à partir d'un point temporel spécifique, permettant aux lectures d'être cohérentes sur plusieurs documents au sein d'une transaction.

Exemple de Niveau de Cohérence de Lecture (utilisant majority) :

db.products.find(
  { item: "laptop" },
  { readConcern: { level: "majority" } }
);

Avertissement : Bien que linearizable fournisse une cohérence forte, il entraîne des implications sur les performances. Utilisez-le judicieusement pour les scénarios où l'ordre strict et la visibilité globale des écritures sont critiques.

Pourquoi BASE et la Cohérence Éventuelle sont Importants pour l'Évolutivité

Le modèle BASE et la cohérence éventuelle sont des facilitateurs fondamentaux de l'évolutivité et de la haute disponibilité de MongoDB :

Mise à l'échelle Horizontale (Sharding) : En assouplissant la cohérence immédiate, MongoDB peut distribuer les données sur plusieurs shards (grappes de jeux de répliques). Chaque shard fonctionne de manière relativement indépendante, permettant à la base de données de s'étendre horizontalement pour gérer des ensembles de données massifs et un débit élevé, sans exiger que chaque nœud de l'ensemble du système distribué soit parfaitement synchronisé à tout moment.
Haute Disponibilité et Tolérance aux Pannes : Dans un jeu de répliques, si le nœud primaire devient indisponible, un nouveau primaire peut être élu parmi les secondaires. La cohérence éventuelle signifie que même pendant les basculements (failovers), les nœuds secondaires peuvent continuer à servir des lectures (en fonction du niveau de cohérence de lecture), et le système reste disponible. Si le primaire devait attendre tous les secondaires pour chaque écriture, un seul secondaire en retard pourrait devenir un goulot d'étranglement pour l'ensemble du système.
Performance : Des exigences de cohérence moins strictes signifient une latence plus faible pour les opérations d'écriture et un débit global plus élevé, car le système n'a pas besoin de se bloquer et d'attendre les accusés de réception de tous les nœuds avant de continuer.

En offrant une cohérence ajustable via les niveaux de cohérence de lecture et d'écriture, MongoDB permet aux développeurs de prendre des décisions éclairées. Les applications qui privilégient la haute disponibilité et le débit (par exemple, l'ingestion de données IoT, l'analyse en temps réel) peuvent opter pour une cohérence plus faible. Inversement, les applications qui nécessitent une intégrité des données plus forte (par exemple, les transactions financières, les mises à jour d'inventaire) peuvent choisir des niveaux de cohérence plus élevés, en acceptant les compromis de performance associés.

Considérations Pratiques et Bonnes Pratiques

Identifier les Données Critiques : Déterminez quelles données nécessitent absolument une cohérence forte (par exemple, les soldes de compte) par rapport aux données qui peuvent tolérer une cohérence éventuelle (par exemple, les mises à jour de profil utilisateur, les données de session).
Concevoir pour l'Idempotence : Lors de l'utilisation de niveaux de cohérence d'écriture plus faibles, il est possible qu'une écriture réussisse sur le primaire mais échoue avant la réplication vers les secondaires, entraînant une annulation ultérieure et le client pensant que l'écriture a échoué. Si le client réessaie l'opération, cela pourrait entraîner des doublons. Concevez vos opérations pour qu'elles soient idempotentes si possible.
Lecture-par-Soi-Même (Read-Your-Own-Writes) Côté Client : Si un utilisateur effectue une écriture puis tente immédiatement de la lire, il pourrait voir des données obsolètes s'il lit à partir d'un secondaire avec un niveau de cohérence de lecture faible. Pour garantir qu'un utilisateur lise toujours ses propres écritures récentes, envisagez de diriger ces lectures vers le primaire ou d'utiliser un niveau de cohérence de lecture majority, potentiellement couplé à un niveau de cohérence d'écriture majority pour ces opérations spécifiques.
Surveillance : Gardez un œil sur le retard de réplication du jeu de répliques en utilisant rs.printReplicationInfo() ou les métriques MongoDB Atlas. Un retard de réplication élevé peut exacerber les problèmes de cohérence éventuelle.

Conclusion

L'adoption du modèle BASE par MongoDB et son approche de cohérence éventuelle sont fondamentales pour ses atouts en matière d'évolutivité, de performance et de haute disponibilité. En fournissant des Niveaux de Cohérence de Lecture et d'Écriture sophistiqués, MongoDB offre aux développeurs la flexibilité de définir explicitement le niveau de cohérence souhaité pour des opérations individuelles, trouvant ainsi un équilibre entre l'intégrité stricte des données et les exigences des systèmes distribués. Comprendre ces concepts n'est pas seulement théorique ; c'est une nécessité pratique pour construire des applications robustes, évolutives et performantes sur MongoDB.

Lorsque vous concevez vos schémas et interactions MongoDB, tenez toujours compte des exigences de cohérence spécifiques de votre application et utilisez ces puissants mécanismes d'ajustement pour optimiser votre base de données à la fois en termes de fiabilité et de vitesse.