Débogage des Déploiements Échoués : Identification des Erreurs Courantes de YAML et de Configuration

Les échecs de déploiement Kubernetes se manifestent généralement par des pods bloqués dans les états Pending, ImagePullBackOff, CrashLoopBackOff, ou avec zéro réplica disponible. La cause est souvent visible dans les événements, mais vous devez inspecter le Déploiement, le ReplicaSet et les Pods dans le bon ordre.

Ce guide vous guide à travers les vérifications qui permettent généralement de trouver les erreurs YAML, les problèmes de pull d'images, les sondes défectueuses, les contraintes de ressources et les règles d'ordonnancement qui empêchent votre déploiement de devenir sain.

Les Premières Étapes : Vérification de l'État du Déploiement et des Événements

Lorsqu'un déploiement échoue, vos premières étapes de diagnostic doivent toujours inclure la vérification de la ressource principale elle-même et des événements associés à ses ReplicaSets et Pods gérés. Cela fournit la vue la plus globale de ce que Kubernetes tente de faire et pourquoi il échoue.

1. Inspection de la Santé du Déploiement

Utilisez kubectl get deployments pour voir l'état général. Regardez spécifiquement les colonnes READY, UP-TO-DATE et AVAILABLE. Une divergence ici indique un problème avec les Pods sous-jacents.

kubectl get deployments <nom-du-déploiement>

Si l'état du déploiement montre peu ou zéro réplicas prêts, passez à la vérification du ReplicaSet.

2. Examen des Événements du ReplicaSet et des Pods

Les ReplicaSets gèrent le nombre souhaité de Pods. Si le déploiement échoue, le ReplicaSet est généralement la source de la cascade d'erreurs. Utilisez la commande describe sur le ReplicaSet, qui est généralement nommé <nom-du-déploiement>-<hash> :

kubectl describe rs <nom-du-replicaset>

Crucialement, examinez la section Événements en bas de la sortie. Cette section détaille les actions récentes, y compris les tentatives d'ordonnancement, les échecs de pull d'images et les problèmes de montage de volumes. Ces événements sont souvent la preuve irréfutable.

Enfin, vérifiez les Pods eux-mêmes, car ils rapportent l'échec immédiat :

kubectl get pods -l app=<votre-label-app>
kubectl describe pod <nom-du-pod>

Recherchez les champs State et Reason dans la description du pod. Les raisons courantes incluent ImagePullBackOff, ErrImagePull, CrashLoopBackOff et Pending.

Erreurs de Configuration Courantes dans les Manifestes YAML

Les mauvaises configurations dans vos fichiers YAML sont la cause la plus fréquente des échecs de déploiement. Ces erreurs peuvent aller de simples erreurs d'indentation à des problèmes structurels complexes.

1. Erreurs de Syntaxe et de Structure YAML

Les API Kubernetes sont extrêmement sensibles à une syntaxe YAML correcte (indentation, espacement et types de données). Si le YAML est invalide, kubectl apply échouera souvent immédiatement, indiquant qu'il ne peut pas analyser le fichier.

Meilleure Pratique : Utiliser un Linter Validez toujours votre syntaxe YAML avant d'appliquer. Des outils comme yamllint ou le support intégré de l'IDE peuvent détecter les erreurs de syntaxe de base immédiatement.

Exemple d'une erreur structurelle courante : Mappage ou indentation incorrects.

# INCORRECT : containers appartient à spec.template.spec, pas directement à spec.template
apiVersion: apps/v1
kind: Deployment
metadata:
  name: my-app
spec:
  template:
    metadata:
      labels:
        app: my-app
    containers:
      - name: my-app
        image: myregistry/myapp:v1

Placement correct :

spec:
  template:
    metadata:
      labels:
        app: my-app
    spec:
      containers:
        - name: my-app
          image: myregistry/myapp:v1
          ports:
            - containerPort: 8080

2. Erreurs de Référence d'Image et de Pull

Si les Pods entrent dans l'état ImagePullBackOff ou ErrImagePull, le problème est lié à l'accès à l'image du conteneur.

Faute de frappe dans le Nom/Tag de l'Image : Revérifiez l'orthographe du dépôt d'image, du nom et du tag.
Authentification au Registre Privé : Si vous tirez depuis un registre privé, assurez-vous d'avoir créé un secret de pull d'image et de l'avoir référencé comme imagePullSecrets dans la spécification du Pod.

# Extrait montrant l'utilisation d'ImagePullSecret
spec:
  imagePullSecrets:
    - name: my-registry-secret
  containers:
    - name: my-app
      image: private.example.com/my-app:v1

3. Violations des Demandes et Limites de Ressources

Si un Pod reste dans l'état Pending et que les événements mentionnent des ressources insuffisantes, les nœuds du cluster ne peuvent pas satisfaire les exigences de CPU ou de mémoire définies dans le YAML.

Vérifiez les limites spécifiées dans votre manifeste de déploiement :

resources:
  requests:
    memory: "512Mi"
    cpu: "500m"
  limits:
    memory: "1Gi"
    cpu: "1"

Étapes de Dépannage :

Utilisez kubectl describe nodes pour voir la capacité disponible.
Si vous voyez des événements comme 0/3 nodes are available: 3 Insufficient cpu, vous devez soit réduire les requests dans votre YAML, soit ajouter plus de nœuds au cluster.

Problèmes de Configuration Avancés

Au-delà de la syntaxe de base et des pulls d'images, des configurations complexes impliquant le réseau, le stockage et l'ordonnancement peuvent entraîner des échecs difficiles à diagnostiquer.

1. Sondes Mal Configurées (Liveness et Readiness)

Si un Pod passe à l'état CrashLoopBackOff, cela signifie souvent que le conteneur démarre mais échoue immédiatement à une vérification, ou qu'il démarre mais échoue de manière répétée à sa sonde de préparation.

Sondes Liveness : Si celle-ci échoue de manière répétée, Kubernetes redémarre le conteneur. Vérifiez kubectl describe pod <nom-du-pod> pour les événements d'échec de sonde et kubectl logs <nom-du-pod> --previous après un redémarrage.
Sondes Readiness : Si celle-ci échoue, le Pod continue de fonctionner mais est exclu des points de terminaison du Service. Assurez-vous que le chemin, le port et le code de réponse attendu correspondent à ce que votre application sert réellement.

Exemple d'une erreur courante de sonde Readiness : Cibler le mauvais port ou s'attendre à HTTP alors que l'application n'expose que TCP.

2. Échecs de Volume et de PersistentVolumeClaim (PVC)

Si les Pods sont en attente en raison de problèmes de volume, inspectez l'état du PVC :

kubectl get pvc <nom-du-pvc>

Si l'état du PVC est Pending, cela signifie que le cluster n'a pas pu trouver une StorageClass correspondante ou un PersistentVolume approprié à lier. Vérifiez les événements du PVC pour des erreurs de liaison spécifiques.

3. Règles d'Affinité et d'Anti-Affinité

Des règles d'ordonnancement complexes, telles que nodeAffinity ou podAntiAffinity, peuvent involontairement empêcher un Pod d'être ordonnancé si aucun nœud ne satisfait tous les critères. Si les Pods restent Pending et que les événements mentionnent des restrictions d'ordonnancement, examinez ces règles.

Par exemple, si vous exigez qu'un Pod s'exécute sur un nœud avec un label spécifique (nodeSelector) qu'aucun nœud existant ne possède, le Pod ne sera jamais ordonnancé.

# Exemple : Restreindre le déploiement aux nœuds étiquetés 'disktype: ssd'
spec:
  nodeSelector:
    disktype: ssd
  containers:
  # ...

Conseil de Dépannage : Commentez temporairement les règles restrictives nodeSelector ou affinity. Si le Pod s'ordonnance avec succès, vous savez que le problème réside dans les critères de sélection.

Flux de Travail de Débogage

Face à un déploiement échoué, suivez ce chemin structuré :

État du Déploiement : kubectl get deployments -> Les réplicas signalent-ils qu'ils sont prêts ?
Événements du Pod : kubectl describe pod <pod-échoué> -> Vérifiez la section Événements pour les erreurs immédiates (ImagePull, OOMKilled, problèmes de volume).
Journaux du Conteneur : kubectl logs <pod-échoué> -> Si le conteneur démarre mais plante (CrashLoopBackOff), la logique de l'application ou les sondes liveness sont suspectes.
Vérification des Ressources : Si le Pod est Pending, vérifiez les contraintes de ressources (Insufficient cpu/memory) ou les liaisons de volume échouées (état du PVC).
Validation de la Configuration : Examinez le YAML pour l'indentation, les noms de champs corrects et les valeurs de ressources valides (requests/limits).

Travaillez à partir des preuves du cluster au lieu de deviner. Vérifiez l'état, les événements, les journaux, les ressources et la structure du manifeste dans cet ordre, puis apportez le plus petit changement YAML qui correspond à l'erreur que vous avez trouvée.