Chaos Engineering

Discipline consistant à injecter délibérément des pannes pour valider la résilience.

Le Chaos Engineering est une discipline qui consiste à injecter délibérément des pannes contrôlées (kill de processus, latence réseau, perte de paquets, panne de zone) dans des systèmes en production ou pre-production, pour identifier les faiblesses avant qu'elles ne provoquent un incident réel. Pratique née chez Netflix avec leur outil Chaos Monkey en 2011.

Le processus suit la méthode scientifique : (1) définir l'état stable (steady state) avec des métriques business, (2) hypothèse ("si je tue X, le système doit continuer à fonctionner"), (3) injecter la panne, (4) observer le résultat, (5) ajuster le système si l'hypothèse est invalidée. Les expériences se déroulent en game days réguliers, avec scope croissant (dev → staging → prod, dans une AZ → région).

Les outils : Chaos Mesh (CNCF, K8s), LitmusChaos, Gremlin (commercial), AWS Fault Injection Simulator, Azure Chaos Studio, ChaosBlade (Alibaba), Toxiproxy (network). Les pannes typiques : pod kill, network latency, CPU stress, disk fill, dependency failure. Pratique avancée pour SRE seniors et architectes cloud résilience.

Préparez vos certifications IT gratuitement