Chaos Engineering
Le chaos engineering est une discipline qui consiste à provoquer délibérément des pannes en production (ou en environnement de pré-production réaliste) pour vérifier la résilience d'un système distribué et identifier le…
Le chaos engineering est une discipline qui consiste à provoquer délibérément des pannes en production (ou en environnement de pré-production réaliste) pour vérifier la résilience d'un système distribué et identifier les faiblesses avant qu'elles ne causent un incident utilisateur.
L'approche a été popularisée par Netflix avec Chaos Monkey : un outil qui éteint aléatoirement des instances de production. La pratique s'est généralisée avec des plateformes comme Gremlin, AWS Fault Injection Simulator ou LitmusChaos.
C'est un complément naturel à la culture SRE et à l'observabilité : on ne sait pas si un système est résilient tant qu'on ne l'a pas testé.
