AccueilGlossaire › Incident Management

Incident Management

DevOps

Processus structuré de gestion d'incidents de leur déclaration à leur résolution.

L'Incident Management est le processus structuré de gestion d'un incident production de sa détection à sa résolution complète, avec rôles définis, communication formalisée, et apprentissage post-incident. Inspiré des frameworks militaires (ICS — Incident Command System des firefighters) et codifié par Google SRE, Atlassian, PagerDuty.

Rôles clés : (1) Incident Commander (IC) — coordonne la réponse, prend les décisions, pas d'exécution technique (rôle full-time pendant incident) ; (2) Operations Lead (Ops) — exécute les mitigations techniques ; (3) Communications Lead (Comms) — updates status page, Slack, customers, executives ; (4) Scribe — documente timeline en temps réel ; (5) Subject Matter Experts (SME) — appelés selon besoin (DBA, security, networking).

Severity levels : SEV1 (critique, all-hands), SEV2 (major impact), SEV3 (limited impact), SEV4 (minor). Triggers escalation policies différentes.

Flow typique : detection → ack → incident declared → war room (Slack channel + video call) → triage → mitigation → verification → resolution → comms closure → postmortem.

Tools : PagerDuty, Opsgenie, FireHydrant, Incident.io, Rootly, Statuspage, xMatters, Splunk On-Call. Best practice : pratiquer via game days / chaos engineering pour rendre process automatique. Compétences ITIL4-HVIT, SRE pratiques.

Certifications qui couvrent ce concept
ITIL4-HVIT DOP-C02 AZ-400
Termes liés
Postmortem (Post-incident Review) Runbook (Incident Response Playbook) On-Call Rotation PagerDuty

Préparez vos certifications IT gratuitement

200+ certifications, 400 000+ questions, examens blancs chronométrés.

Voir le catalogue →
← Retour au glossaire