Temps pour restaurer le service après un incident production (équivalent MTTR DORA).
Time to Restore Service (aussi appelé Recovery Time, MTTR dans le contexte DORA) est l'une des 4 DORA metrics : le temps moyen pour restaurer service après un incident production. Mesure la résilience opérationnelle et la maturité incident response.
Tiers DORA :
- Elite : <1 hour
- High : <1 day
- Medium : 1 day - 1 week
- Low : >6 months
Factors clés réduisant MTTR :
(1) Detection rapide (low MTTD via comprehensive monitoring, SLO-based alerts).
(2) Clear incident response process (Incident Commander, escalation policies, runbooks).
(3) On-call rotation healthy (rested, trained, equipped).
(4) Rollback rapid (automated, <5min).
(5) Feature flags pour instant kill switches.
(6) Database migration safety (no irreversible changes).
(7) Observability (find root cause fast : logs, traces, metrics correlated).
(8) Runbook automation (one-click remediation).
(9) Documented architecture and dependencies (debugging easier).
(10) Practice via game days, chaos engineering.
Voir entrée MTTR pour décomposition en MTTD (Detect), MTTR1 (Respond/Acknowledge), MTTR2 (Resolve/Repair), et l'interaction avec MTBF pour calcul availability.
DORA Recovery Time vs traditional MTTR : DORA focus on customer-visible service restoration, pas internal full root cause analysis. Quand service is back to normal (mitigation deployed), Recovery Time stops counting — l'investigation root cause peut continuer post-incident sans inflating la métrique.
Mesurer : timestamp(service restored) - timestamp(incident declared / first detection). Tools : PagerDuty, FireHydrant, Incident.io track this natively. Aggregate via DORA dashboards.
200+ certifications, 400 000+ questions, examens blancs chronométrés.
Voir le catalogue →