Time to Restore Service (Recovery Time)

Temps pour restaurer le service après un incident production (équivalent MTTR DORA).

Time to Restore Service (aussi appelé Recovery Time, MTTR dans le contexte DORA) est l'une des 4 DORA metrics : le temps moyen pour restaurer service après un incident production. Mesure la résilience opérationnelle et la maturité incident response.

Tiers DORA :
- Elite : <1 hour
- High : <1 day
- Medium : 1 day - 1 week
- Low : >6 months

Factors clés réduisant MTTR :
(1) Detection rapide (low MTTD via comprehensive monitoring, SLO-based alerts).
(2) Clear incident response process (Incident Commander, escalation policies, runbooks).
(3) On-call rotation healthy (rested, trained, equipped).
(4) Rollback rapid (automated, <5min).
(5) Feature flags pour instant kill switches.
(6) Database migration safety (no irreversible changes).
(7) Observability (find root cause fast : logs, traces, metrics correlated).
(8) Runbook automation (one-click remediation).
(9) Documented architecture and dependencies (debugging easier).
(10) Practice via game days, chaos engineering.

Voir entrée MTTR pour décomposition en MTTD (Detect), MTTR1 (Respond/Acknowledge), MTTR2 (Resolve/Repair), et l'interaction avec MTBF pour calcul availability.

DORA Recovery Time vs traditional MTTR : DORA focus on customer-visible service restoration, pas internal full root cause analysis. Quand service is back to normal (mitigation deployed), Recovery Time stops counting — l'investigation root cause peut continuer post-incident sans inflating la métrique.

Mesurer : timestamp(service restored) - timestamp(incident declared / first detection). Tools : PagerDuty, FireHydrant, Incident.io track this natively. Aggregate via DORA dashboards.

Préparez vos certifications IT gratuitement