Système de rotation où des ingénieurs sont d'astreinte pour gérer les incidents.
L'On-Call Rotation est l'organisation de l'astreinte où des ingénieurs alternent les périodes pendant lesquelles ils sont joignables 24/7 pour répondre aux incidents production. Pratique cardinale du SRE et DevOps modernes ("you build it, you run it" — Werner Vogels Amazon).
Schéma typique : équipe de 6-8 personnes, rotation hebdomadaire, primary + secondary (backup), follow-the-sun pour équipes distribuées globalement (US/EU/APAC handoffs limiting overnight pages). Compensations : on-call pay (1-5\$ par heure passive, plus pour pages), comp time post-incident.
Best practices : (1) limit page volume — Google SRE recommends max 2 pages per shift moyenne ; sinon burnout et alert fatigue ; (2) runbooks attached to every alert ; (3) onboarding shadow + reverse shadow avant primary ; (4) post-shift reviews et metrics tracking ; (5) eliminate sources of pages — chaque page should drive action item (fix alert, fix system) ; (6) handoff documents en début/fin de shift ; (7) protections : pas de 2 shifts back-to-back, gaps weekends. Toxic rotation = signal d'organisational debt, à investiguer urgently.
Tools : PagerDuty, Opsgenie, VictorOps, Splunk On-Call, Squadcast. Compétences ITIL4-HVIT, SRE pratiques.
200+ certifications, 400 000+ questions, examens blancs chronométrés.
Voir le catalogue →