Les 4 métriques essentielles à monitorer selon Google SRE : latency, traffic, errors, saturation.
Les Four Golden Signals (Google SRE Book, chapter 6) sont les 4 métriques fondamentales à monitorer pour tout service user-facing : Latency, Traffic, Errors, Saturation. Si vous ne pouvez monitorer que 4 choses, ces 4 sont les bonnes.
(1) **Latency** — temps pour servir une request. Mesurer séparément successful requests (latency normale du service) vs failed requests (souvent rapide, fail fast — peut masquer real latency si moyenné). Utiliser percentiles (p50, p95, p99, p99.9) — averages mentent (long tail caché).
(2) **Traffic** — volume de requests/sec, transactions/sec, ou business-meaningful equivalent (orders/min, video streams/sec, page views/min). Mesure de demand. Anomalies (sudden drops) souvent premier signe d'incident upstream.
(3) **Errors** — rate de requests échouant : HTTP 5xx, business logic errors, response failing validation. Mesurer % errors / total requests. Critical : capture both hard failures (500) et soft failures (200 OK with malformed response, gibberish data).
(4) **Saturation** — "how full" le service est : CPU 80%, memory 90%, disk 85%, queue depth growing, thread pool exhausted, DB connection pool saturated. Predictive — saturation rising signals incoming latency/errors before they hit.
Variantes complémentaires : RED method (Rate, Errors, Duration — Tom Wilkie) for services, USE method (Utilization, Saturation, Errors — Brendan Gregg) for resources, customer-facing SLIs (Honeycomb favors). Dashboards Grafana "USE Method", "RED Method", "Golden Signals" templates abondants. Compétences SRE pratiques.
200+ certifications, 400 000+ questions, examens blancs chronométrés.
Voir le catalogue →