Observability (Observabilité)

L'observability (observabilité) est la capacité à comprendre l'état interne d'un système distribué en analysant uniquement ses sorties externes (logs, métriques, traces). Concept dérivé de la théorie du contrôle, popularisé par Charity Majors (Honeycomb), il s'oppose au monitoring classique : le monitoring détecte les pannes connues, l'observability permet de comprendre les pannes inconnues.

Les 3 piliers (en réalité plus, mais classiquement) : (1) Metrics — agrégats numériques temporels (CPU, latence p99, error rate) — Prometheus, Datadog, CloudWatch ; (2) Logs — événements textuels datés — Loki, Elasticsearch, Splunk, CloudWatch Logs ; (3) Traces — chemin d'une requête à travers les microservices — Jaeger, Tempo, Zipkin, X-Ray. Le 4e pilier émergent : Profiles (continuous profiling — Pyroscope, Parca).

La norme open source de référence est OpenTelemetry (OTel) — graduée CNCF — qui unifie l'instrumentation (SDKs multi-langage) et le transport (protocole OTLP). Les SLO/SLI/SLA (Service Level Objectives/Indicators/Agreements) du SRE Google reposent sur l'observability. Compétence centrale, testée dans DOP-C02, OTCA, Datadog DDP-201.

Préparez vos certifications IT gratuitement