ResourcesINGÉNIERIE · OBSERVABILITÉ

Observabilité sur AWS : logs, métriques et traces avec OpenTelemetry

Corréler logs, métriques et traces pour répondre au « pourquoi ça casse », pas seulement au « est-ce que ».

STRALYA10 min readMay 2026

Le monitoring répond à une question binaire : le service est-il debout ? L'observabilité répond à la vraie question d'un développeur en astreinte à 3h du matin : pourquoi cette requête est lente, et . Cela exige trois signaux corrélés — logs, métriques, traces — autour d'un identifiant commun.

Les trois piliers, et ce qu'ils disent

  • Métriques : des séries temporelles agrégées (latence p99, taux d'erreur, saturation). Bon marché, idéales pour alerter.
  • Logs : des événements horodatés et structurés. Le détail de ce qui s'est passé.
  • Traces : le parcours d'une requête à travers vos services, span par span. Le « où » du problème.

Le fil rouge : le trace_id

Ce qui transforme trois flux séparés en observabilité, c'est la corrélation. Chaque log doit porter le trace_id de la requête qui l'a généré. On part d'une alerte métrique, on saute à la trace, on lit les logs du span fautif — en secondes, pas en heures.

Instrumenter avec OpenTelemetry

OpenTelemetry (OTel) est le standard ouvert qui évite le verrouillage chez un éditeur : vous instrumentez une fois, vous exportez vers où vous voulez (CloudWatch, X-Ray, Datadog, Grafana). L'instrumentation automatique couvre déjà l'essentiel :

HTTP, base de données et appels sortants sont alors tracés automatiquement. Vous n'ajoutez des spans manuels que pour la logique métier qui compte.

Le collector, pièce centrale

N'exportez pas directement depuis l'application vers le backend. Un OTel Collector en sidecar (l'ADOT, distribution AWS d'OTel, sur ECS/EKS) reçoit, agrège, échantillonne et route. Vous changez de backend sans retoucher une ligne d'application :

Alerter sur les bons signaux

Évitez d'alerter sur le CPU. Alertez sur ce que vit l'utilisateur — les signaux « RED » : Rate (trafic), Errors (taux d'erreur), Duration (latence p99). Une alerte qui ne correspond pas à une dégradation perçue est du bruit qui finira ignoré.

À retenir

  • Observabilité = corréler métriques, logs et traces via un trace_id commun.
  • OpenTelemetry évite le lock-in : instrumentez une fois, exportez partout.
  • Passez par un Collector (ADOT) : échantillonnage et routing hors de l'app.
  • Alertez sur les signaux RED (Rate, Errors, Duration), pas sur le CPU.
AWS TEARDOWN · FREE

Get the AWS Teardown: where your bill really goes.

The guide listing the 12 cost areas that leak the most at scale-ups, and how to plug them. Free, by email, no strings attached.