RessourcesINGÉNIERIE · OBSERVABILITÉ

Observabilité sur AWS : logs, métriques et traces avec OpenTelemetry

Corréler logs, métriques et traces pour répondre au « pourquoi ça casse », pas seulement au « est-ce que ».

STRALYA10 min de lecturemai 2026

Le monitoring répond à une question binaire : le service est-il debout ? L'observabilité répond à la vraie question d'un développeur en astreinte à 3h du matin : pourquoi cette requête est lente, et . Cela exige trois signaux corrélés — logs, métriques, traces — autour d'un identifiant commun.

Les trois piliers, et ce qu'ils disent

  • Métriques : des séries temporelles agrégées (latence p99, taux d'erreur, saturation). Bon marché, idéales pour alerter.
  • Logs : des événements horodatés et structurés. Le détail de ce qui s'est passé.
  • Traces : le parcours d'une requête à travers vos services, span par span. Le « où » du problème.

Le fil rouge : le trace_id

Ce qui transforme trois flux séparés en observabilité, c'est la corrélation. Chaque log doit porter le trace_id de la requête qui l'a généré. On part d'une alerte métrique, on saute à la trace, on lit les logs du span fautif — en secondes, pas en heures.

Instrumenter avec OpenTelemetry

OpenTelemetry (OTel) est le standard ouvert qui évite le verrouillage chez un éditeur : vous instrumentez une fois, vous exportez vers où vous voulez (CloudWatch, X-Ray, Datadog, Grafana). L'instrumentation automatique couvre déjà l'essentiel :

HTTP, base de données et appels sortants sont alors tracés automatiquement. Vous n'ajoutez des spans manuels que pour la logique métier qui compte.

Le collector, pièce centrale

N'exportez pas directement depuis l'application vers le backend. Un OTel Collector en sidecar (l'ADOT, distribution AWS d'OTel, sur ECS/EKS) reçoit, agrège, échantillonne et route. Vous changez de backend sans retoucher une ligne d'application :

Alerter sur les bons signaux

Évitez d'alerter sur le CPU. Alertez sur ce que vit l'utilisateur — les signaux « RED » : Rate (trafic), Errors (taux d'erreur), Duration (latence p99). Une alerte qui ne correspond pas à une dégradation perçue est du bruit qui finira ignoré.

À retenir

  • Observabilité = corréler métriques, logs et traces via un trace_id commun.
  • OpenTelemetry évite le lock-in : instrumentez une fois, exportez partout.
  • Passez par un Collector (ADOT) : échantillonnage et routing hors de l'app.
  • Alertez sur les signaux RED (Rate, Errors, Duration), pas sur le CPU.
TEARDOWN AWS · GRATUIT

Recevez le Teardown AWS : où part vraiment votre facture.

Le guide qui liste les 12 postes de coût qui fuitent le plus chez les scale-ups, et comment les colmater. Gratuit, par mail, sans engagement.