Si votre entreprise fait de l’IA ou du machine learning sur AWS, vous connaissez probablement déjà la douleur : la facture GPU. Les instances accélérées qui font tourner vos modèles coûtent cher, et leur disponibilité est imprévisible. En mai 2026, AWS a élargi un dispositif qui s’attaque à ces deux problèmes à la fois : les Flexible Training Plans de SageMaker, désormais accessibles directement depuis SageMaker Studio.
Voici ce que c’est, ce que ça permet d’économiser, et pourquoi tout dirigeant dont les coûts cloud explosent à cause de l’IA devrait s’y intéresser.
Entraîner un modèle ou faire tourner de l’inférence demande des GPU. Sur AWS, ces ressources se louent à l’heure, et c’est là que les ennuis commencent.
D’abord, le prix. Les instances GPU comptent parmi les plus chères du catalogue AWS. Pour donner un ordre de grandeur concret, une instance p5.48xlarge coûte environ 55 dollars de l’heure en tarif on-demand classique. Multipliez par les heures d’un entraînement sérieux, et la facture grimpe vite. Une équipe qui lance un projet ML sans stratégie de coûts voit ses dépenses s’envoler, souvent sans visibilité claire sur ce qui consomme quoi.
Ensuite, la disponibilité. En mode on-demand, vous prenez du GPU quand il y en a de disponible. Mais la capacité dépend de l’offre régionale et de la demande du moment, et elle peut changer très vite. Si vous arrêtez une instance, rien ne garantit que vous puissiez récupérer la même capacité ensuite. Pour une équipe avec une deadline, c’est un risque réel : un déploiement qui échoue ou prend du retard parce que le GPU n’est plus disponible. La demande de GPU a d’ailleurs dépassé l’offre à l’échelle de l’industrie, ce qui en a fait une ressource rare.
Les Flexible Training Plans de SageMaker répondent à ces deux problèmes en même temps. L’idée est simple : au lieu de prendre du GPU au coup par coup en espérant qu’il y en ait, vous réservez à l’avance la capacité exacte dont vous avez besoin, pour une durée définie.
En échange, vous payez beaucoup moins cher. Selon la documentation officielle d’AWS, les SageMaker training plans sont tarifés 70 à 75% en dessous des tarifs on-demand. Sur un poste de dépense aussi lourd que le GPU, l’économie est considérable : c’est potentiellement des dizaines de milliers de dollars sur l’année pour une entreprise qui fait de l’IA sérieusement.
Le dispositif couvre l’ensemble des charges ML dans l’environnement managé de SageMaker : les training jobs (entraînement), les clusters HyperPod, et désormais aussi les endpoints d’inférence, c’est-à-dire la mise en production des modèles. Vous accédez à une large gamme d’options de calcul accéléré, y compris les derniers GPU NVIDIA et les accélérateurs AWS Trainium, sans gérer l’infrastructure sous-jacente.
Le fonctionnement reste souple, ce qui justifie le « Flexible » du nom. Vous indiquez vos besoins (type d’instance, nombre, date de début, durée), et le système vous propose des plans disponibles avec leur prix total affiché à l’avance. Vous payez l’intégralité du plan au moment de la réservation, puis le plan passe en statut programmé, et devient actif à la date de début prévue.
Point important à connaître : vous payez le tarif en vigueur au moment où vous réservez, même si le plan démarre plus tard et que les prix ont changé entre-temps. AWS ajuste régulièrement ses tarifs en fonction de l’offre et de la demande.
La nouveauté de mai 2026 franchit une étape : SageMaker Studio supporte désormais la réservation de capacité GPU directement via les Flexible Training Plans. Avant, réserver demandait souvent de passer par des API ou des outils séparés. Désormais, c’est accessible depuis l’environnement où vos data scientists travaillent déjà. Moins de friction, plus de chances que la réservation soit réellement utilisée plutôt que contournée.
C’est ici que ça devient sérieux pour un décideur. Les SageMaker training plans ne peuvent pas être annulés après achat. Une fois la réservation payée, elle expire automatiquement à la fin de la période réservée, que vous ayez utilisé le GPU ou non.
Conséquence directe : si vos instances ne tournent pas en continu pendant toute la durée réservée, le coût total de la réservation peut dépasser le coût que vous auriez payé en on-demand. C’est AWS lui-même qui le précise dans sa documentation. Autrement dit, l’économie de 70 à 75% n’est réelle que si la réservation est bien dimensionnée. Réservez trop, et vous payez pour du GPU inutilisé, sans possibilité de remboursement.
Les Flexible Training Plans ne sont qu’un levier parmi plusieurs. Selon votre charge de travail, d’autres approches peuvent être plus pertinentes :
Les instances Spot peuvent réduire les coûts GPU jusqu’à 90%, mais elles sont interruptibles : AWS peut les récupérer à tout moment. Elles conviennent aux charges qui tolèrent l’interruption, comme l’entraînement avec points de sauvegarde réguliers.
Les EC2 Capacity Blocks for ML offrent des tarifs 40 à 50% inférieurs à l’on-demand, en self-service, pour les charges qui tournent directement sur EC2 (où vous gérez vous-même le système, le réseau, l’orchestration).
Les Flexible Training Plans, eux, sont faits pour les charges managées par SageMaker, quand vous voulez qu’AWS gère le provisioning et le cycle de vie tout en sécurisant votre capacité.
Le bon choix dépend de trois facteurs : votre besoin de disponibilité garantie, votre modèle de coût, et votre environnement (EC2 direct ou managé SageMaker). Il n’y a pas de réponse unique.
Voici la lecture business à retenir.
Si vos charges GPU sont prévisibles, c’est de l’argent laissé sur la table. Une équipe qui sait qu’elle va entraîner des modèles pendant deux semaines le mois prochain, ou faire tourner de l’inférence stable en production, a tout intérêt à réserver plutôt qu’à payer le plein tarif. L’écart de 70 à 75% est trop important pour être ignoré.
Mais l’économie n’est jamais automatique. Réserver de la capacité GPU est une décision financière à part entière, et irréversible. Réserver trop, c’est gaspiller. Réserver trop peu, c’est retomber dans l’imprévisibilité. Choisir le mauvais type d’instance, c’est se retrouver coincé. L’économie réelle dépend entièrement de la justesse de la réservation, qui repose sur une compréhension fine de vos vrais besoins de calcul.
C’est un arbitrage continu, pas un réglage unique. Les besoins évoluent, les prix AWS bougent en fonction de l’offre et de la demande, et le bon plan d’aujourd’hui n’est pas celui de dans six mois. Optimiser la facture GPU, c’est un travail permanent de FinOps, pas une case à cocher.
Cette annonce s’inscrit dans une tendance claire : AWS multiplie les leviers d’optimisation des coûts, en particulier autour de l’IA, parce que c’est devenu le poste de dépense qui explose le plus vite chez ses clients. Entre les réservations GPU, le scaling automatique, et les différents plans d’épargne, la boîte à outils FinOps s’enrichit en continu.
Mais une boîte à outils ne fait pas le travail. Tous ces leviers supposent que quelqu’un, dans votre organisation, connaisse leur existence, comprenne vos charges de travail, et fasse les bons arbitrages au bon moment, surtout quand ces décisions sont irréversibles. C’est précisément ce qui sépare une entreprise qui paie le plein tarif sans le savoir d’une entreprise qui maîtrise sa facture cloud.
Optimiser les coûts GPU, c’est exactement le genre de travail qu’une expertise FinOps dédiée intègre à son quotidien : identifier les charges prévisibles, dimensionner les réservations au plus juste, surveiller l’utilisation réelle, et arbitrer entre les différentes options. Le dispositif d’AWS rend l’économie possible. Encore faut-il aller la chercher, sans se tromper.
Les Flexible Training Plans de SageMaker permettent de réserver à l’avance de la capacité GPU pour vos charges d’entraînement et d’inférence, avec des économies de 70 à 75% par rapport au tarif on-demand selon la documentation AWS. La nouveauté de mai 2026 les rend accessibles directement depuis SageMaker Studio.
Pour les entreprises qui font de l’IA sur AWS, c’est une opportunité réelle de reprendre le contrôle d’un poste de dépense souvent incontrôlé. Mais avec une réserve de taille : ces plans ne sont pas annulables. L’économie n’est au rendez-vous que si la réservation est bien dimensionnée, ce qui suppose de connaître ses vrais besoins de calcul. La technologie ouvre la porte ; c’est l’expertise qui fait l’économie.