Cent milliards de tokens et aucun directeur financier ne sait ce qu'il a acheté
Sam Altman est monté sur scène lors de l'événement entreprises d'OpenAI le 2 juin 2026 avec une statistique conçue pour impressionner : le plus grand consommateur interne de tokens de sa société traite environ 100 milliards de tokens par mois. La salle a réagi comme prévu. Puis Altman a ajouté, presque en passant, que ce chiffre ne constitue pas le record mondial, car quelqu'un en dehors d'OpenAI en consomme encore davantage. Et là, sans vraiment le préméditer, il a décrit avec précision le problème qui fracture l'économie de l'intelligence artificielle à l'échelle corporative : la consommation a crû si vite qu'elle a dépassé à la fois l'imagination de ceux qui vendent le produit et la capacité de budgétisation de ceux qui l'achètent.
Ce qui a suivi cette donnée s'est révélé plus révélateur que la donnée elle-même. Altman a admis que les coûts constituent désormais la deuxième plainte la plus fréquente des clients entreprises d'OpenAI. Et il a décrit un mème qui circule parmi les dirigeants d'entreprise avec plus de précision diagnostique que n'importe quel rapport d'analyste : « L'entreprise a dépensé tout le budget 2026 au premier trimestre. Pouvez-vous le rendre plus efficace ? » La question à l'intérieur du mème n'est pas rhétorique. C'est le nouvel état de la situation pour des dizaines d'organisations qui ont abordé l'année avec des hypothèses de dépenses fondées sur les schémas de 2025, et qui se sont retrouvées face à des modèles agentiques consommant à une vitesse toute différente.
Il y a six ans et demi, l'utilisateur le plus actif d'OpenAI traitait environ 100 000 tokens par mois. Aujourd'hui, ce chiffre représente la moyenne mondiale par personne. L'utilisateur interne le plus actif de la société consomme un million de fois plus que ce record historique. Altman projette que cette expansion se répétera. Si c'est le cas, l'infrastructure d'intelligence artificielle qui existe aujourd'hui serait au marché futur ce qu'une calculatrice de poche est à un centre de données. Mais entre cette projection et la réalité opérationnelle des acheteurs corporatifs, il existe un fossé qu'aucune diapositive de croissance exponentielle ne comble à elle seule.
Le budget comme premier indicateur de maturité technologique
Il existe dans l'histoire de la technologie d'entreprise un schéma qui se répète avec une cohérence suffisante pour servir de cadre d'analyse : chaque fois qu'une technologie passe d'outil expérimental à dépense opérationnelle de ligne, le département financier entre dans la conversation et en change les règles. Avec le logiciel en nuage, cela s'est produit au milieu des années 2010. Avec les données et l'analytique avancée, cela s'est produit ensuite. Avec l'intelligence artificielle agentique, cela se passe maintenant, en 2026, à une vitesse qui a pris de court les dirigeants eux-mêmes des entreprises les plus sophistiquées de la planète.
Uber est le cas le mieux documenté. Selon ce qui a été rapporté, la société a épuisé son budget d'intelligence artificielle pour toute l'année 2026 en quatre mois. La réponse opérationnelle a été immédiate : un plafond de 1 500 dollars mensuels par employé pour les outils de programmation agentique, incluant Claude Code et Cursor. Mais la déclaration la plus significative n'est pas venue du PDG, mais du directeur des opérations, Andrew Macdonald, qui a dit publiquement qu'Uber ne peut pas tracer une ligne directe entre cette dépense croissante en tokens et des améliorations concrètes pour les utilisateurs finaux, ni pour les conducteurs ni pour les passagers. Cette phrase constitue, en termes d'architecture de valeur, un signal d'alarme de premier ordre. Non pas parce que la dépense est mauvaise, mais parce qu'elle indique que le cycle de rétroaction entre investissement et résultat n'est pas encore bouclé.
Microsoft a annulé la majorité de ses licences internes de Claude Code avant la mi-mai et a redirigé ses ingénieurs vers GitHub Copilot CLI avant la clôture de son exercice fiscal le 30 juin. La lecture superficielle est que Microsoft préfère son propre produit. La lecture la plus précise est que Microsoft a également subi un dépassement budgétaire sur les outils d'intelligence artificielle et a choisi de consolider les dépenses à l'intérieur de son propre périmètre avant que le problème ne s'aggrave. Amazon a supprimé son tableau de classement interne de consommation de tokens après qu'un cadre supérieur a demandé à l'équipe de cesser d'utiliser l'intelligence artificielle pour le simple plaisir de l'utiliser. Walmart, qui avait offert des tokens illimités à ses employés pour l'agent d'intelligence artificielle interne, a également imposé des limites.
Le schéma n'est pas une coïncidence ni une panique financière isolée. C'est le signal que le secteur corporatif vient de franchir le seuil où l'intelligence artificielle a cessé d'être un projet pilote doté d'un budget d'innovation pour devenir une dépense opérationnelle qui concurrence d'autres dépenses opérationnelles en termes de justification de retour sur investissement.
Ce que la consommation de tokens révèle sur la distribution de la valeur
Derrière les chiffres de consommation se cache une structure économique qui mérite d'être examinée avec précision. Chaque token consommé représente un revenu pour OpenAI ou pour Anthropic, une demande de calcul pour les fournisseurs de cloud et une justification d'investissement dans l'infrastructure de puces. Sous cet angle, la croissance d'un million de fois en six ans et demi est exactement le récit qui soutient les valorisations des entreprises d'infrastructure et la logique des grands contrats de centres de données.
Mais cette même structure présente une distribution asymétrique que les chiffres de consommation ne capturent pas. Les entreprises qui paient les tokens — Uber, Microsoft, Amazon, Walmart — assument les coûts opérationnels de la croissance, tandis que la capture de valeur en termes de marges, de propriété intellectuelle sur les modèles et de pouvoir de fixation des prix se concentre chez les fournisseurs de modèles. Cette asymétrie n'est pas nécessairement injuste en termes de marché, mais elle a des conséquences structurelles pour la durabilité du modèle d'adoption massive.
Lorsque le directeur des opérations d'Uber dit qu'il ne peut pas relier la dépense en tokens aux améliorations du produit, il décrit un problème de retour sur investissement qui, s'il persiste, ne se résout pas avec davantage de tokens, mais avec une renégociation de l'architecture complète de la dépense. Le fait qu'Anthropic ait dépassé OpenAI en dépenses corporatives d'entreprise, selon Altman lui-même, ajoute une couche supplémentaire à cette analyse. Cela signifie que la concurrence entre les modèles génère une prolifération de plateformes que les équipes d'ingénierie adoptent en parallèle, ce qui multiplie les coûts sans nécessairement multiplier les résultats. La consolidation qu'exécute Microsoft en interne — forcer l'utilisation d'un seul outil — est une réponse rationnelle à ce problème, même si elle est enveloppée dans une rhétorique de préférence de produit.
Le cas de Peter Steinberger, développeur externe qui, selon les rapports, a consommé 603 milliards de tokens en 30 jours, et l'employé d'OpenAI qui aurait utilisé 210 milliards de tokens en une seule semaine, illustre quelque chose de différent mais de connexe. Lorsque la consommation individuelle dépasse de plusieurs ordres de grandeur la moyenne mondiale, le modèle de tarification forfaitaire ou semi-fermée commence à générer des subventions croisées qui n'apparaissent dans aucun bilan, mais qui distordent l'économie du service. Tous les tokens n'ont pas le même coût de production ni la même valeur pour celui qui les consomme.
Le compte qui ne s'équilibre pas dans le modèle d'adoption massive
La narrative dominante dans le secteur depuis 2023 a été celle d'une adoption sans friction : donner un accès large, éliminer les barrières de prix, faire croître la consommation et capturer la valeur plus tard par la dépendance, les données et les effets de réseau. Ce manuel a fonctionné pour construire des bases d'utilisateurs massives. Le problème est que dans le segment des PME et grandes entreprises, la « dépendance » a un contrepoids qui n'existe pas avec la même intensité chez le consommateur individuel : un directeur financier et un cycle budgétaire annuel.
Altman a décrit ce changement d'attitude comme quelque chose qui est arrivé « soudainement ». Début 2026, selon ses propres mots, personne ne se souciait des coûts. Tout le monde était satisfait de son niveau de dépenses. Cette description, prononcée par le PDG de l'entreprise la plus valorisée du secteur de l'intelligence artificielle, est en elle-même un diagnostic de la façon dont la phase d'adoption a été structurée : sans que les acheteurs aient une clarté sur la courbe de coûts qu'ils acceptaient implicitement en faisant croître l'usage agentique.
Les modèles agentiques, à la différence des chatbots de consultation ponctuelle, possèdent une caractéristique qui les rend structurellement coûteux à grande échelle : ils exécutent des tâches en chaîne, ce qui signifie que chaque étape du processus consomme des tokens, y compris les étapes intermédiaires de raisonnement, de vérification et de correction d'erreurs. Une tâche qu'un humain résout par une décision peut nécessiter des dizaines d'appels au modèle avant de produire un résultat. Ce multiplicateur n'était pas évident lors des pilotes à usage modéré. Il est devenu visible lorsque les entreprises ont déployé ces outils à l'échelle de centaines ou de milliers d'employés simultanément.
Le résultat est un fossé entre la valeur perçue pendant la phase expérimentale et le coût réel pendant la phase opérationnelle. Et ce fossé ne se comble pas avec des améliorations d'efficacité marginales. Il requiert soit des modèles de tarification radicalement différents, soit une révision en profondeur de quelles tâches méritent d'être résolues avec des agents d'intelligence artificielle et lesquelles se résolvent de façon moins coûteuse avec des processus plus simples.
Le prochain cycle ne sera pas remporté par celui qui vend le plus de tokens
La conclusion la plus directe qui ressort des déclarations d'Altman et du comportement simultané des plus grandes entreprises du monde est que le secteur de l'intelligence artificielle d'entreprise entre dans sa deuxième phase. La première phase a été celle de l'adoption par enthousiasme, avec des budgets d'innovation et une tolérance élevée à l'incertitude concernant le retour sur investissement. La deuxième phase est celle de l'adoption par justification, où la dépense en intelligence artificielle concurrence sur la même table la dépense en infrastructure, en personnel et en opérations, et doit démontrer le même type de retour mesurable.
Cette transition n'est pas négative pour le secteur. Mais elle change bien qui gagne en son sein. Dans la première phase, ceux qui ont gagné étaient ceux qui offraient le modèle le plus capable et l'expérience la plus fluide. Dans la deuxième phase, gagneront ceux qui pourront démontrer avec précision combien coûte chaque résultat et quelle en est la valeur. Cela favorise les fournisseurs qui développent des outils d'observabilité, de contrôle des coûts et d'attribution des résultats — pas seulement ceux qui font croître la capacité brute du modèle.
Altman projette une nouvelle croissance d'un million de fois en consommation de tokens. Si cette croissance se matérialise sans que la structure de coûts ne devienne plus transparente et contrôlable pour les acheteurs, ce qui se produira ne sera pas une expansion soutenue du marché, mais une série de corrections budgétaires qui fragmenteront l'adoption. Le mème corporatif qu'il a lui-même cité — le budget annuel consommé au premier trimestre — n'est pas une anecdote sympathique. C'est la description précise de la limite structurelle du modèle actuel de monétisation par volume de tokens, qui croît en revenus pour les vendeurs exactement dans la proportion où il génère une pression insoutenable pour les acheteurs.
L'architecture qui permettrait aux deux courbes de coexister sans que l'une n'annule l'autre n'existe pas encore clairement. Tant qu'elle n'existera pas, chaque record de consommation de tokens sera simultanément une bonne nouvelle pour l'infrastructure et un signal d'alerte pour la continuité de la dépense corporative qui la finance.











