Hundert Milliarden Tokens und kein CFO weiß, was er gekauft hat
Sam Altman betrat am 2. Juni 2026 die Bühne des Unternehmensevents von OpenAI mit einer Statistik, die beeindrucken sollte: Der größte interne Token-Verbraucher seines Unternehmens verarbeitet rund 100 Milliarden Tokens pro Monat. Der Saal reagierte erwartungsgemäß. Dann fügte Altman fast beiläufig hinzu, dass diese Zahl kein Weltrekord sei, weil jemand außerhalb von OpenAI sogar noch mehr verbrauche. Und damit beschrieb er, ohne es vollständig beabsichtigt zu haben, mit erschreckender Präzision das Problem, das die Wirtschaft der künstlichen Intelligenz auf Unternehmensebene spaltet: Der Verbrauch ist so schnell gewachsen, dass er sowohl die Vorstellungskraft derer, die das Produkt verkaufen, als auch die Budgetierungskapazität derer, die es kaufen, übersteigt.
Was nach der Zahl kam, war enthüllender als die Zahl selbst. Altman räumte ein, dass die Kosten mittlerweile die zweithäufigste Beschwerde der Unternehmenskunden von OpenAI sind. Und er beschrieb ein Meme, das unter Führungskräften kursiert und mit mehr diagnostischer Präzision als jeder Analystenbericht die Lage auf den Punkt bringt: „Das Unternehmen hat das gesamte Budget für 2026 im ersten Quartal ausgegeben. Können Sie es effizienter machen?" Die Frage im Meme ist nicht rhetorisch gemeint. Sie beschreibt den aktuellen Zustand Dutzender Organisationen, die mit Ausgabenannahmen aus dem Jahr 2025 ins Jahr gestartet sind und festgestellt haben, dass agentische Modelle in einem völlig anderen Tempo verbrauchen.
Vor sechseinhalb Jahren verarbeitete der aktivste Nutzer von OpenAI ungefähr 100.000 Tokens pro Monat. Heute ist diese Zahl der weltweite Durchschnitt pro Person. Der intern aktivste Nutzer des Unternehmens verbraucht eine Million Mal mehr als jener historische Rekord. Altman prognostiziert, dass sich diese Expansion wiederholen wird. Sollte das eintreten, wäre die heute existierende KI-Infrastruktur für den künftigen Markt das, was ein Taschenrechner für ein Rechenzentrum ist. Doch zwischen dieser Projektion und der operativen Realität der Unternehmenskäufer klafft eine Lücke, die keine einzige Folie über exponentielles Wachstum allein schließen kann.
Das Budget als erster Indikator für technologische Reife
In der Geschichte der Unternehmenstechnologie wiederholt sich ein Muster mit ausreichender Konsistenz, um es als Rahmen zu verwenden: Jedes Mal, wenn eine Technologie vom experimentellen Werkzeug zur operativen Linienkost wird, tritt die Finanzabteilung in das Gespräch ein und ändert die Spielregeln. Bei Cloud-Software geschah das Mitte der 2010er-Jahre. Bei Daten und fortgeschrittener Analytik danach. Bei agentischer künstlicher Intelligenz geschieht es jetzt, im Jahr 2026, mit einer Geschwindigkeit, die selbst die Führungskräfte der ausgefeiltesten Unternehmen des Planeten unvorbereitet erwischt hat.
Uber ist der am besten dokumentierte Fall. Laut Berichten hat das Unternehmen sein KI-Budget für das gesamte Jahr 2026 in vier Monaten aufgebraucht. Die operative Reaktion war unmittelbar: eine Obergrenze von 1.500 US-Dollar pro Mitarbeiter und Monat für agentische Programmierwerkzeuge, einschließlich Claude Code und Cursor. Doch die bedeutsamste Aussage kam nicht vom CEO, sondern vom COO Andrew Macdonald, der öffentlich erklärte, Uber könne keine direkte Linie zwischen den steigenden Token-Ausgaben und konkreten Verbesserungen für die Endnutzer ziehen – weder für Fahrer noch für Fahrgäste. Dieser Satz ist in Bezug auf die Wertarchitektur ein Alarmsignal erster Ordnung. Nicht weil die Ausgaben schlecht wären, sondern weil sie darauf hinweisen, dass der Rückkopplungskreis zwischen Investition und Ergebnis noch nicht geschlossen ist.
Microsoft hat die meisten seiner internen Claude-Code-Lizenzen vor Mitte Mai gekündigt und seine Ingenieure vor dem Ende des Geschäftsjahres am 30. Juni auf GitHub Copilot CLI umgelenkt. Die oberflächliche Lesart ist, dass Microsoft sein eigenes Produkt bevorzugt. Die präzisere Lesart ist, dass Microsoft ebenfalls mit Budgetüberschreitungen bei KI-Werkzeugen konfrontiert war und sich entschied, die Ausgaben innerhalb des eigenen Perimeters zu konsolidieren, bevor das Problem eskalierte. Amazon entfernte seine interne Token-Verbrauchs-Rangliste, nachdem ein leitender Führungskraft das Team angewiesen hatte, KI nicht mehr um des bloßen Verwendens willen einzusetzen. Walmart, das seinen Mitarbeitern für den internen KI-Agenten unbegrenzte Tokens angeboten hatte, führte ebenfalls Beschränkungen ein.
Das Muster ist kein Zufall und keine isolierte Finanzpanik. Es ist das Signal, dass der Unternehmenssektor soeben die Schwelle überschritten hat, an der die künstliche Intelligenz aufgehört hat, ein Pilotprojekt mit Innovationsbudget zu sein, und sich in eine operative Ausgabe verwandelt hat, die mit anderen operativen Ausgaben um Renditebegründung konkurriert.
Was der Token-Verbrauch über die Wertverteilung verrät
Hinter den Verbrauchszahlen verbirgt sich eine Wirtschaftsstruktur, die es verdient, mit Präzision untersucht zu werden. Jeder verbrauchte Token ist Umsatz für OpenAI oder Anthropic, Rechenleistungsbedarf für die Cloud-Anbieter und Investitionsbegründung für Chip-Infrastruktur. Aus diesem Blickwinkel ist das Wachstum um das Millionenfache in sechseinhalb Jahren genau die Erzählung, die die Bewertungen von Infrastrukturunternehmen und die Logik großer Rechenzentrumverträge stützt.
Doch dieselbe Struktur hat eine asymmetrische Verteilung, die die Verbrauchszahlen nicht abbilden. Die Unternehmen, die für die Tokens zahlen – Uber, Microsoft, Amazon, Walmart –, tragen die operativen Kosten des Wachstums, während die Wertschöpfung in Bezug auf Margen, geistiges Eigentum an den Modellen und Preissetzungsmacht sich bei den Modellanbietern konzentriert. Diese Asymmetrie ist marktwirtschaftlich nicht notwendigerweise ungerecht, hat aber strukturelle Konsequenzen für die Nachhaltigkeit des Modells der Massenadoption.
Wenn der COO von Uber sagt, er könne die Token-Ausgaben nicht mit Produktverbesserungen in Verbindung bringen, beschreibt er ein Problem mit dem Return on Investment, das, wenn es anhält, nicht durch mehr Tokens gelöst wird, sondern durch eine Neuverhandlung der gesamten Ausgabenarchitektur. Die Tatsache, dass Anthropic laut Altman selbst OpenAI bei den Unternehmensausgaben überholt hat, fügt dieser Analyse eine weitere Schicht hinzu. Es bedeutet, dass der Wettbewerb zwischen Modellen eine Proliferation von Plattformen erzeugt, die Ingenieurteams parallel einsetzen, was die Kosten multipliziert, ohne notwendigerweise die Ergebnisse zu multiplizieren. Die Konsolidierung, die Microsoft intern durchführt – die Nutzung auf ein einziges Werkzeug zu erzwingen –, ist eine rationale Antwort auf dieses Problem, auch wenn sie in der Rhetorik der Produktpräferenz verpackt ist.
Der Fall von Peter Steinberger, einem externen Entwickler, der Berichten zufolge 603 Milliarden Tokens in 30 Tagen verbrauchte, und des OpenAI-Mitarbeiters, der angeblich 210 Milliarden Tokens in einer einzigen Woche verwendet haben soll, illustriert etwas anderes, aber Verwandtes. Wenn der individuelle Verbrauch den globalen Durchschnitt um mehrere Größenordnungen übersteigt, beginnt das Modell der Pauschalpreise oder halbgeschlossenen Preise Quersubventionen zu erzeugen, die in keiner Bilanz auftauchen, aber die Wirtschaft des Dienstleistung verzerren. Nicht alle Tokens haben dieselben Produktionskosten oder denselben Wert für denjenigen, der sie verbraucht.
Die Rechnung, die im Modell der Massenadoption nicht aufgeht
Die dominierende Erzählung im Sektor seit 2023 war die der reibungslosen Adoption: breiten Zugang gewähren, Preisbarrieren beseitigen, den Verbrauch skalieren und den Wert später durch Abhängigkeit, Daten und Netzwerkeffekte abschöpfen. Dieses Handbuch funktionierte beim Aufbau massiver Nutzerbasen. Das Problem ist, dass im Unternehmenssegment die „Abhängigkeit" ein Gegengewicht hat, das beim Einzelverbraucher nicht mit derselben Intensität existiert: ein CFO und ein jährlicher Budgetzyklus.
Altman beschrieb den Einstellungswandel als etwas, das „plötzlich" eintrat. Anfang 2026, nach seinen eigenen Worten, interessierten sich die Kosten niemanden. Alle waren mit ihrem Ausgabenniveau zufrieden. Diese Beschreibung, geäußert vom CEO des wertvollsten Unternehmens im KI-Sektor, ist selbst eine Diagnose darüber, wie die Adoptionsphase strukturiert wurde: ohne dass die Käufer Klarheit über die Kostenkurve hatten, die sie implizit akzeptierten, als sie die agentische Nutzung skalierten.
Agentische Modelle haben im Gegensatz zu punktuellen Chatbots eine Eigenschaft, die sie strukturell kostspielig in großem Maßstab macht: Sie führen Aufgaben in Ketten aus, was bedeutet, dass jeder Schritt des Prozesses Tokens verbraucht – einschließlich der Zwischenschritte des Denkens, der Überprüfung und der Fehlerkorrektur. Eine Aufgabe, die ein Mensch mit einer Entscheidung löst, kann Dutzende von Modellaufrufen erfordern, bevor sie ein Ergebnis produziert. Dieser Multiplikator war in den Pilotprojekten mit moderater Nutzung nicht offensichtlich. Er wurde sichtbar, als Unternehmen diese Werkzeuge im Maßstab von Hunderten oder Tausenden von Mitarbeitern gleichzeitig einsetzten.
Das Ergebnis ist eine Lücke zwischen dem wahrgenommenen Wert während der experimentellen Phase und den tatsächlichen Kosten während der operativen Phase. Und diese Lücke schließt sich nicht durch marginale Effizienzverbesserungen. Sie erfordert entweder grundlegend andere Preismodelle oder eine tiefgreifende Überprüfung, welche Aufgaben es wert sind, mit KI-Agenten gelöst zu werden, und welche sich mit einfacheren Prozessen kostengünstiger lösen lassen.
Den nächsten Zyklus gewinnt nicht, wer die meisten Tokens verkauft
Die direkteste Schlussfolgerung, die aus den Aussagen von Altman und dem gleichzeitigen Verhalten der größten Unternehmen der Welt hervorgeht, ist, dass der Unternehmens-KI-Sektor in seine zweite Phase eintritt. Die erste Phase war die der Adoption durch Enthusiasmus, mit Innovationsbudgets und hoher Toleranz gegenüber Ungewissheit über die Rendite. Die zweite Phase ist die der Adoption durch Rechtfertigung, bei der KI-Ausgaben am selben Tisch wie Ausgaben für Infrastruktur, Personal und Betrieb konkurrieren und dieselbe Art messbarer Rendite nachweisen müssen.
Dieser Übergang ist nicht negativ für den Sektor. Aber er verändert, wer innerhalb des Sektors gewinnt. In der ersten Phase gewannen diejenigen, die das leistungsfähigste Modell und das flüssigste Erlebnis boten. In der zweiten Phase werden diejenigen gewinnen, die präzise darlegen können, wie viel jedes Ergebnis kostet und wie viel es wert ist. Das begünstigt Anbieter, die Werkzeuge für Observierbarkeit, Kostenkontrolle und Ergebniszuschreibung entwickeln – und nicht nur diejenigen, die die rohe Kapazität des Modells skalieren.
Altman prognostiziert ein weiteres Wachstum um das Millionenfache beim Token-Verbrauch. Wenn sich dieses Wachstum materialisiert, ohne dass die Kostenstruktur für die Käufer transparenter und kontrollierbarer wird, wird das Ergebnis keine nachhaltige Marktexpansion sein, sondern eine Reihe von Budgetkorrekturen, die die Adoption fragmentieren werden. Das Unternehmens-Meme, das er selbst zitierte – das Jahresbudget im ersten Quartal aufgebraucht –, ist keine nette Anekdote. Es ist die präzise Beschreibung der strukturellen Grenze des aktuellen Monetarisierungsmodells nach Token-Volumen, das für die Verkäufer genau in dem Maße an Einnahmen wächst, wie es für die Käufer unhaltbaren Druck erzeugt.
Die Architektur, die es beiden Kurven erlaubt, nebeneinander zu bestehen, ohne dass eine die andere auslöscht, existiert noch nicht mit hinreichender Klarheit. Solange sie nicht existiert, wird jeder Token-Verbrauchsrekord gleichzeitig eine gute Nachricht für die Infrastruktur und ein Warnsignal für die Kontinuität der Unternehmensausgaben sein, die sie finanziert.











