Warum KI-Projekte in Unternehmen scheitern

Warum 95 % der KI-Projekte in Unternehmen den Piloten nicht überleben

Es gibt einen Unterschied zwischen einer Demonstration, die in einem Sitzungssaal beeindruckt, und einem System, das von Montag bis Freitag funktioniert, ohne dass jemand eingreifen muss, um es zu retten. Die Branche der künstlichen Intelligenz baut seit zwei Jahren das Erstere mit einer Gewandtheit, die sie nicht auf das Letztere übertragen konnte. Und der Grund liegt nicht in den Modellen, die immer leistungsfähiger werden. Er liegt darin, wie man sich entschieden hat, über sie zu sprechen, und in der Verlängerung davon, wie man sich entschieden hat, sie zu bauen.

Die Zahl, die unter den ehrlichsten technischen Teams der Branche kursiert, ist schwer zu ignorieren: Bis zu 95 % der generativen KI-Projekte in Unternehmen erzielen keinen messbaren Return on Investment, so die MIT NANDA Initiative, zitiert von Iris.ai. Eine Misserfolgsquote von 70 bis 95 Prozent ist kein Zeichen dafür, dass der Markt „noch nicht reif ist". Es ist ein Zeichen dafür, dass etwas Strukturelles in der Art und Weise, wie gebaut wird, kaputt ist.

Enrique Dans zeigt in einem am 10. Juni 2026 in Fast Company veröffentlichten Beitrag, wo der Bruch liegt. Nicht in der technischen Fähigkeit der Sprachmodelle. Nicht im Widerstand der Mitarbeitenden. Sondern in etwas, das für eine Branche, die davon lebt, Investoren zu überzeugen, schwerer zuzugeben ist: Die Unternehmens-KI wurde auf Metaphern statt auf formalen Modellen aufgebaut. Und Metaphern lassen sich, so nützlich sie zum Verkaufen auch sein mögen, nicht industrialisieren.

Von der poetischen Sprache zur Architektur, die nicht skaliert

Das Inventar an Metaphern, das den KI-Diskurs der vergangenen zwei Jahre bevölkerte, ist umfangreich und aufschlussreich. Die Systeme „erinnern sich", „reflektieren", „planen" und, im Fall der „Schlaf"-Technik, die Anthropic für seine Agenten beschrieben hat, „schlafen" sie buchstäblich. Die Dokumentation der Azure OpenAI Assistants API beschreibt „Threads", die den Nachrichtenverlauf speichern und kürzen, wenn das Kontextfenster erschöpft ist, und bezeichnet das als „Gedächtnis". Das Ingenieursteam von Anthropic spricht von „langlebigen" Agenten, die „Kontinuität zwischen Sitzungen bewahren" müssen.

Keine dieser Beschreibungen ist technisch falsch. Das Problem ist, dass sie beschreibend sind, wo sie formal sein müssten. Eine Metapher beschreibt. Ein Modell formalisiert. Dieser Unterschied hat direkte wirtschaftliche Konsequenzen.

Wenn „Gedächtnis" kein Datenmodell ist, sondern eine operative Analogie, gibt es keine definierte Identität, keinen persistenten Zustand, keine Beziehungen mit expliziten Berechtigungen, keine Einschränkungen, die das System unabhängig davon garantiert, wer es benutzt oder wie oft. Es gibt in technischen Begriffen keine Invarianten: die Regeln, die eine Architektur unabhängig von den äußeren Bedingungen aufrechterhält. Ohne Invarianten ist jede Implementierung eine neue Verhandlung. Jeder Einsatz erfordert, dass jemand die operative Realität des Unternehmens in die Sprache übersetzt, die das System verarbeiten kann. Und diese Übersetzung lässt sich nicht an eine Vorlage delegieren.

Das beobachtbare Ergebnis ist, dass die führenden Frontier-KI-Anbieter, darunter OpenAI und Anthropic, wie Dans in seinem Beitrag beschreibt, Ingenieure und Außendienstteams zu ihren Unternehmenskunden entsenden, um Arbeitsabläufe zu kartieren, Einschränkungen zu definieren und Systeme zu verbinden. Was wie ein Premium-Service aussieht, ist in Wirklichkeit ein strukturelles Signal: Die Plattform kommt nicht allein zurecht. Wenn die maßgeschneiderte Übersetzung zur dominanten Lieferweise wird, hört das Produkt auf, eine Plattform zu sein, und wird zur Unternehmensberatung mit technologischer Schnittstelle.

Die Kosten dieses Modells für die Käufer sind zweifacher Natur. Erstens die direkten Ausgaben für Bespoke-Integration, die jedes Mal wiederholt werden muss, wenn sich ein System, eine Vorschrift oder ein interner Prozess ändert. Zweitens die Opportunitätskosten, nicht skalieren zu können: Wenn jede neue Anwendung dieselbe manuelle Intervention erfordert, verbessert sich der Grenznutzen jeder weiteren Implementierung mit der Zeit nicht. Die Kostenkurve sinkt nicht. Das Versprechen der Plattform materialisiert sich nicht.

Das historische Muster, das die KI-Branche noch nicht durchlaufen hat

Dans verbindet den aktuellen Moment der Unternehmens-KI mit drei technologischen Übergängen, denen die Industrialisierung tatsächlich gelungen ist, und der Vergleich ist unbequem für diejenigen, die lieber glauben wollen, dass KI-Agenten ein beispielloses Phänomen sind.

Edgar F. Codd entwickelte das relationale Datenmodell in den siebziger Jahren. Vor dieser Arbeit waren Datenbanken proprietäre Implementierungen, jede mit ihrer eigenen Sprache, ihrer eigenen Speicherlogik und ihrer eigenen Zugriffsmethode. Nach Codd gab es eine formale Abstraktion: Relationen, Attribute, Schlüssel, funktionale Abhängigkeiten. Auf dieser Formalisierung entstand SQL, und auf SQL entstand ein Milliardenmarkt für Software, Integrationen und Dienstleistungen. Was diesen Markt möglich machte, war nicht, dass Datenbanken leistungsfähiger wurden. Es war, dass sie mit ausreichender Präzision beschreibbar wurden, sodass zwei unabhängige Systeme sich ohne vorherige Verhandlung verstehen konnten.

Das Web folgte demselben Muster. Das W3C definierte durch URIs identifizierte Ressourcen, ein in RFC 9110 formalisiertes zustandsloses Protokoll und eine gemeinsame Grammatik aus HTTP-Methoden, Statuscodes und HTML. Kein Unternehmen erfand den Browser und bat dann seine Kunden, Berater zu engagieren, die interpretierten, was seine Seiten bedeuteten. Die Grammatik war öffentlich, formal und präzise genug, dass jeder Entwickler darauf aufbauen konnte, ohne jemanden anrufen zu müssen.

SAP tat dasselbe mit Geschäftsprozessen. Seine Dominanz im ERP-Bereich kam nicht daher, dass es bessere Schnittstellen als die Berater der damaligen Zeit hatte. Sie kam daher, dass das Unternehmen das Unternehmen als technisches Objekt formalisiert hatte: Stammdaten, Transaktionen, Buchungslogik, Inventar, Beschaffung, operative Beziehungen. Diese Formalisierung machte Implementierungen ausreichend wiederholbar, sodass Vorlagen, zertifizierte Partner, Erweiterungen und ein robuster Sekundärmarkt entstehen konnten. Die Varianz zwischen einem Kunden und dem nächsten reduzierte sich genug, damit das in einer Implementierung angesammelte Wissen auf die nächste übertragen werden konnte.

Was diese drei Fälle gemeinsam haben, ist, dass der Sprung von der Fähigkeit zur Plattform nicht deshalb geschah, weil die Technologie besser wurde. Er geschah, weil jemand mit Präzision definierte, was die Technologie darstellte und nach welchen Regeln sie funktionierte. In allen drei Fällen gab es einen Moment der Formalisierung, der dem Moment der Skalierung vorausging.

Die Unternehmens-KI hat diesen Moment noch nicht durchlaufen. Sie hat die Fähigkeit. Ihr fehlt die Grammatik.

Was McKinsey bestätigt und die meisten Teams ignorieren

Die MIT-Zahlen über Misserfolge sind nicht die einzige verfügbare Evidenz. Die McKinsey-Forschung zum Stand der KI, auf die Dans in seinem Artikel verweist, kommt zu einer Schlussfolgerung, die Teams, die ihren Fortschritt an der Anzahl gestarteter Piloten messen, unangenehm sein sollte: Die Unternehmen, die materiellen Nutzen aus KI ziehen, sind nicht jene, die am meisten KI einsetzen. Es sind jene, die ihre Arbeitsabläufe neu gestaltet haben.

Diese Unterscheidung ist nicht semantisch. KI auf einen bestehenden Prozess anzuwenden, bringt bestenfalls marginale Gewinne. Den Prozess rund um eine formale Repräsentation der Arbeit neu zu gestalten, bringt etwas anderes hervor: ein System, in dem künstliche Intelligenz kein Zubehör ist, sondern eine Bedingung des Funktionierens des Prozesses selbst.

Michael Hammer schrieb in der Harvard Business Review, dass Unternehmen einen vorhersehbaren Fehler begehen, wenn sie neue Technologie einführen: Sie beschleunigen bestehende Prozesse, anstatt sie zu ersetzen. Dans greift dieses Argument für den gegenwärtigen Moment auf. Die zeitgenössische Version von Hammers Fehler besteht darin, einen Genehmigungsablauf, der für Menschen konzipiert wurde, die Papierdokumente lesen, mit einem Sprachmodell zu ergänzen, das die Dokumente zusammenfasst, und das dann als Transformation zu bezeichnen. Der Prozess hat dieselbe kausale Struktur. Er hat lediglich eine schnellere Komponente in einem Zwischenschritt.

Die Neugestaltung, die McKinsey in Unternehmen mit messbarem Return feststellt, hat ein strukturelles Merkmal: Es gibt eine Schicht, die definiert, was eine Entität im Unternehmen ist, welche Zustände sie haben kann, welche Übergänge gültig sind, welche Berechtigungen für jede Aktion erforderlich sind und welche Regeln unabhängig von der Anweisung, die das System erhält, nicht verletzt werden können. Das ist kein ausgeklügelter Prompt. Es ist das, was Dans die formale Schicht nennt, die die Branche noch nicht standardisiert aufgebaut hat.

Der Unterschied zwischen dem Vorhandensein und dem Fehlen dieser Schicht ist prüfbar. Ohne sie kann das System auf dieselbe Anfrage eine andere Antwort geben, je nach dem Verlauf der Sitzung, dem anfragenden Benutzer oder der Formulierung der vorherigen Anweisung. Mit ihr gibt es Invarianten: Der Kundenvertrag kann nicht ohne Genehmigung des Regionalleiters geändert werden, unabhängig davon, was der Agent aus der gelesenen E-Mail „verstanden" hat. Diese Garantie kommt nicht vom Sprachmodell. Sie kommt von der Architektur, die es enthält.

Für regulierte Sektoren ist diese Unterscheidung keine technische Präferenz. In Finanzdienstleistungen, dem Gesundheitswesen oder dem öffentlichen Sektor ist das Fehlen überprüfbarer Invarianten keine operative Unannehmlichkeit. Es ist ein Blocker für den Einsatz in der Breite, weil kein Rechtsteam die Verantwortung für ein System unterzeichnen wird, das die Konsistenz seiner Entscheidungen nicht garantieren kann.

Der nächste Kampf findet nicht zwischen Modellen statt, sondern zwischen Abstraktionen

Dans' Analyse endet mit einer Prognose, die es wert ist, als strategisches Signal ernst genommen zu werden: Den Wettbewerbsvorteil in der nächsten Phase der Unternehmens-KI werden nicht die Anbieter mit den leistungsfähigsten Modellen gewinnen. Den werden jene gewinnen, die die formale Abstraktion definieren, auf der der Rest aufbaut.

Das eröffnet eine Frage mit konkreten Marktkonsequenzen, auch wenn die Antwort noch nicht klar ist. Die natürlichen Kandidaten für die Definition dieser Abstraktion sind vielfältig und haben unterschiedliche Anreize. Die großen Cloud-Anbieter, Microsoft, Google und Amazon, haben die Vertriebskapazitäten und die Unternehmensbeziehungen, aber auch den Anreiz, das Modell der intensiven Beratung beizubehalten, das Einnahmen aus Professional Services generiert. Die Modelllabore wie OpenAI und Anthropic haben die technische Tiefe, aber sie haben ihre Geschäftsmodelle rund um die Fähigkeit der Modelle aufgebaut, nicht rund um die Formalisierung der Prozesse, die sie umgeben. Die etablierten Unternehmenssoftware-Konzerne, SAP, Salesforce, Oracle, operieren bereits auf formalen Daten- und Prozessschichten, aber ihre Anpassungsgeschwindigkeit an neue Architekturen war historisch gesehen langsam.

Der interessanteste Raum könnte einem Akteurtyp gehören, der im Markt noch keinen klaren Namen hat: einem Spezialisten für Wissens- und Workflow-Infrastruktur, dessen Wertversprechen nicht das Sprachmodell ist, sondern die Schicht, die es innerhalb eines Unternehmens operabel macht, ohne bei jeder Implementierung eine manuelle Übersetzung zu erfordern. Etwas analog zu dem, was Middleware in den neunziger Jahren war, aber mit der Fähigkeit, über die enthaltenen Regeln zu urteilen.

Das Signal, dass dieser Akteur gewinnt, wird keine Produktankündigung sein. Es wird der Moment sein, in dem zwei Unternehmen aus verschiedenen Sektoren eine Implementierung teilen können, ohne dass eines von beiden einen Berater anrufen muss, um zu erklären, was „genehmigt" in seiner Organisation bedeutet. Wenn die Grammatik präzise genug ist, damit das geschehen kann, wird die handwerkliche Phase der Unternehmens-KI vorbei sein. Bis dahin ist die 95-Prozent-Misserfolgsquote kein statistischer Zufall. Es ist der Preis dafür, auf Analogien statt auf Definitionen aufzubauen.

Warum 95% der KI-Projekte in Unternehmen den Piloten nicht überleben

Warum 95 % der KI-Projekte in Unternehmen den Piloten nicht überleben

Von der poetischen Sprache zur Architektur, die nicht skaliert

Das historische Muster, das die KI-Branche noch nicht durchlaufen hat

Was McKinsey bestätigt und die meisten Teams ignorieren

Der nächste Kampf findet nicht zwischen Modellen statt, sondern zwischen Abstraktionen

Das könnte Sie auch interessieren

Die KI-Pipeline im Unternehmen verliert kein Geld durch Tokens – sondern schon vorher

Die Steuer, die niemand budgetiert hat, lässt KI-Agenten in Unternehmen scheitern

Warum KI-Verträge noch immer Stunden bezahlen, obwohl der Wert woanders liegt

Automatisieren ohne neu zu gestalten ist der teuerste Weg, die Vergangenheit zu bewahren

Die Amnesie von KI-Systemen ist kein Modellproblem, sondern ein Infrastrukturproblem

Databricks setzt auf Ontologie und enthüllt, wer das Gehirn der KI-Agenten im Unternehmen kontrolliert