KI-Berichte: Der blinde Fleck der Manager

Der blinde Fleck, über den kein Manager in seinen KI-Berichten spricht

Das offizielle Bild der unternehmerischen Einführung von künstlicher Intelligenz sieht ordentlich aus: genehmigte Investitionen, laufende Pilotprojekte, Dashboards mit Produktivitätskennzahlen. Doch es gibt eine Ebene, die diese Berichte nicht erfassen – und genau dort sammelt sich das eigentliche Risiko an.

Der Gartner Hype Cycle verortet generative KI derzeit im „Tal der Enttäuschungen", der dritten von fünf Phasen, in der die Erwartungen beginnen, an konkreten Ergebnissen gemessen zu werden. Es ist ein Moment der Abrechnung. Und die Zahlen, die dabei ans Licht kommen, sind alles andere als bequem: Eine MIT-Studie, die in Technologiekreisen breit zitiert wird, kommt zu dem Schluss, dass 95 % der Pilotprojekte mit generativer KI in Unternehmen scheitern. Nicht spektakulär – sie führen schlicht zu keinem messbaren Ergebnis.

Was sich hinter dieser Zahl verbirgt, ist interessanter als die Zahl selbst. Es ist kein technologisches Problem. Es ist ein Problem der Organisationsstruktur, der Sichtbarkeit und, im Kern, davon, wie Unternehmen etwas managen, das sich schneller bewegt, als sie es beobachten können.

Wenn die Einführung die Beobachtungsfähigkeit übersteigt

Die KI-Einführung in großen Organisationen hat zwei gleichzeitige Wege eingeschlagen: den Top-down-Auftrag von der Führungsebene und die spontane Nutzung von Werkzeugen durch operative Teams von unten nach oben. Beide Wege schreiten voran, ohne eine gemeinsame Landkarte.

Das Ergebnis ist ein fragmentiertes Inventar. Verschiedene Geschäftseinheiten nutzen unterschiedliche Werkzeuge für ähnliche Aufgaben, mit Kontrollniveaus, die von strenger Aufsicht bis hin zu vollständiger Informalität reichen. Das ist keine Kleinigkeit. Jede Interaktion mit einem KI-System erzeugt einen Verhaltensdatensatz: was gefragt wird, welche Daten geteilt werden, welche Arbeitsabläufe aktiviert werden. Diese Informationen existieren, werden aber in den meisten Fällen weder systematisch erfasst noch analysiert.

Das Problem ist nicht, dass Organisationen KI dezentral nutzen. Das Problem ist, dass Führungskräfte unter Annahmen über diese Nutzung operieren, die keine empirische Grundlage haben. Sie glauben zu wissen, welche Tools aktiv sind, welche Daten durch sie fließen und unter welchen Bedingungen. In der Praxis ist dieses Wissen lückenhaft und häufig veraltet.

ISACA beschreibt in seiner Risikoanalyse für 2026 dies präzise: Es gibt einen blinden Fleck im Kern des unternehmerischen KI-Risikos, und es ist kein Problem der Modellkapazität, sondern der Kontrolle über deren Nutzung. Die Fragilität liegt nicht darin, was die Modelle falsch machen können. Sie liegt darin, dass Organisationen nicht genug Einblick haben, um zu wissen, was auf der Ebene jeder einzelnen Interaktion passiert.

Wenn die Sichtbarkeit gering ist, nimmt das Risiko gleichzeitig verschiedene Formen an. Es gibt die Offenlegung sensibler Daten durch nicht autorisierte Tools. Es gibt KI-Agenten mit Zugriffsrechten, die nie formell überprüft wurden. Es gibt automatisierte Entscheidungen, die nach Genehmigung des ersten Pilotprojekts niemand mehr geprüft hat. Und es gibt vor allem eine wachsende Kluft zwischen dem, was Führungskräfte ihren Vorgesetzten über die Leistung ihrer KI-Initiativen berichten, und dem, was im täglichen Betrieb tatsächlich geschieht.

Was die Sicherheitsforschung über eingesetzte Modelle enthüllt

Die Diskussion über blinde Flecken hat eine technische Dimension, die in Vorstandsgesprächen häufig außen vor bleibt. Die Sicherheitsbewertungen von Sprachmodellen haben ihre Methodik verändert, und die Ergebnisse sind für Teams, die Implementierungen auf Basis von Standard-Benchmarks genehmigt haben, unangenehm.

Der entscheidende Unterschied besteht zwischen Einzelrunden- und Mehrrundenprüfungen. Bei Ersteren wird bewertet, ob ein Modell eine problematische Anweisung in einer einzigen Interaktion ablehnt. Bei Letzteren wird ein iteratives Gespräch simuliert, bei dem der Angreifer seine Strategie nach jeder Antwort anpasst. Die Ergebnisse weichen erheblich voneinander ab.

Von National CIO Review zitierte Forschungsergebnisse zeigen, dass bei Modellen führender Anbieter die Erfolgsquoten von Konversationsangriffen zwischen 7,89 % und 88,30 % liegen, abhängig vom Modell und der Art des Angriffs. Das ist kein statistisches Rauschen: Es ist eine Spanne, die verändern sollte, wie Organisationen über die Robustheit der Systeme nachdenken, die sie bereits im Einsatz haben.

Die praktische Implikation ist unmittelbar. Organisationen, die Implementierungen auf Basis von Einzelrunden-Sicherheitsprüfungen genehmigt haben, haben ein Risikobild, das unterschätzt, was bei längerem Einsatz oder unter adversarialem Druck geschieht. Und Organisationen, die vor der Implementierung keine formellen Tests durchgeführt haben, haben eine noch größere Lücke zwischen ihrer erklärten Zuversicht und ihrer tatsächlichen Risikoexposition.

Das Problem endet nicht bei der Sicherheit des Modells. Wenn von KI-Agenten die Rede ist, weitet sich der Risikoperimeter aus. Ein Agent beantwortet nicht nur Fragen: Er handelt. Er kann auf interne Systeme zugreifen, Prozesse ausführen, delegierte Entscheidungen treffen. Das macht ihn zu einer operativen Identität innerhalb der Organisation, mit allen damit verbundenen Risiken: Zugriffsrechten, die nie entzogen wurden, Berechtigungen, die während eines Pilotprojekts erteilt und nie angepasst wurden, und Aktivitäten, die in keinem Log erfasst sind, das jemand regelmäßig überprüft.

TechRadar Pro formuliert es so, dass es in jedem Meeting zur operationellen Risikosteuerung Aufmerksamkeit verdient: Das Problem ist nicht die KI, es ist der Zugang, der ihr gewährt wurde. Die Organisationen, die signifikant niedrigere Vorfallsquoten melden, sind jene, die Mindestzugriffsberechtigungen für ihre Agenten eingeführt haben, die diese als formelle Identitäten behandeln, die Bereitstellung, regelmäßige Überprüfung und Entzug der Rechte erfordern.

Die KI-Ausgaben, die sich selbst nicht rechtfertigen können

Es gibt eine finanzielle Dimension dieses Problems, die in Diskussionen über KI-Governance gewöhnlich umgangen wird. Wenn eine Organisation nicht beobachten kann, wie ihre KI-Investition genutzt wird, kann sie auch deren Rendite nicht zuverlässig messen.

Das hat konkrete Konsequenzen. KI-Budgets werden auf Grundlage von Produktivitätsprognosen genehmigt, die in vielen Fällen auf Grundlage kontrollierten Pilotprojekten erstellt wurden, die die Bedingungen des Masseneinsatzes nicht abbilden. Wenn dieser Masseneinsatz kommt, bringt er nicht autorisierte Tools, unbeaufsichtigte Abläufe und Verhaltensweisen mit sich, die niemand vorhergesehen hat. Die Produktivitätssteigerung mag eintreten, aber wenn es keine Sichtbarkeit darüber gibt, was sie erzeugt und unter welchen Bedingungen, können Führungskräfte sie weder gezielt replizieren noch kontrolliert skalieren.

Der Mechanismus der Fragilität ist hier spezifisch: Wenn die Sichtbarkeit gering ist, fließt das Kapital zu dem Tool, das sich intern am besten verkaufen lässt, nicht zu dem, das den größten Wert generiert. Teams, die KI auf eine Weise einsetzen, die echte Ergebnisse liefert, aber ohne formelle Dokumentation, werden im nächsten Budgetzyklus ausgeschlossen. Teams mit polierteren Präsentationen erhalten zusätzliche Ressourcen, auch wenn ihre Kennzahlen schwächer sind.

Das ist kein Problem interner Korruption. Es ist ein Problem der Informationsarchitektur. Ohne Daten über die tatsächliche Nutzung arbeiten Investitionskomitees mit qualitativen Aussagen statt mit beobachteten Mustern. Und qualitative Aussagen sind systematisch zugunsten von Erfolgsgeschichten verzerrt, nicht zugunsten der stillen Misserfolge, die Kosten verursachen, ohne Wert zu schaffen.

Das Compliance-Risiko verschärft das Bild. Die Regulierungen zur KI-Nutzung in den Bereichen Finanzwesen, Gesundheitswesen und kritische Infrastrukturen reifen schneller heran, als Organisationen erwartet haben. Die Frage, die Regulierungsbehörden bereits stellen – und die viele Unternehmen nicht beantworten können –, ist einfach: Welches Modell hat mit welchen Daten, unter welcher Richtlinie, welche Entscheidung getroffen? Die Unfähigkeit, diese Frage zu beantworten, ist nicht nur ein Reputationsrisiko. In regulierten Märkten ist es ein Risiko für die Betriebsgenehmigung.

Das strukturelle Problem, das der Hype-Zyklus allein nicht lösen wird

Das historische Muster der unternehmerischen Technologieeinführung zeigt, dass sich die Lücke zwischen Kapazität und Governance nicht automatisch mit der Zeit schließt. Die Cloud schuf Shadow-IT. SaaS multiplizierte nicht verwaltete Identitäten. Mobiles Arbeiten öffnete Angriffsflächen, deren Katalogisierung Jahre dauerte. KI folgt demselben Muster, jedoch mit einer höheren Ausbreitungsgeschwindigkeit und dem wesentlichen Unterschied, dass Agenten handeln können – nicht nur speichern oder kommunizieren.

Was Organisationen, die nachhaltigen Wert generieren werden, von jenen trennt, die Kosten ohne Rendite absorbieren werden, ist weder das Modell, das sie wählen, noch der Anbieter, den sie beauftragen. Es ist die Fähigkeit, die eigene Nutzung systematisch zu beobachten, Interaktionsdaten als operationelles Signal zu behandeln und Kontrollen über diese Beobachtung aufzubauen, bevor das Problem nach außen sichtbar wird.

Die Organisationen, die dieses Problem gut lösen, tun drei konkrete Dinge. Erstens katalogisieren sie ihre KI-Assets so, wie sie es mit jedem anderen Unternehmenssoftware-Asset tun würden: Inventar, Versionen, Zugriffsrechte, Verantwortliche. Zweitens implementieren sie Activity-Logging auf Interaktionsebene für kritische Systeme – nicht als Mitarbeiterüberwachung, sondern als empirische Grundlage für Investitionsentscheidungen und Risikomanagement. Drittens überprüfen sie regelmäßig die KI-Agenten gewährten Berechtigungen mit derselben Sorgfalt, mit der sie menschliche Zugriffsrechte überprüfen.

Keine dieser drei Maßnahmen erfordert Technologie, die nicht bereits existiert. Sie erfordern den organisatorischen Willen anzuerkennen, dass das Problem nicht nur ein IT-Problem ist und dass die Lösung nicht ausschließlich an technische Teams delegiert werden kann. Der blinde Fleck, über den niemand in Vorstandspräsentationen spricht, ist genau dieser: Der Abstand zwischen dem, was Führungskräfte zu wissen glauben über ihre KI-Nutzung, und dem, was tatsächlich auf der Ebene jeder einzelnen Interaktion geschieht, ist eine Informationslücke mit operationellen, finanziellen und regulatorischen Konsequenzen, die sich still und leise ansammeln.

Die Fragilität in diesem Zyklus liegt nicht in den Modellen. Sie liegt in der Beobachtungsarchitektur derjenigen, die sie einsetzen. Organisationen, die das verstehen, bevor ein Regulator oder ein Vorfall es offensichtlich macht, werden einen strukturellen Vorteil gegenüber jenen haben, die es auf reaktive Weise lernen.