KI im Unternehmen: Warum Human-in-the-Loop entscheidet

Der menschliche Regelkreis bremst die Unternehmens-KI nicht – er macht sie erst möglich

Es gibt eine weit verbreitete Art, sich in Unternehmen bei der künstlichen Intelligenz zu irren. Sie besteht darin, die Reife eines Systems daran zu messen, wie viele Stellen es abzubauen gelungen ist. Diese Kennzahl misst keine Reife: Sie misst Geschwindigkeit ohne Steuerung – und das ist genau die Bedingung, die den kostspieligsten Zusammenbrüchen in kritischen Systemen vorausgeht.

Die Diskussion über Human-in-the-Loop – das Modell, bei dem menschliches Urteilsvermögen explizit und bewusst in KI-gestützte Arbeitsabläufe integriert wird – gewinnt seit Monaten in den Vorstandsetagen großer Unternehmen an Fahrt. Nicht weil die Führungskräfte durch regulatorische Modetrends vorsichtiger geworden wären, sondern weil die ersten Großeinsätze eine unbequeme Wahrheit ans Licht gebracht haben: Die Modelle erzeugen flüssige Antworten, die korrekt klingen, obwohl sie interne Richtlinien verletzen, regulatorische Kontexte falsch interpretieren oder Empfehlungen produzieren, die kein Mensch im Unternehmen je unterzeichnet hätte.

Laut Gartner-Daten erreicht fast die Hälfte aller Initiativen im Bereich generativer KI keine Skalierung. Der Hauptfaktor ist nicht die Qualität des Modells. Es sind die fehlenden oder unzureichenden Risikokontrollen. Geschwindigkeit ohne Struktur beschleunigt die Einführung nicht: Sie bricht sie ab.

Der Unterschied zwischen Berechnen und Verstehen hat konkrete finanzielle Folgen

Ein KI-System kann jahrzehntelange Daten zu Betriebsvorfällen verarbeiten, Fehlermuster erkennen, bevor sie auftreten, und in kontrollierten Fällen automatische Korrekturreaktionen auslösen. Das ist von echtem Wert. Es kann aber auch eine technisch tadellose Empfehlung erzeugen, die den vertraglichen, regulatorischen oder politischen Kontext, in dem diese Empfehlung umgesetzt werden muss, vollständig außer Acht lässt.

Die Unterscheidung ist nicht philosophischer Natur. Sie hat ihren Preis. In Zahlungsplattformen, Versicherungssystemen, Gesundheitsversorgungsabläufen oder jeder Umgebung, in der ein falscher Output rechtliche, finanzielle oder reputationsbezogene Folgen auslöst, ist der Unterschied zwischen „richtiger Antwort" und „kontextgerechter Antwort" Millionen wert. Sprachmodelle sagen Wortfolgen mit hoher Wahrscheinlichkeit voraus; sie übernehmen keine Verantwortung und können keine Verantwortung für die Folgen dieser Sequenzen in einem realen Umfeld übernehmen.

Was der Human-in-the-Loop in diesem Szenario leistet, ist sehr konkret: Er verteilt das Urteilsvermögen über den gesamten Lebenszyklus des Systems, nicht nur am Ende als abschließender Überprüfungsschritt. Es gibt vier Ebenen, auf denen diese Verteilung stattfindet. Erstens bei der Definition von Zielen und Handlungseinschränkungen, bevor das Modell in Betrieb geht. Zweitens bei der Überprüfung von Plänen vor der Ausführung, insbesondere wenn das System Schritte mit nicht umkehrbaren Folgen vorschlägt. Drittens bei der Überwachung während der Ausführung, mit echter Möglichkeit zur Unterbrechung oder Rückgängigmachung. Viertens bei der korrigierenden Rückkopplung, die das künftige Verhalten des Systems anpasst. Wenn Menschen aus einer dieser Ebenen entfernt werden, vereinfacht das das System nicht: Es macht es gleichzeitig undurchsichtig und fragil.

Die von Anbietern der Branche dokumentierte Forrester-Studie schätzt, dass die Integration menschlicher Überprüfung in KI-Entscheidungsabläufe die Präzision dieser Entscheidungen um 15 bis 20 Prozent verbessert. Das ist kein Marketingversprechen: Es sind die Kosten, die entstehen, wenn der Mensch dort eliminiert wird, wo das Modell nicht über ausreichende Kontextinformationen verfügt, um gut zu handeln. Gleichzeitig existiert auch das gegenteilige Risiko, das gleichermaßen kostspielig ist: Wenn die menschliche Überprüfung für jede Routineentscheidung obligatorisch ist, wird das System zu einer teuren Entscheidungsunterstützung mit geringer tatsächlicher Automatisierung. Der Kalibrierungspunkt – wo der Regelkreis greift und wo nicht – ist der Ort, an dem die Wirtschaftlichkeit des Modells entschieden wird.

Wer war im Raum, als das System entworfen wurde

Dies ist der Punkt, an dem die übliche Diskussion über Human-in-the-Loop zu kurz greift. Die meisten operativen Rahmenwerke positionieren den Menschen im Moment der Ausführung: Er überprüft den Output, genehmigt oder lehnt ab, eskaliert bei Zweifeln. Das löst einen Teil des Problems. Es berührt jedoch nicht den Moment, in dem Ungleichheit tatsächlich automatisiert wird: das Design.

Wenn ein Team festlegt, welche Daten das Modell trainieren, welche Variablen als relevant erachtet werden, welche Schwellenwerte bestimmen, wann an einen menschlichen Prüfer eskaliert wird, und welche Profile zur Validierung der Outputs verwendet werden, codieren diese Entscheidungen eine bestimmte Weltsicht. Wenn dieses Team homogen ist – gleiche Ausbildung, gleicher Erfahrungsbereich, gleiche Position innerhalb der Machtstruktur der Organisation – werden die Einschränkungen und Vorurteile dieser Gruppe in die Architektur eingebettet, bevor das System überhaupt eingesetzt wird. Der Human-in-the-Loop in der Ausführungsphase korrigiert diese nicht. Er wendet sie lediglich konsequenter an.

Die echte Governance eines KI-Systems beginnt nicht, wenn das Modell in Produktion geht. Sie beginnt, wenn entschieden wird, welches Problem gelöst werden soll, mit welchen Daten, unter welchen Einschränkungen und mit wem im Raum. Teams mit hoher Ausbildungs- und Perspektivhomogenität haben blinde Flecken, die die Gruppe selbst nicht als solche wahrnimmt, weil niemand innerhalb der Gruppe die Position oder den Blickwinkel hat, sie zu erkennen. Sie bezeichnen als Kohäsion, was manchmal Fragilität ist: die Unfähigkeit, das zu erkennen, was das eigene konzeptionelle Rahmenwerk standardmäßig ausschließt.

Das hat messbare Konsequenzen. In automatisierten Recruiting-Systemen werden historische Einstellungsverzerrungen verstärkt, wenn in der Designphase niemand vorhanden ist, der sie identifiziert. In Kreditwürdigkeitssystemen erzeugen Modelle, die mit Daten historisch unterversorgter Bevölkerungsgruppen trainiert wurden, strukturell benachteiligende Bewertungen für eben diese Bevölkerungsgruppen. In medizinischen Triage-Systemen produzieren Trainingsdaten, die frühere Ungleichheiten in der Versorgung widerspiegeln, Empfehlungen, die diese Ungleichheiten mit größerer Geschwindigkeit und in größerem Ausmaß reproduzieren. Keines dieser Probleme wird gelöst, indem am Ende des Ablaufs ein menschlicher Prüfer hinzugefügt wird, wenn das Design sie bereits als Prämissen eingebettet hat.

Die Kennzahl, die Unternehmen falsch einsetzen

Der häufigste Governance-Fehler bei Unternehmens-KI-Einsätzen ist nicht technischer, sondern konzeptioneller Natur: den Erfolg des Systems an seiner Containment-Rate zu messen – wie viele Interaktionen das Modell ohne menschliches Eingreifen löst – anstatt zu messen, ob die menschlichen Eingriffe, die tatsächlich stattfinden, die richtigen sind, zum richtigen Zeitpunkt erfolgen und von den Personen mit dem angemessenen Kontext durchgeführt werden, um sie gut zu bewältigen.

Die Optimierung auf die Reduzierung menschlicher Eingriffe als Selbstzweck produziert Systeme, die den Regelkreis minimieren, anstatt ihn zu kalibrieren. Ein Kundendienst-System, das eine Containment-Rate von 90 Prozent hält, kann 90 Prozent der Fälle mit akzeptabler Qualität lösen und dabei systematisch die 10 Prozent der komplexesten Fälle blockieren – genau jene, die für den Kunden den größten Wert haben – mit Antworten, die niemand im Unternehmen billigen würde, wenn er sie läse. Die Zahl sieht im Dashboard gut aus. Der Schaden zeigt sich erst, wenn der Kunde geht.

Die Kennzahlen, auf die es ankommt, sind andere: die Rate angemessener Eskalierungen, die Lösungszeit nach der Eskalierung, der Unterschied in der Zufriedenheit zwischen Fällen, die das Modell gelöst hat, und Fällen, die mit menschlichem Eingreifen gelöst wurden, sowie die Rate korrigierender Rückmeldungen, die das künftige Verhalten des Systems tatsächlich anpassen. Diese Kennzahlen sind nicht schwieriger zu erheben. Sie sind schwieriger vor einem Führungsteam zu vertreten, das wissen will, wie viel Geld die Automatisierung gespart hat. Aber sie sind die einzigen, die offenbaren, ob das System lernt oder ob es Fehler effizienter als zuvor ansammelt.

Ein Teil dieser Kalibrierung erfordert auch die Formalisierung von Rollen, die die meisten Organisationen noch nicht haben. Der KI-Datenkurator – die Person, die für die Prüfung der Labels, die Überwachung der Modell-Drift und die Verwaltung der Rückkopplungsschleifen verantwortlich ist – ist kein dekorativer Titel. Es ist die Funktion, die dafür sorgt, dass das System in die richtige Richtung lernt, anstatt in Verhaltensweisen abzudriften, die niemand explizit entworfen hat, aber auch niemand rechtzeitig gestoppt hat.

Die wahren Kosten, Menschen zu früh aus dem System zu entfernen

IBM beschreibt die Rolle des Menschen in agentischen KI-Systemen mit einer präzisen Analogie: Er ist nicht derjenige, der das System beaufsichtigt, sondern derjenige, der die Flugsicherung ausübt. Er führt nicht jeden Flug durch. Er definiert Korridore, legt Prioritäten fest, greift bei Ausnahmebedingungen ein und verfügt über die Autorität und die Ausbildung, um Entscheidungen zu treffen, die das automatisierte System nicht allein treffen kann. Diese Unterscheidung ist wichtig, weil sie das Argument über Personalkosten vollständig verändert.

Das falsche Argument lautet: „Je reifer das System wird, desto weniger Menschen werden wir brauchen." Das richtige Argument lautet: „Je reifer das System wird, desto mehr werden die Menschen auf höheren Entscheidungsebenen mit größerer Wirkung pro Eingriff tätig sein." Routinemäßige Überwachungsrollen verlagern sich hin zu Rollen der Politikdefinition, der Architekturvalidierung und der Bewertung unvorhergesehener Konsequenzen. Das ist keine Personalreduzierung: Es ist eine Umverteilung der Intelligenz dorthin, wo das System allein nicht hingelangen kann.

Was Nuvento als die Spannung zwischen Human-in-the-Loop und agentischen Modellen beschreibt, ist real, aber kein dauerhaftes Dilemma. Es ist eine Reifegrad-Kurve. In den frühen Phasen der Einführung muss der menschliche Regelkreis eng sein, weil die Organisation noch nicht über die Leitplanken oder die operative Geschichte verfügt, um der Autonomie des Systems zu vertrauen. Wenn die Organisation Evidenz darüber sammelt, wie sich das Modell unter Grenzkonditionen verhält, wo es versagt und unter welchen Umständen, kann sie die Autonomie des Systems kalibriert erweitern – ohne sie blind zu erweitern.

Das Problem, mit dem Organisationen konfrontiert werden, die auf Autonomie zusteuern, bevor sie über diese Evidenz verfügen, ist, dass Fehler in großem Maßstab auftreten, bevor ein Mechanismus vorhanden ist, um sie systematisch zu erkennen. Die Geschwindigkeit des Einsatzes übertrifft die Geschwindigkeit des institutionellen Lernens. Und wenn das passiert, sind die Korrekturkosten strukturell höher, als es die Kosten der Aufrechterhaltung des menschlichen Regelkreises über einen längeren Zeitraum gewesen wären.

Die Machtarchitektur, die dieses Modell offenbart, ist einfach, wenn auch unbequem für Organisationen, die Erfolg an der Automatisierungsgeschwindigkeit messen: Verteilte Intelligenz – Menschen mit unterschiedlichem Kontext, die an verschiedenen Punkten des Systems positioniert sind – ist keine Konzession an das Risiko. Es ist die Bedingung, die es dem System ermöglicht, mit echter Geschwindigkeit zu operieren, anstatt mit scheinbarer Geschwindigkeit. Diese Knoten zu entfernen, um kurzfristige Effizienz zu gewinnen, erzeugt Systeme, die schneller und gleichzeitig blinder sind – und das ist genau die Kombination, die dafür sorgt, dass Zusammenbrüche, wenn sie kommen, kostspieliger und schwieriger gegenüber Regulierungsbehörden, Kunden und Vorständen zu erklären sind.

Die menschliche Schleife bremst KI im Unternehmen nicht – sie macht sie erst möglich

Der menschliche Regelkreis bremst die Unternehmens-KI nicht – er macht sie erst möglich

Der Unterschied zwischen Berechnen und Verstehen hat konkrete finanzielle Folgen

Wer war im Raum, als das System entworfen wurde

Die Kennzahl, die Unternehmen falsch einsetzen

Die wahren Kosten, Menschen zu früh aus dem System zu entfernen

Das könnte Sie auch interessieren

KI im Unternehmen läuft seit Jahren – und kaum jeder fünfte Manager weiß, was er hat

Warum 97% der Unternehmen KI-Projekte haben, aber nur 5% ihre Daten dafür bereit haben

Die schnellste KI ist nicht die intelligenteste

Wenn Autonomie Hüter braucht, stimmt etwas mit dem Versprechen nicht

KI-Agenten in Elektroladestationen und das Sicherheitsproblem, das niemand zuerst gelöst hat

Governance als Eintrittsvoraussetzung für KI im Unternehmenseinsatz