Ständig bewerten ≠ besser verstehen

Häufigeres Bewerten bedeutet nicht automatisch tieferes Verstehen

Jahrzehntelang maß die Luftfahrtindustrie die Kompetenz eines Piloten anhand von zwei Kennzahlen: angesammelten Cockpitstunden und dem Typ des zertifizierten Luftfahrzeugs. Es waren Indikatoren, die kostspielig zu erlangen, schwer zu fälschen und in vernünftigem Maße aussagekräftig waren. Das System war nicht perfekt, aber es hatte eine Tugend, die nur wenige Organisationen in ihrer vollen Tragweite anerkennen: Es wusste genau, was es maß und wozu.

Heute migriert eine wachsende Zahl von Unternehmen zu Systemen der kontinuierlichen Leistungsbewertung – viele davon durch künstliche Intelligenz angetrieben – unter der Prämisse, dass ein besseres und häufigeres Kennenlernen der eigenen Mitarbeitenden bessere Entscheidungen über Talente, Weiterbildung und Organisationsstruktur ermögliche. Das Versprechen ist verführerisch. Das Problem ist, dass Messhäufigkeit nicht Verstehenstiefe bedeutet, und diese Verwechslung hat strategische Konsequenzen, die nur wenige Unternehmen korrekt einkalkulieren.

Ein aktueller Artikel im Harvard Business Review, verfasst von Sangeet Paul Choudary und John Winsor – zwei Persönlichkeiten mit fundierter Arbeit an der Schnittstelle von künstlicher Intelligenz und Organisationsgestaltung – bringt diese Spannung direkt auf den Punkt. Ihr Ausgangsargument ist präzise: Der Vormarsch der KI gestaltet die Arbeitsteilung zwischen Menschen und Maschinen in einem Tempo um, das traditionelle Instrumente – Berufsbezeichnungen, Lebensläufe, Jahresbeurteilungen – nicht mithalten können. Was sie als Alternative vorschlagen, sind Systeme der kontinuierlichen Bewertung, die Fähigkeiten dynamisch erfassen und mit Entscheidungen über Weiterbildung, interne Mobilität und Personalplanung verknüpfen. Sie haben mit der Diagnose recht. Die Debatte beginnt, wenn man die tatsächliche Architektur dieser Lösung unter die Lupe nimmt.

Was kontinuierliche Bewertung löst – und was sie nicht lösen kann

Das Argument zugunsten kontinuierlicher Bewertungssysteme ist nicht schwach. Die Daten zu traditionellen Jahresbeurteilungen sind, um es präzise auszudrücken, in Bezug auf Effizienz verheerend. Ein Unternehmen mit hundert Mitarbeitenden verwendet jährlich ungefähr 5.500 Stunden auf formale Leistungsbeurteilungsprozesse – ohne die Zeit zu berücksichtigen, die die Mitarbeitenden selbst für Selbstbewertungen aufwenden. Das entspricht fast drei Vollzeitstellen, die von einem Ritual verschlungen werden, das laut aktuellen Studien 35 % der Mitarbeitenden als ungerecht empfinden und das genug Angst erzeugt, dass jeder Fünfte am Tag der Bewertung krankfeiert.

Wenn das Modell, das ersetzt werden soll, dieses Ausmaß an Reibung und Misstrauen erzeugt, bedarf die Notwendigkeit zur Veränderung keiner weiteren Begründung. Und genau hier bieten Systeme der kontinuierlichen Bewertung etwas genuinen Wert: die Möglichkeit, Daten aus echter Arbeit in Frühwarnsignale über Kompetenzlücken umzuwandeln, Talente sichtbar zu machen, die formale Kreisläufe niemals ans Licht gebracht hätten, und die Personalplanung anzupassen, bevor eine Kapazitätskrise unumkehrbar wird.

Auch aus der Perspektive des Zeitaufwands für Führungskräfte hat Effizienz ein gewichtiges Argument. Wenn künstliche Intelligenz die Erhebung und vorläufige Analyse von Leistungsdaten automatisieren kann, hören Führungskräfte auf, als Archivare von Beurteilungen zu fungieren, und agieren stattdessen als strategische Coaches. Diese Zeitbefreiung ist nicht marginal: Organisationen, die in die beschleunigte Weiterbildung ihrer Teams investiert haben, berichten, dass Führungskräfte signifikante Stunden zurückgewinnen, die vorher damit verbraucht wurden, operative Fragen von geringem Wert zu beantworten.

Doch das System hat eine strukturelle Grenze, die die Erzählung über kontinuierliche Daten zu verschleiern neigt. Häufigeres Messen löst nicht das Problem, was gemessen wird. Wenn die von der KI erfassten Kennzahlen vor allem Reaktionsgeschwindigkeit, Output-Volumen oder die Erledigung von Routineaufgaben widerspiegeln, entsteht durch die kontinuierliche Bewertung kein reichhaltigeres Bild des Mitarbeitenden – es entsteht ein granulareres Bild seiner oberflächlichsten Aktivitäten. Der Unterschied zwischen beidem ist strategisch enorm.

Es gibt zudem ein Risiko, das Forscher im Bereich Talentmanagement mit wachsender Deutlichkeit identifiziert haben: Wenn Bewertungssysteme direkt mit aggressiven Leistungszielen verknüpft sind und die Überwachung konstant ist, ist die Wirkung keine nachhaltige Motivation, sondern eine Verengung des Fokus. Teams hören auf zu experimentieren, hören auf, notwendige Risiken einzugehen, um zu lernen, und konzentrieren ihre Energie auf die Kennzahlen, von denen sie wissen, dass sie beobachtet werden. Das Ergebnis – in Forschungen zu Hochleistungszielen dokumentiert – ist, dass der kurze Zeithorizont gut aussieht, während sich der mittlere Zeithorizont still und heimlich verschlechtert.

Das eigentliche Problem ist nicht die Technologie, sondern der Zweck des Systems

Ein Unternehmen kann das ausgefeilteste System zur kontinuierlichen Bewertung auf dem Markt einführen und dennoch unfähig bleiben, eine grundlegende operative Frage zu beantworten: wozu es misst, was es misst. Das ist keine Kritik an dem Werkzeug. Es ist eine Beobachtung über den Unterschied zwischen dem Installieren von Infrastruktur und dem Aufbau von Entscheidungskompetenz.

Die Unterscheidung ist wichtig, weil Systeme der kontinuierlichen Bewertung nicht neutral sind. Sie erzeugen kulturelle Konsequenzen, die direkt davon abhängen, wie sie gestaltet sind und welche Signale sie den Mitarbeitenden darüber senden, was die Organisation wertschätzt. Wenn das System Daten erfasst, diese aber nicht in konkrete Entwicklungsgespräche umwandelt, erhalten die Mitarbeitenden keine Rückmeldung: Sie erhalten Überwachung. Und Überwachung – selbst wenn sie wohlwollend gemeint ist – hat eine vorhersehbare Wirkung auf die psychologische Sicherheit von Teams.

Forschungen zum Organisationsverhalten haben gezeigt, dass die Qualität des Feedbacks merklich steigt, wenn man Personen bittet, Rückmeldung zur Leistung einer Kollegin oder eines Kollegen zu geben und diese Bitte als Anfrage um Rat statt als Bewertung formuliert wird. Rat orientiert sich an der Zukunft, erzeugt konkrete Empfehlungen und aktiviert eine Bereitschaft zu helfen. Bewertung blickt zurück und aktiviert Abwehrmechanismen. Damit ein System der kontinuierlichen Bewertung echte Entwicklung erzeugt, müssen die menschlichen Interaktionen rund um die Daten mit dieser Logik gestaltet sein – nicht nur die Analyseoberflächen.

Es gibt auch eine Governance-Dimension, die Organisationen unterschätzen. Je mehr KI-Systeme bei der Bewertung von Personen an Boden gewinnen, desto unvermeidlicher wird die Frage, wie Bewertungspunkte zustande kommen, welche Verzerrungen die mit historischen Daten trainierten Algorithmen enthalten und welche Rechte die Mitarbeitenden an diesen Informationen haben. Das ist keine abstrakte regulatorische Frage: Es ist eine Frage des operativen Vertrauens. Ein Mitarbeitender, der nicht versteht, wie er von einem automatisierten System bewertet wurde, kann sein Verhalten nicht in bedeutsamer Weise korrigieren. Er kann stattdessen lernen, die sichtbaren Indikatoren zu optimieren, während er aufhört, jene zu beachten, die das System nicht erfasst.

Organisationen, die diese Systeme ohne eine Architektur der Transparenz und Erklärbarkeit implementieren, häufen Vertrauensschulden an, die letztlich ihren Preis in Mitarbeiterbindung, Zusammenarbeit und Lernbereitschaft einfordern.

Wenn Messhäufigkeit das strategische Urteilsvermögen ersetzt

Es gibt eine implizite Logik hinter der massenhaften Einführung von Systemen zur kontinuierlichen Bewertung, die einer sorgfältigen Prüfung bedarf. Diese Logik besagt: Je mehr, häufiger und granularer die Daten, desto bessere Entscheidungen über Menschen werden getroffen. Es ist eine Logik, die in Bereichen Sinn ergibt, in denen die interessierende Variable stabil ist, in denen das Messmodell robust ist und in denen der Zusammenhang zwischen dem Indikator und dem relevanten Ergebnis klar etabliert ist.

Im Talentmanagement erfüllt sich keine dieser drei Bedingungen automatisch. Menschliche Fähigkeiten sind von Natur aus kontextuell: Jemand kann in einer schlecht gestalteten Rolle mittelmäßig und in einer anderen außerordentlich gut abschneiden. Messmodelle erben die Verzerrungen derer, die sie entworfen haben, und der historischen Daten, mit denen sie trainiert wurden. Und die Verbindung zwischen den kurzfristigen Indikatoren, die Systeme erfassen, und den langfristigen organisatorischen Ergebnissen, auf die es ankommt, ist bestenfalls partiell.

Das macht Systeme der kontinuierlichen Bewertung nicht nutzlos. Es disqualifiziert sie als Ersatz für das strategische Urteilsvermögen über Menschen. Und genau diese Unterscheidung ist es, die viele Organisationen in der Euphorie der Implementierung aus den Augen verlieren.

Die Warnung, die Choudary und Winsor in ihr Argument einflechten – dass Organisationen sorgfältig vorgehen müssen, wie sie diese Systeme implementieren – ist keine Nebenbemerkung. Sie ist der Kern des Problems. Denn das Wie der Implementierung ist keine technische Variable: Es ist eine Variable des Zwecks. Eine Organisation, die kontinuierliche Bewertung einführt, um die Kosten von Jahresbeurteilungen zu senken und die Zuweisung von Personen zu Projekten zu optimieren, tut etwas fundamental anderes als eine Organisation, die es einführt, um Lernlücken zu erkennen, interne Mobilität zu beschleunigen und qualitativ hochwertigere Entwicklungsgespräche zu führen. Beide können dieselbe Plattform kaufen. Die kulturellen und strategischen Ergebnisse werden verschieden sein.

Das Risiko, auf das Gartner-Analysten für 2026 hingewiesen haben, ist in diesem Zusammenhang aufschlussreich: KI kann operative Bedingungen schaffen, die unhaltbare Leistungsdrücke erzeugen und langfristige Ergebnisse erodieren lassen, während kurzfristige Indikatoren solide erscheinen. Es ist ein aus anderen Managementbereichen bekanntes Muster: Man optimiert, was man misst, vernachlässigt, was nicht im Dashboard erscheint, und die Organisation lernt still und heimlich, in den Berichten gut auszusehen, während sie in jenen Prozessen an Substanz verliert, die keine Spalte in der Tabellenkalkulation haben.

Die Entscheidung, die kein System der Organisation abnehmen kann

Es gibt etwas, das die besten Systeme zur kontinuierlichen Bewertung nicht leisten können: zu entscheiden, was für eine Organisation diejenige sein will, die sie nutzt. Sie können nicht auflösen, ob der Zweck der Bewertung Kontrolle oder Entwicklung ist. Sie können nicht bestimmen, ob die Daten dazu verwendet werden, Gespräche zu eröffnen oder zu schließen. Sie können nicht festlegen, ob die Kennzahl der Lerngeschwindigkeit mehr oder weniger zählt als die der Erreichung von Quartalszielen.

Das sind Entscheidungen der Organisationsarchitektur, und sie gehen jeder technologischen Entscheidung voraus. Unternehmen, die Plattformen zur kontinuierlichen Bewertung einführen, ohne diese Entscheidungen explizit getroffen zu haben, sind nicht leichtfertig aus Naivität. Sie sind leichtfertig aus einem häufigeren Grund: Die Dringlichkeit der Implementierung erzeugt die Illusion, dass das System diese Entscheidungen von selbst treffen wird – oder dass sie später getroffen werden können. Die in Organisationstransformationen gesammelte Erfahrung legt nahe, dass das System, wenn die Entscheidung über den Zweck aufgeschoben wird, den Standardzweck des Kontexts übernimmt, in dem es operiert. In den meisten Organisationen ist dieser Standardzweck die Leistungskontrolle, nicht die Leistungsentwicklung.

Der Moment vor der Implementierungsentscheidung – jener Raum, in dem eine Organisation klären muss, was sie mit den gewonnenen Daten tun wird, welche Gespräche sie generiert, wie sie das Vertrauen der bewerteten Personen schützt und mit welcher Art von Entscheidungen sie die Ergebnisse des Systems nicht verknüpfen wird – ist der eigentlich strategische Moment. Nicht die Auswahl des Anbieters und nicht die Gestaltung des Kennzahlen-Dashboards.

Organisationen, die in diesen Moment mit klaren Antworten zu Zweck, Grenzen und Nutzung der Informationen hineingehen, werden nicht einfach bessere Technologie implementieren. Sie werden ein Bewertungssystem aufbauen, das das organisatorische Lernen unter Druck aufrechterhalten kann – was genau das ist, was die Beschleunigung der künstlichen Intelligenz in der Arbeitswelt notwendig macht. Jene, die es aufschieben, werden mit hochfrequenten Daten und granularer Präzision entdecken, dass sie alles gemessen und wenig verstanden haben.