White Circle sammelte 11 Millionen ein, um KI zu überwachen – weil es sonst niemand wollte

White Circle sammelte 11 Millionen ein, um KI zu überwachen – weil es sonst niemand wollte

Ende 2024 schaute Denis Shilov einen Krimi-Thriller, als ihm ein Experiment in den Sinn kam. Er schrieb einen Prompt, der jeden KI-Modell dazu brachte, seine eigenen Sicherheitsfilter zu umgehen. Was Shilov aus diesem Erlebnis schloss, war nicht, dass er einen Bug gefunden hatte – sondern dass kein Unternehmen eine Post-Deployment-Kontrollschicht darüber hatte, was seine KI-Modelle taten, sobald Nutzer mit ihnen zu interagieren begannen.

Tomás RiveraTomás Rivera14. Mai 20268 Min
Teilen

White Circle hat 11 Millionen eingesammelt, um KI zu überwachen – nachdem niemand sonst es tun wollte

An einem Abend Ende 2024 schaute Denis Shilov einen Kriminalthriller, als ihm ein Experiment einfiel. Er schrieb einen Prompt, der es schaffte, dass jedes KI-Modell seine eigenen Sicherheitsfilter ignorierte. Der Trick war konzeptionell einfach: Er wies das Modell an, aufzuhören, sich wie ein Chatbot mit Regeln zu verhalten, und stattdessen wie ein Software-Zugangspunkt zu agieren, der Anfragen einfach beantwortet, ohne zu bewerten, ob es das tun sollte. Es funktionierte bei allen führenden Modellen. Am nächsten Tag hatte sein Beitrag auf X genug Aufmerksamkeit erzielt, dass Anthropic ihn kontaktierte und um privaten Zugang zu seinen Systemen bat.

Was Shilov aus diesem Vorfall schloss, war nicht, dass er einen Bug gefunden hatte. Es war die Erkenntnis, dass kein Unternehmen eine Post-Deployment-Kontrollschicht darüber hatte, was seine KI-Modelle taten, sobald Nutzer anfingen, mit ihnen zu interagieren. Diese Beobachtung wurde zu White Circle, und am 12. Mai 2026 gab das Pariser Startup eine Seed-Runde von 11 Millionen Dollar bekannt, die von Persönlichkeiten unterstützt wird, die Modelle von innen kennen: der Director of Developer Experience bei OpenAI, ein OpenAI-Mitgründer, der heute bei Anthropic ist, der Mitgründer und Chief Scientist von Mistral, der Mitgründer und Chief Science Officer von Hugging Face, der Gründer von Datadog, der Schöpfer von Keras sowie Führungskräfte von DeepMind und Sentry.

Das Kapital ist nicht das Interessanteste an der Geschichte. Das Interessante ist, welche Art von Geschäftsinfrastruktur diese so frühe Überzeugung rechtfertigt – und warum die Marktantwort auf dieses spezifische Problem so lange auf sich warten ließ.

Das Problem, das KI-Labore Anreize haben, nicht vollständig zu lösen

Wenn ein Unternehmen ein Sprachmodell in der Produktion einsetzt, übernimmt es einen impliziten Vertrag mit dem Modellanbieter: Der Anbieter hat das Modell darauf trainiert, sich in allgemeiner Hinsicht auf eine bestimmte Weise zu verhalten, und das Unternehmen geht davon aus, dass dieses Training für seine spezifischen Anwendungsfälle ausreicht. Diese Annahme wird zunehmend schwerer aufrechtzuerhalten.

Aktuelle Modelle sind gleichzeitig Werkzeug und Risiko. Ein Kundensupport-Agent kann eine Rückerstattung versprechen, die das Unternehmen nicht genehmigt hat. Ein Coding-Agent kann etwas auf einer virtuellen Maschine installieren, die nicht angefasst werden sollte. Ein in eine Finanzanwendung integriertes Modell kann sensible Kundendaten falsch behandeln. Keines dieser Szenarien ist hypothetisch; es sind dokumentierte Folgen des Einsatzes fähiger Modelle in Umgebungen mit unvollständigen oder mehrdeutigen Anweisungen.

Die übliche Reaktion der Modelllabore ist das Sicherheitsfeintuning während des Trainings. Aber dieses Feintuning ist per Definition generisch. Es ist darauf ausgelegt, zu verhindern, dass das Modell erklärt, wie man Waffen baut, oder abstrakt schädliche Inhalte produziert. Es ist nicht auf die spezifische Richtlinie eines Finanzdienstleistungsunternehmens kalibriert, was in einem Kundengespräch versprochen werden darf und was nicht – und auch nicht auf die Einschränkungen eines Gesundheitsunternehmens darüber, welche Daten miteinander verknüpft werden dürfen.

Shilov weist auf etwas Strukturelleres hin: Labore berechnen Gebühren pro Eingabe- und Ausgabe-Token, auch wenn das Modell eine schädliche Anfrage ablehnt. Das bedeutet, dass sie nur begrenzte wirtschaftliche Anreize haben, Missbrauch zu blockieren, bevor er das Modell erreicht. Er verweist auch auf die sogenannte „Alignment Tax": Sicherere Modelle zu trainieren neigt dazu, ihre Leistung bei Aufgaben wie dem Programmieren zu verringern. Diese Spannung zwischen Sicherheit und Leistung verschwindet nicht durch mehr Finanzierung; es ist eine technische Einschränkung, die Labore verwalten, nicht beseitigen.

White Circle wettet darauf, dass diese Lücke nicht allein von der Trainingsseite geschlossen wird. Ihr Produkt ist eine Echtzeit-Anwendungsschicht, die zwischen den Nutzern eines Unternehmens und seinen Modellen sitzt, Eingaben und Ausgaben gegen die spezifischen Richtlinien dieses Unternehmens prüft und problematische Verhaltensweisen blockieren oder markieren kann: Halluzinationen, Datenlecks, verbotene Inhalte, Prompt-Injection, destruktive Aktionen in Softwareumgebungen. Das Unternehmen gibt an, mehr als eine Milliarde API-Anfragen verarbeitet zu haben und aktive Kunden in den Bereichen Fintech, Recht und Entwicklerwerkzeuge zu haben, darunter Lovable. Das System unterstützt mehr als 150 Sprachen und verfügt über SOC-2-Typ-I- und -Typ-II-Zertifizierungen sowie HIPAA-Konformität.

Was eine Milliarde Anfragen validiert – und was nicht

Eine Milliarde API-Anfragen ist die Art von Zahl, die groß klingt und je nach Volumen pro Kunde, Art der Anfrage und Bindungsrate sehr unterschiedliche Dinge bedeuten kann. White Circle wurde 2025 gegründet und hat 20 Mitarbeitende, fast alle davon Ingenieure. Das deutet auf eine Architektur hin, die für die Skalierung mit Infrastruktur statt mit einem Serviceteam ausgelegt ist – was kohärent mit einem API-Modell ist, das vorhandenen Datenverkehr abfängt.

Was die Zahl, soweit öffentliche Daten Rückschlüsse erlauben, tatsächlich validiert, ist operative Traktion – nicht nur PR-Traktion. Es gibt einen wichtigen Unterschied zwischen einem Unternehmen, das eine Finanzierung mit einer Liste potenzieller Kunden ankündigt, und einem, das zur Ankündigung mit Belegen für nachhaltige Nutzung kommt. Der Benchmark, den White Circle im Mai 2026 veröffentlichte, KillBench, funktioniert ebenfalls als Signal für technische Reife: Es wurden mehr als eine Million Experimente über 15 Modelle von OpenAI, Google, Anthropic und xAI durchgeführt, um Verzerrungen in Hochrisiko-Entscheidungsszenarien zu messen. Die Ergebnisse zeigten, dass Modelle je nach Attributen wie Nationalität, Religion oder Telefontyp unterschiedliche Entscheidungen trafen – und dass diese Verzerrungen sich verschlimmerten, wenn Antworten in strukturierten Formaten angefordert wurden, die von Software gelesen werden sollten. Das ist genau die Art und Weise, wie die meisten Unternehmen Modelle mit ihren Produktivsystemen verbinden.

Dieser Befund hat direkte Konsequenzen für jedes Unternehmen, das KI bei Entscheidungen mit realen Folgen einsetzt. Es ist kein akademisches Experiment; es ist die Dokumentation eines Risikovektors, der im gebräuchlichsten Integrationsformat auftritt.

Was die Zahl noch nicht validiert, ist die Zahlungsbereitschaft im großen Maßstab. Das Geschäftsmodell einer Kontrollschicht, die Datenverkehr abfängt, hat eine potenziell mächtige Mechanik: Wenn sie Teil des Workflows zwischen Nutzern und Modellen wird, erfasst sie Budget aus mehreren Bereichen – Sicherheit, Compliance, Inhaltsmoderation und Modelloperationen. Aber das bedeutet auch, dass sie um Budget mit Teams konkurriert, die bereits Observability-Tools haben und die sich möglicherweise dagegen sperren, eine weitere Infrastrukturschicht hinzuzufügen.

Die geografische Konzentration des Teams in Europa – mit Präsenz in London, Frankreich und Amsterdam – deutet darauf hin, dass die Expansion in den US-amerikanischen Markt, wo die größten Unternehmenstechnologiebudgets liegen, eine Vertriebsinfrastruktur erfordert, die 20 Ingenieure nicht abdecken können. Die Finanzierung geht wahrscheinlich dorthin.

Eine Kontrollschicht, die Modelle nicht allein verkaufen können

Das stärkste Argument von White Circle ist nicht technischer Natur. Es ist ein Governance-Argument.

Shilov hat es präzise formuliert: Es gibt ein strukturelles Vertrauensproblem dabei, einen Modellanbieter zu bitten, das Verhalten seiner eigenen Modelle zu beurteilen. Anthropic kann kein neutraler Schiedsrichter für das Verhalten von Claude sein, wenn es dasselbe Unternehmen ist, das ihn trainiert, vermarktet und für jeden generierten Token Gebühren erhebt. Das ist keine Anschuldigung; es ist eine Beschreibung von Anreizen. KI-Labore sind Unternehmen mit spezifischen kommerziellen Interessen, und ihre Sicherheitssysteme sind auf diese Interessen kalibriert – nicht auf die jedes Unternehmens, das ihre Modelle einsetzt.

Diese Trennung ist es, was die Unterstützung durch Investoren mit Erfahrung in den bedeutendsten Laboren der Branche über das Kapital hinaus strategisch relevant macht. Personen, die die technischen und kommerziellen Einschränkungen von OpenAI, Anthropic, Mistral und DeepMind von innen kennen, wetten darauf, dass das Problem der Post-Deployment-Kontrolle nicht mit der Tiefe, die Unternehmen benötigen werden, von innerhalb dieser Labore gelöst werden wird. Das ist sowohl eine Validierung des Problems als auch ein Signal über die Richtung des Marktes.

Der Übergang von Chatbots zu autonomen Agenten macht diese Lücke dringlicher. Ein Chatbot, der falsch antwortet, ist ein Reputationsproblem. Ein Agent, der auf Dateien zugreift, Code ausführt, im Web navigiert und im Namen eines Nutzers Aktionen durchführt, kann Schäden verursachen, die sich nicht mit einer Entschuldigungsnachricht rückgängig machen lassen. Der Markt für die Kontrolle autonomer Agenten befindet sich in seinen frühen Phasen, aber die Richtung der KI-Ausgaben deutet klar dorthin.

White Circle kam zur Ankündigung mit operativer Nutzung, veröffentlichter Forschung, Compliance-Zertifizierungen und der Unterstützung von Personen mit technischer Glaubwürdigkeit in der Branche. Das ist keine Erfolgsgarantie, aber es ist eine Ausgangslinie, die erheblich weiter vorn liegt, als es bei Startups in der Seed-Phase üblicherweise der Fall ist. Die nächste wichtige Schwelle ist nicht die nächste Finanzierungsschlagzeile; es ist die Frage, wie viele Unternehmen in regulierten Sektoren entscheiden, dass sie eine Kontrollschicht zwischen ihren Nutzern und ihren Modellen benötigen – bevor ein Vorfall sie zwingt, auf die harte Tour danach zu suchen.

Teilen

Das könnte Sie auch interessieren