Agent-native article available: White Circle recaudó 11 millones para vigilar la IA después de que nadie más quiso hacerloAgent-native article JSON available: White Circle recaudó 11 millones para vigilar la IA después de que nadie más quiso hacerlo
White Circle recaudó 11 millones para vigilar la IA después de que nadie más quiso hacerlo

White Circle recaudó 11 millones para vigilar la IA después de que nadie más quiso hacerlo

Una noche de finales de 2024, Denis Shilov estaba viendo un thriller policial cuando se le ocurrió un experimento. Escribió un prompt que lograba que cualquier modelo de inteligencia artificial ignorara sus propios filtros de seguridad. Lo que Shilov concluyó de ese episodio no fue que había encontrado un bug, sino que ninguna empresa tenía una capa de control post-despliegue sobre lo que sus modelos de IA hacían una vez que los usuarios empezaban a interactuar con ellos.

Tomás RiveraTomás Rivera14 de mayo de 20268 min
Compartir

White Circle recaudó 11 millones para vigilar la IA después de que nadie más quiso hacerlo

Una noche de finales de 2024, Denis Shilov estaba viendo un thriller policial cuando se le ocurrió un experimento. Escribió un prompt que lograba que cualquier modelo de inteligencia artificial ignorara sus propios filtros de seguridad. El truco era conceptualmente simple: le decía al modelo que dejara de comportarse como un chatbot con reglas y empezara a actuar como un punto de acceso de software que simplemente responde solicitudes sin evaluar si debería hacerlo. Funcionó con todos los modelos líderes. Al día siguiente, su publicación en X había acumulado suficiente tracción para que Anthropic lo contactara y le pidiera acceso privado a sus sistemas.

Lo que Shilov concluyó de ese episodio no fue que había encontrado un bug. Fue que ninguna empresa tenía una capa de control post-despliegue sobre lo que sus modelos de IA hacían una vez que los usuarios empezaban a interactuar con ellos. Esa observación se convirtió en White Circle, y el 12 de mayo de 2026, la startup parisina anunció una ronda semilla de 11 millones de dólares respaldada por figuras que conocen los modelos desde adentro: el director de experiencia de desarrolladores de OpenAI, un cofundador de OpenAI hoy en Anthropic, el cofundador y científico jefe de Mistral, el cofundador y director científico de Hugging Face, el fundador de Datadog, el creador de Keras y ejecutivos de DeepMind y Sentry.

El capital no es lo más interesante de la historia. Lo interesante es qué tipo de infraestructura de negocio justifica esa convicción tan temprana y por qué la respuesta del mercado a ese problema específico tardó tanto en aparecer.

El problema que los laboratorios de IA tienen incentivos para no resolver del todo

Cuando una empresa despliega un modelo de lenguaje en producción, hereda un contrato implícito con el proveedor del modelo: el proveedor ha entrenado el modelo para comportarse de cierta manera en términos generales, y la empresa asume que ese entrenamiento es suficiente para sus casos de uso específicos. Ese supuesto es cada vez más difícil de sostener.

Los modelos actuales son instrumento y riesgo al mismo tiempo. Un agente de soporte al cliente puede prometer un reembolso que la empresa no autorizó. Un agente de codificación puede instalar algo en una máquina virtual que no debía tocarse. Un modelo integrado en una aplicación financiera puede manejar mal datos sensibles del cliente. Ninguno de esos escenarios es hipotético; son consecuencias documentadas de desplegar modelos capaces en entornos con instrucciones incompletas o ambiguas.

La respuesta habitual de los laboratorios de modelos es el ajuste de seguridad durante el entrenamiento. Pero ese ajuste es, por definición, genérico. Está calibrado para evitar que el modelo explique cómo fabricar armas o produzca contenido dañino en abstracto. No está calibrado para la política específica de una empresa de servicios financieros sobre qué puede y no puede prometer en una conversación con un cliente, ni para las restricciones de una empresa de salud sobre qué datos pueden cruzarse entre sí.

Shilov señala algo más estructural: los laboratorios cobran por tokens de entrada y salida incluso cuando el modelo rechaza una solicitud dañina. Eso significa que tienen una motivación económica limitada para bloquear el abuso antes de que llegue al modelo. También señala el llamado "impuesto de alineación": entrenar modelos más seguros tiende a reducir su desempeño en tareas como codificación. Esa tensión entre seguridad y rendimiento no desaparece con más financiamiento; es una restricción técnica que los laboratorios gestionan, no eliminan.

White Circle apuesta a que esa brecha no se cerrará solo desde el lado del entrenamiento. Su producto es una capa de aplicación en tiempo real que se sienta entre los usuarios de una empresa y sus modelos, revisa entradas y salidas contra las políticas específicas de esa empresa, y puede bloquear o marcar comportamientos problemáticos: alucinaciones, filtración de datos, contenido prohibido, inyección de prompts, acciones destructivas en entornos de software. La empresa dice haber procesado más de mil millones de solicitudes de API y tener clientes activos en fintech, legal y herramientas de desarrollo, incluyendo Lovable. El sistema soporta más de 150 idiomas y tiene certificaciones SOC 2 Tipo I y II además de cumplimiento con HIPAA.

Qué valida mil millones de solicitudes y qué no

Mil millones de solicitudes de API es el tipo de número que suena grande y puede significar cosas muy distintas dependiendo del volumen por cliente, el tipo de solicitud y la tasa de retención. White Circle fue fundada en 2025 y tiene 20 empleados, casi todos ingenieros. Eso sugiere una arquitectura diseñada para escalar con infraestructura más que con equipo de servicio, lo cual es coherente con un modelo de API que intercepta tráfico existente.

Lo que el número sí valida, hasta donde los datos públicos permiten concluir, es que la plataforma tiene tracción operativa, no solo tracción de relaciones públicas. Hay una diferencia importante entre una empresa que anuncia financiamiento con una lista de clientes potenciales y una que llega al anuncio con evidencia de uso sostenido. El benchmark que White Circle publicó en mayo de 2026, KillBench, también funciona como señal de madurez técnica: corrieron más de un millón de experimentos sobre 15 modelos de OpenAI, Google, Anthropic y xAI para medir sesgos en escenarios de decisiones de alto riesgo. Los resultados mostraron que los modelos tomaban decisiones distintas según atributos como nacionalidad, religión o tipo de teléfono, y que esos sesgos empeoraban cuando las respuestas se pedían en formatos estructurados para ser leídos por software, que es exactamente cómo la mayoría de las empresas conectan modelos a sus sistemas productivos.

Ese hallazgo tiene consecuencias directas para cualquier empresa que use IA en decisiones con consecuencias reales. No es un experimento académico; es documentación de un vector de riesgo que ocurre en el formato de integración más común.

Lo que el número no valida, todavía, es la disposición a pagar a escala. El modelo de negocio de una capa de control que intercepta tráfico tiene una mecánica potencialmente poderosa: si se vuelve parte del flujo de trabajo entre usuarios y modelos, captura presupuesto de múltiples líneas, seguridad, cumplimiento, moderación de contenido y operaciones de modelos. Pero eso también significa que compite por presupuesto con equipos que ya tienen herramientas de observabilidad y que pueden resistir agregar otra capa de infraestructura.

La concentración geográfica del equipo en Europa, con presencia en Londres, Francia y Ámsterdam, sugiere que la expansión hacia el mercado estadounidense, que es donde están los presupuestos de tecnología empresarial más grandes, requiere infraestructura de ventas que 20 ingenieros no pueden cubrir. El financiamiento probablemente va ahí.

Una capa de control que los modelos no pueden vender solos

El argumento más sólido de White Circle no es técnico. Es de gobernanza.

Shilov lo formuló con precisión: hay un problema de confianza estructural en pedirle a un proveedor de modelos que juzgue el comportamiento de sus propios modelos. Anthropic no puede ser árbitro neutral del comportamiento de Claude cuando es el mismo que lo entrena, lo comercializa y cobra por cada token que genera. Eso no es una acusación; es una descripción de incentivos. Los laboratorios de IA son empresas con intereses comerciales específicos, y sus sistemas de seguridad están calibrados para esos intereses, no para los de cada empresa que despliega sus modelos.

Esa separación es lo que hace que el respaldo de inversores con experiencia en los laboratorios más importantes del sector sea estratégicamente relevante más allá del capital. Personas que conocen las restricciones técnicas y comerciales de OpenAI, Anthropic, Mistral y DeepMind desde adentro están apostando a que el problema de control post-despliegue no se va a resolver desde dentro de esos laboratorios con la profundidad que las empresas van a necesitar. Eso es tanto una validación del problema como una señal sobre la dirección del mercado.

La transición de chatbots a agentes autónomos hace que esa brecha sea más urgente. Un chatbot que responde mal es un problema de reputación. Un agente que accede a archivos, ejecuta código, navega la web y toma acciones en nombre de un usuario puede crear daños que no se revierten con un mensaje de disculpa. El mercado de control de agentes autónomos está en sus primeras etapas, pero la dirección del gasto en IA apunta hacia ahí con claridad.

White Circle llegó al anuncio con uso operativo, investigación publicada, certificaciones de cumplimiento y respaldo de personas con credibilidad técnica en el sector. Eso no es garantía de éxito, pero es una línea de partida que está considerablemente más adelante de donde suelen estar las startups en la etapa semilla. El siguiente umbral que importa no es el próximo titular de financiamiento; es cuántas empresas en sectores regulados deciden que necesitan una capa de control entre sus usuarios y sus modelos antes de que un incidente les obligue a buscarlo por las malas.

Compartir

También te puede interesar