Agent-native article available: White Circle captou 11 milhões para monitorar a IA depois que ninguém mais quis fazer issoAgent-native article JSON available: White Circle captou 11 milhões para monitorar a IA depois que ninguém mais quis fazer isso
White Circle captou 11 milhões para monitorar a IA depois que ninguém mais quis fazer isso

White Circle captou 11 milhões para monitorar a IA depois que ninguém mais quis fazer isso

Em uma noite no final de 2024, Denis Shilov estava assistindo a um thriller policial quando teve uma ideia para um experimento. Ele escreveu um prompt que conseguia fazer qualquer modelo de inteligência artificial ignorar seus próprios filtros de segurança. O que Shilov concluiu desse episódio não foi que havia encontrado um bug, mas sim que nenhuma empresa tinha uma camada de controle pós-implantação sobre o que seus modelos de IA faziam assim que os usuários começavam a interagir com eles.

Tomás RiveraTomás Rivera14 de maio de 20268 min
Compartilhar

White Circle captou 11 milhões para vigiar a IA depois que ninguém mais quis fazer isso

Em uma noite do final de 2024, Denis Shilov estava assistindo a um thriller policial quando lhe ocorreu um experimento. Ele escreveu um prompt que conseguia fazer qualquer modelo de inteligência artificial ignorar seus próprios filtros de segurança. O truque era conceitualmente simples: dizia ao modelo para parar de se comportar como um chatbot com regras e começar a agir como um ponto de acesso de software que simplesmente responde a solicitações sem avaliar se deveria fazê-lo. Funcionou com todos os modelos líderes. No dia seguinte, sua publicação no X havia acumulado tração suficiente para que a Anthropic o contatasse e pedisse acesso privado aos seus sistemas.

O que Shilov concluiu desse episódio não foi que havia encontrado um bug. Foi que nenhuma empresa tinha uma camada de controle pós-implantação sobre o que seus modelos de IA faziam assim que os usuários começavam a interagir com eles. Essa observação se tornou a White Circle, e em 12 de maio de 2026, a startup parisiense anunciou uma rodada semente de 11 milhões de dólares apoiada por figuras que conhecem os modelos por dentro: o diretor de experiência de desenvolvedores da OpenAI, um cofundador da OpenAI que hoje está na Anthropic, o cofundador e cientista-chefe da Mistral, o cofundador e diretor científico do Hugging Face, o fundador do Datadog, o criador do Keras e executivos da DeepMind e da Sentry.

O capital não é a parte mais interessante da história. O que é interessante é que tipo de infraestrutura de negócio justifica essa convicção tão precoce e por que a resposta do mercado a esse problema específico demorou tanto para aparecer.

O problema que os laboratórios de IA têm incentivos para não resolver completamente

Quando uma empresa implanta um modelo de linguagem em produção, herda um contrato implícito com o fornecedor do modelo: o fornecedor treinou o modelo para se comportar de determinada forma em termos gerais, e a empresa assume que esse treinamento é suficiente para seus casos de uso específicos. Esse pressuposto é cada vez mais difícil de sustentar.

Os modelos atuais são instrumento e risco ao mesmo tempo. Um agente de suporte ao cliente pode prometer um reembolso que a empresa não autorizou. Um agente de codificação pode instalar algo em uma máquina virtual que não deveria ser tocada. Um modelo integrado em um aplicativo financeiro pode lidar mal com dados sensíveis do cliente. Nenhum desses cenários é hipotético; são consequências documentadas de implantar modelos capazes em ambientes com instruções incompletas ou ambíguas.

A resposta habitual dos laboratórios de modelos é o ajuste de segurança durante o treinamento. Mas esse ajuste é, por definição, genérico. Está calibrado para impedir que o modelo explique como fabricar armas ou produza conteúdo prejudicial de forma abstrata. Não está calibrado para a política específica de uma empresa de serviços financeiros sobre o que pode ou não pode prometer em uma conversa com um cliente, nem para as restrições de uma empresa de saúde sobre quais dados podem ser cruzados entre si.

Shilov aponta algo mais estrutural: os laboratórios cobram por tokens de entrada e saída mesmo quando o modelo rejeita uma solicitação prejudicial. Isso significa que eles têm motivação econômica limitada para bloquear abusos antes que cheguem ao modelo. Ele também aponta o chamado "imposto de alinhamento": treinar modelos mais seguros tende a reduzir seu desempenho em tarefas como codificação. Essa tensão entre segurança e desempenho não desaparece com mais financiamento; é uma restrição técnica que os laboratórios gerenciam, mas não eliminam.

A White Circle aposta que essa lacuna não será fechada apenas pelo lado do treinamento. Seu produto é uma camada de aplicação em tempo real que se posiciona entre os usuários de uma empresa e seus modelos, revisa entradas e saídas em relação às políticas específicas dessa empresa e pode bloquear ou sinalizar comportamentos problemáticos: alucinações, vazamento de dados, conteúdo proibido, injeção de prompts, ações destrutivas em ambientes de software. A empresa afirma ter processado mais de um bilhão de solicitações de API e ter clientes ativos em fintechs, setor jurídico e ferramentas de desenvolvimento, incluindo a Lovable. O sistema suporta mais de 150 idiomas e possui certificações SOC 2 Tipo I e II, além de conformidade com a HIPAA.

O que um bilhão de solicitações valida e o que não valida

Um bilhão de solicitações de API é o tipo de número que soa grande e pode significar coisas muito diferentes dependendo do volume por cliente, do tipo de solicitação e da taxa de retenção. A White Circle foi fundada em 2025 e tem 20 funcionários, quase todos engenheiros. Isso sugere uma arquitetura projetada para escalar com infraestrutura em vez de equipe de serviço, o que é coerente com um modelo de API que intercepta tráfego existente.

O que o número de fato valida, na medida em que os dados públicos permitem concluir, é que a plataforma tem tração operacional, não apenas tração de relações públicas. Há uma diferença importante entre uma empresa que anuncia financiamento com uma lista de clientes potenciais e uma que chega ao anúncio com evidências de uso sustentado. O benchmark que a White Circle publicou em maio de 2026, chamado KillBench, também funciona como sinal de maturidade técnica: foram realizados mais de um milhão de experimentos sobre 15 modelos da OpenAI, Google, Anthropic e xAI para medir vieses em cenários de decisões de alto risco. Os resultados mostraram que os modelos tomavam decisões diferentes com base em atributos como nacionalidade, religião ou tipo de celular, e que esses vieses se agravavam quando as respostas eram solicitadas em formatos estruturados para serem lidos por software — que é exatamente como a maioria das empresas conecta modelos a seus sistemas produtivos.

Essa descoberta tem consequências diretas para qualquer empresa que use IA em decisões com impactos reais. Não se trata de um experimento acadêmico; é a documentação de um vetor de risco que ocorre no formato de integração mais comum.

O que o número ainda não valida é a disposição a pagar em escala. O modelo de negócio de uma camada de controle que intercepta tráfego tem uma mecânica potencialmente poderosa: se se tornar parte do fluxo de trabalho entre usuários e modelos, captura orçamento de múltiplas linhas — segurança, conformidade, moderação de conteúdo e operações de modelos. Mas isso também significa que compete por orçamento com equipes que já possuem ferramentas de observabilidade e que podem resistir a adicionar mais uma camada de infraestrutura.

A concentração geográfica da equipe na Europa, com presença em Londres, França e Amsterdã, sugere que a expansão para o mercado norte-americano — onde estão os maiores orçamentos de tecnologia empresarial — requer uma infraestrutura de vendas que 20 engenheiros não conseguem cobrir. O financiamento provavelmente será direcionado para isso.

Uma camada de controle que os modelos não conseguem vender sozinhos

O argumento mais sólido da White Circle não é técnico. É de governança.

Shilov o formulou com precisão: há um problema de confiança estrutural em pedir a um fornecedor de modelos que julgue o comportamento de seus próprios modelos. A Anthropic não pode ser árbitro neutro do comportamento do Claude quando é ela mesma que o treina, o comercializa e cobra por cada token gerado. Isso não é uma acusação; é uma descrição de incentivos. Os laboratórios de IA são empresas com interesses comerciais específicos, e seus sistemas de segurança estão calibrados para esses interesses, não para os de cada empresa que implanta seus modelos.

Essa separação é o que torna o apoio de investidores com experiência nos laboratórios mais importantes do setor estrategicamente relevante além do capital. Pessoas que conhecem de perto as restrições técnicas e comerciais da OpenAI, Anthropic, Mistral e DeepMind estão apostando que o problema de controle pós-implantação não será resolvido de dentro desses laboratórios com a profundidade que as empresas vão precisar. Isso é tanto uma validação do problema quanto um sinal sobre a direção do mercado.

A transição de chatbots para agentes autônomos torna essa lacuna ainda mais urgente. Um chatbot que responde mal é um problema de reputação. Um agente que acessa arquivos, executa código, navega na web e toma ações em nome de um usuário pode causar danos que não se revertem com uma mensagem de desculpas. O mercado de controle de agentes autônomos está em seus estágios iniciais, mas a direção dos gastos em IA aponta claramente para esse caminho.

A White Circle chegou ao anúncio com uso operacional, pesquisa publicada, certificações de conformidade e apoio de pessoas com credibilidade técnica no setor. Isso não é garantia de sucesso, mas é uma linha de largada que está consideravelmente mais avançada do que a maioria das startups costuma estar no estágio de rodada semente. O próximo limiar que importa não é a próxima manchete de financiamento; é quantas empresas em setores regulados decidirão que precisam de uma camada de controle entre seus usuários e seus modelos antes que algum incidente as force a buscá-la da pior maneira possível.

Compartilhar

Você também pode gostar