White Circle ha raccolto 11 milioni per monitorare l'IA dopo che nessun altro voleva farlo

White Circle ha raccolto 11 milioni per monitorare l'IA dopo che nessun altro voleva farlo

Una notte alla fine del 2024, Denis Shilov stava guardando un thriller poliziesco quando gli venne in mente un esperimento. Scrisse un prompt che riusciva a far ignorare a qualsiasi modello di intelligenza artificiale i propri filtri di sicurezza. Ciò che Shilov concluse da quell'episodio non fu di aver trovato un bug, ma che nessuna azienda disponeva di uno strato di controllo post-distribuzione su ciò che i suoi modelli di IA facevano una volta che gli utenti iniziavano a interagire con essi.

Tomás RiveraTomás Rivera14 maggio 20268 min
Condividi

White Circle ha raccolto 11 milioni per vigilare sull'IA dopo che nessun altro voleva farlo

Una notte alla fine del 2024, Denis Shilov stava guardando un thriller poliziesco quando gli venne in mente un esperimento. Scrisse un prompt capace di far sì che qualsiasi modello di intelligenza artificiale ignorasse i propri filtri di sicurezza. Il trucco era concettualmente semplice: diceva al modello di smettere di comportarsi come un chatbot con delle regole e di iniziare ad agire come un punto di accesso software che risponde semplicemente alle richieste senza valutare se dovrebbe farlo o meno. Funzionò con tutti i principali modelli. Il giorno dopo, il suo post su X aveva accumulato abbastanza attenzione da spingere Anthropic a contattarlo e a chiedergli accesso privato ai propri sistemi.

Ciò che Shilov concluse da quell'episodio non fu di aver trovato un bug. Fu che nessuna azienda disponeva di uno strato di controllo post-distribuzione su ciò che i propri modelli di IA facevano una volta che gli utenti iniziavano a interagire con essi. Quella osservazione si trasformò in White Circle, e il 12 maggio 2026 la startup parigina annunciò un round seed da 11 milioni di dollari sostenuto da figure che conoscono i modelli dall'interno: il direttore dell'esperienza degli sviluppatori di OpenAI, un cofondatore di OpenAI oggi in Anthropic, il cofondatore e scienziato capo di Mistral, il cofondatore e direttore scientifico di Hugging Face, il fondatore di Datadog, il creatore di Keras ed executive di DeepMind e Sentry.

Il capitale non è la parte più interessante della storia. La parte interessante è che tipo di infrastruttura di business giustifica una convinzione così precoce e perché la risposta del mercato a quel problema specifico ha impiegato così tanto tempo ad apparire.

Il problema che i laboratori di IA hanno incentivi a non risolvere del tutto

Quando un'azienda distribuisce un modello linguistico in produzione, eredita un contratto implicito con il fornitore del modello: il fornitore ha addestrato il modello a comportarsi in un certo modo in termini generali, e l'azienda presume che tale addestramento sia sufficiente per i propri casi d'uso specifici. Quella supposizione è sempre più difficile da sostenere.

I modelli attuali sono strumento e rischio allo stesso tempo. Un agente di supporto clienti può promettere un rimborso che l'azienda non ha autorizzato. Un agente di codifica può installare qualcosa su una macchina virtuale che non avrebbe dovuto essere toccata. Un modello integrato in un'applicazione finanziaria può gestire male i dati sensibili del cliente. Nessuno di questi scenari è ipotetico; sono conseguenze documentate della distribuzione di modelli capaci in ambienti con istruzioni incomplete o ambigue.

La risposta abituale dei laboratori di modelli è la calibrazione della sicurezza durante l'addestramento. Ma quella calibrazione è, per definizione, generica. È tarata per evitare che il modello spieghi come fabbricare armi o produca contenuti dannosi in astratto. Non è calibrata per la politica specifica di un'azienda di servizi finanziari su ciò che può e non può promettere in una conversazione con un cliente, né per le restrizioni di un'azienda sanitaria su quali dati possono essere incrociati tra loro.

Shilov segnala qualcosa di più strutturale: i laboratori addebitano per token in ingresso e in uscita anche quando il modello rifiuta una richiesta dannosa. Ciò significa che hanno una motivazione economica limitata a bloccare l'abuso prima che raggiunga il modello. Segnala anche la cosiddetta "tassa di allineamento": addestrare modelli più sicuri tende a ridurne le prestazioni in compiti come la codifica. Quella tensione tra sicurezza e rendimento non scompare con più finanziamenti; è un vincolo tecnico che i laboratori gestiscono, non eliminano.

White Circle scommette che quel divario non si chiuderà solo dal lato dell'addestramento. Il suo prodotto è uno strato applicativo in tempo reale che si posiziona tra gli utenti di un'azienda e i suoi modelli, esamina input e output rispetto alle politiche specifiche di quell'azienda, e può bloccare o segnalare comportamenti problematici: allucinazioni, perdita di dati, contenuti vietati, iniezione di prompt, azioni distruttive in ambienti software. L'azienda dichiara di aver elaborato più di un miliardo di richieste API e di avere clienti attivi nel fintech, nel settore legale e negli strumenti di sviluppo, incluso Lovable. Il sistema supporta più di 150 lingue e dispone delle certificazioni SOC 2 Tipo I e II oltre alla conformità con HIPAA.

Cosa valida un miliardo di richieste e cosa no

Un miliardo di richieste API è il tipo di numero che suona grande e può significare cose molto diverse a seconda del volume per cliente, del tipo di richiesta e del tasso di fidelizzazione. White Circle è stata fondata nel 2025 e conta 20 dipendenti, quasi tutti ingegneri. Ciò suggerisce un'architettura progettata per scalare con l'infrastruttura più che con il team di assistenza, il che è coerente con un modello API che intercetta il traffico esistente.

Ciò che il numero valida, per quanto i dati pubblici consentano di concludere, è che la piattaforma ha una trazione operativa, non solo una trazione di relazioni pubbliche. C'è una differenza importante tra un'azienda che annuncia finanziamenti con un elenco di potenziali clienti e una che arriva all'annuncio con prove di utilizzo sostenuto. Anche il benchmark che White Circle ha pubblicato nel maggio 2026, KillBench, funziona come segnale di maturità tecnica: hanno condotto più di un milione di esperimenti su 15 modelli di OpenAI, Google, Anthropic e xAI per misurare i pregiudizi in scenari di decisioni ad alto rischio. I risultati hanno mostrato che i modelli prendevano decisioni diverse in base ad attributi come nazionalità, religione o tipo di telefono, e che quei pregiudizi peggioravano quando le risposte venivano richieste in formati strutturati per essere letti da software, che è esattamente il modo in cui la maggior parte delle aziende connette i modelli ai propri sistemi produttivi.

Tale scoperta ha conseguenze dirette per qualsiasi azienda che utilizzi l'IA in decisioni con conseguenze reali. Non si tratta di un esperimento accademico; è la documentazione di un vettore di rischio che si verifica nel formato di integrazione più comune.

Ciò che il numero non valida, ancora, è la disponibilità a pagare su scala. Il modello di business di uno strato di controllo che intercetta il traffico ha una meccanica potenzialmente potente: se diventa parte del flusso di lavoro tra utenti e modelli, cattura budget da più linee — sicurezza, conformità, moderazione dei contenuti e operazioni sui modelli. Ma ciò significa anche che compete per il budget con team che già dispongono di strumenti di osservabilità e che potrebbero resistere all'aggiunta di un ulteriore livello di infrastruttura.

La concentrazione geografica del team in Europa, con presenza a Londra, in Francia e ad Amsterdam, suggerisce che l'espansione verso il mercato statunitense — dove si trovano i budget tecnologici aziendali più grandi — richiede un'infrastruttura di vendita che 20 ingegneri non possono coprire. Il finanziamento andrà probabilmente in quella direzione.

Uno strato di controllo che i modelli non possono vendere da soli

L'argomento più solido di White Circle non è tecnico. È di governance.

Shilov lo ha formulato con precisione: c'è un problema di fiducia strutturale nel chiedere a un fornitore di modelli di giudicare il comportamento dei propri modelli. Anthropic non può essere arbitro neutrale del comportamento di Claude quando è la stessa entità che lo addestra, lo commercializza e addebita per ogni token che genera. Non si tratta di un'accusa; è una descrizione di incentivi. I laboratori di IA sono aziende con interessi commerciali specifici, e i loro sistemi di sicurezza sono calibrati per quei interessi, non per quelli di ciascuna azienda che distribuisce i loro modelli.

È questa separazione a rendere il supporto di investitori con esperienza nei laboratori più importanti del settore strategicamente rilevante al di là del capitale. Persone che conoscono dall'interno i vincoli tecnici e commerciali di OpenAI, Anthropic, Mistral e DeepMind stanno scommettendo che il problema del controllo post-distribuzione non verrà risolto dall'interno di quei laboratori con la profondità che le aziende richiederanno. Si tratta sia di una validazione del problema sia di un segnale sulla direzione del mercato.

La transizione dai chatbot agli agenti autonomi rende quel divario ancora più urgente. Un chatbot che risponde male è un problema di reputazione. Un agente che accede a file, esegue codice, naviga il web e compie azioni per conto di un utente può creare danni che non si annullano con un messaggio di scuse. Il mercato del controllo degli agenti autonomi è nelle sue fasi iniziali, ma la direzione della spesa in IA punta chiaramente in quella direzione.

White Circle è arrivata all'annuncio con utilizzo operativo, ricerca pubblicata, certificazioni di conformità e il sostegno di persone con credibilità tecnica nel settore. Non si tratta di una garanzia di successo, ma è un punto di partenza considerevolmente più avanzato rispetto a dove si trovano solitamente le startup in fase seed. La prossima soglia rilevante non è il prossimo titolo di finanziamento; è quante aziende nei settori regolamentati decideranno di aver bisogno di uno strato di controllo tra i propri utenti e i propri modelli prima che un incidente le costringa a cercarlo nel modo più difficile.

Condividi

Potrebbe interessarti anche