Databricks e ontologia: chi controlla gli agenti IA

Databricks punta sull'ontologia e rivela chi controlla il cervello degli agenti di IA aziendale

La storia dell'intelligenza artificiale aziendale può essere misurata per strati. Prima arrivarono i database vettoriali, che consentivano di effettuare ricerche per similarità semantica su grandi volumi di testo. Poi arrivò la generazione aumentata dal recupero — RAG, dall'acronimo inglese —, che combinava modelli linguistici con fonti esterne di conoscenza per ridurre le allucinazioni. Quella architettura ha dominato gli ultimi due anni ed è diventata lo standard di fatto per costruire assistenti aziendali.

Ora Databricks sta scommettendo che quell'architettura non è sufficiente. Alla sua conferenza annuale Data + AI Summit, il CEO Ali Ghodsi ha presentato Genie Ontology, uno strato di contesto che estrae automaticamente definizioni di business dai dati interni, dashboard, query SQL, documenti, pipeline e applicazioni, e le organizza in un grafo vivo che gli agenti di IA possono consultare per comprendere come opera un'organizzazione. Il prodotto è in fase di anteprima e utilizza un sistema di gerarchizzazione ispirato al PageRank di Google per determinare quale fonte merita maggiore autorità: chi ha creato l'informazione, quanto viene utilizzata, se è collegata ad asset certificati e quando è stata aggiornata per l'ultima volta.

La mossa non è solo tecnica. È una dichiarazione di intenti su chi andrà a controllare l'infrastruttura semantica dell'impresa del futuro, e quella disputa ha conseguenze economiche di primissimo ordine.

Dall'archivio all'autorità

Il problema che Genie Ontology cerca di risolvere non è nuovo. In qualsiasi PMI o grande impresa, la definizione di "ricavi ricorrenti mensili" può differire tra il reparto finanziario, le vendite e il team dei dati. Tre dipartimenti, tre numeri diversi per la stessa metrica. I sistemi RAG tradizionali non risolvono questo problema: recuperano ciò che sembra simile alla domanda, ma non distinguono tra una definizione ufficiale e una che qualcuno ha scritto in un documento Google tre anni fa.

Un'ontologia, al contrario, non si limita a recuperare; codifica relazioni gerarchiche tra concetti, stabilisce quale fonte ha autorità su quale definizione e consente a diversi agenti di IA di condividere lo stesso vocabolario di business. Michael Leone, analista di Moor Insights & Strategy, lo descrive con chiarezza: un'unica definizione che alimenta tutti gli agenti significa smettere di ricevere tre risposte diverse alla stessa domanda. Il valore operativo di quella coerenza, in organizzazioni dove le decisioni critiche vengono prese sulla base di report automatizzati, è elevato.

Ashish Chaturvedi, ricercatore di HFS Research, va oltre e collega questo al più persistente ostacolo all'adozione dell'IA aziendale: la mancanza di fiducia. Secondo la sua analisi, il problema centrale non è tecnico ma di governance della conoscenza. I decision maker non agiscono sugli output dell'IA perché non riescono a tracciare da dove provengono né a verificare se la catena di ragionamento ha utilizzato le fonti corrette. Un'ontologia ancorata a definizioni ufficiali con tracciabilità fino alla fonte attacca direttamente quel deficit.

Databricks integra anche Genie Ontology con la sua piattaforma Unity Catalog Semantics, il che consente alle organizzazioni di caricare le proprie definizioni o vocabolari aziendali e mantenere il controllo su ciò che entra nel grafo. Internamente, l'azienda riporta di aver generato circa 4,5 milioni di frammenti ontologici durante il proprio processo di test. Questo dà un'idea della scala del problema che stanno cercando di risolvere e, allo stesso tempo, della complessità di mantenerlo aggiornato.

Il rischio che la narrativa del progresso omette

Ogni architettura ha i suoi limiti. Stephanie Walter, di HyperFRAME Research, identifica con precisione l'anello mancante: la verifica. Un'ontologia migliora il contesto con cui opera un agente, ma non garantisce che la risposta sia corretta. Un agente può consultare la definizione corretta e applicare comunque una logica errata, omettere righe in un dataset, fraintendere un flusso di lavoro o intraprendere un'azione indesiderata. La coerenza semantica non equivale alla correttezza operativa.

Quella distinzione è particolarmente importante perché l'orizzonte a cui punta Databricks non sono assistenti di consultazione ma agenti che eseguono azioni: modificare pipeline, generare report normativi, attivare avvisi o prendere decisioni automatizzate nei processi aziendali. In quel contesto, un errore semantico ben fondato può essere più pericoloso di un'ambiguità evidente, perché arriva molto più lontano prima che qualcuno lo rilevi.

Leone aggiunge un'altra dimensione: la maggior parte delle aziende non ha la maturità in termini di dati e governance necessaria per implementare uno strato di ontologia con rigore. Se il lineage dei dati è debole, i proprietari delle metriche non sono definiti o le definizioni vigenti sono contraddittorie, aggiungere un'ontologia non risolve il problema; lo accelera. Il grafo si alimenta delle fonti esistenti, e se quelle fonti sono incoerenti, l'incoerenza si propaga con maggiore velocità e con un'apparenza di autorità.

Walter aggiunge la dimensione più silenziosa del rischio: la manutenzione. Un'ontologia non è un progetto che si configura una volta sola. È un asset vivo che necessita di essere aggiornato ogni volta che il business cambia, ogni volta che viene lanciato un nuovo prodotto, ogni volta che una metrica viene ridefinita o un'unità viene riorganizzata. Senza processi di aggiornamento, una proprietà chiara e meccanismi per risolvere i conflitti tra definizioni, il grafo diventa obsoleto. E un'ontologia obsoleta con autorità algoritmica sugli agenti è, secondo Walter, "un altro progetto di metadati stagnante con un nome più sofisticato."

Questo non invalida la scommessa di Databricks, ma definisce il terreno su cui il prodotto dovrà dimostrare il proprio valore: non nella presentazione su un palcoscenico, ma nella manutenzione operativa all'interno di organizzazioni con dati imperfetti e strutture di governance che stanno ancora maturando.

La disputa per il piano di controllo aziendale

Genie Ontology non esiste nel vuoto. Snowflake ha Horizon Context, il proprio strato semantico per gli agenti. Microsoft sta costruendo capacità equivalenti all'interno di Copilot, Fabric e della sua famiglia IQ — Work IQ, Fabric IQ, Foundry IQ — integrando contesto aziendale e governance nella sua infrastruttura più ampia. Il problema, sottolinea Leone, è che ogni fornitore ha battezzato in modo diverso un'idea sostanzialmente simile, e quella frammentazione terminologica rallenta l'adozione perché i team dei CIO non riescono a confrontare con chiarezza ciò che stanno valutando.

Al di là dei nomi, ciò che è in gioco è strutturalmente significativo. Chaturvedi lo descrive come la corsa a diventare il piano di controllo dell'IA aziendale: il luogo in cui convergono dati, governance, semantica ed esecuzione degli agenti. L'analogia storica che utilizza è precisa: i sistemi ERP sono diventati il sistema di registrazione per le transazioni aziendali; i data warehouse sono diventati il sistema di registrazione per l'analisi. Ora si sta definendo quale piattaforma diventerà il sistema di registrazione per gli agenti di IA.

Databricks sta posizionando Genie Ontology all'interno di un'architettura più ampia che include LTAP — la sua proposta di fondazione per le applicazioni agentiche — e OpenSharing, progettato per ridurre i costi di integrazione negli ambienti di IA aziendale. Collegati insieme, questi componenti puntano a una visione che lo stesso Ghodsi descrive come un "sistema di registrazione agentico": una fonte autorevole dalla quale gli agenti leggono, ragionano e agiscono. Non si tratta di un prodotto isolato; è una strategia di piattaforma.

Il vantaggio strutturale dei fornitori di dati in questa corsa è reale: possiedono già i dati, i controlli di governance, il lineage e i permessi di cui gli agenti hanno bisogno per operare in sicurezza. Questo li mette in una posizione diversa rispetto a un fornitore di modelli o di strumenti di orchestrazione. Ma quel vantaggio ha un lato meno favorevole: li rende anche dipendenti dal fatto che i loro clienti abbiano già i propri dati in ordine. E per la maggior parte delle aziende, questo non è ancora il caso.

Chaturvedi offre un'euristica che semplifica la decisione per i team che oggi valutano queste opzioni: lo strato di contesto segue la gravità del dato. Se i dati risiedono in Databricks, Genie Ontology è il percorso naturale. Se si trovano in Snowflake, lo è Horizon Context. Se l'infrastruttura è prevalentemente Microsoft, la famiglia IQ è la via. Bhupendra Chopra, della società di consulenza Kanerika, rafforza quell'argomento: al di sopra del marketing di ciascuna piattaforma, la decisione reale viene presa dal luogo in cui i dati già risiedono.

Snowflake sta cercando di differenziare la propria offerta puntando sull'interoperabilità semantica aperta, il che in teoria consente alle definizioni di business di spostarsi tra piattaforme senza rimanere intrappolate nel modello dati di un singolo fornitore. Quella scommessa punta direttamente al rischio di dipendenza semantica — l'equivalente del lock-in di piattaforma, ma applicato al vocabolario aziendale — in ambienti in cui le imprese operano su più sistemi di dati contemporaneamente.

Il valore si cattura dove si verifica l'esecuzione

La narrativa dominante attorno a queste piattaforme parla di contesto, coerenza e fiducia. Tutte quelle dimensioni contano, ma ce n'è una che non ha ancora una risposta solida in nessuna delle proposte disponibili: come si verifica che ciò che l'agente ha fatto sia stato corretto.

Questa è la frontiera reale. Non la qualità del contesto con cui l'agente avvia un compito, ma la capacità di verificare, con tracciabilità completa, cosa ha fatto l'agente, quali definizioni ha utilizzato, quali dati ha elaborato, quale logica ha applicato e se il risultato è riproducibile. Walter lo riassume senza ambiguità: il prossimo campo di disputa nell'IA aziendale non è il contesto, ma l'esecuzione verificabile.

Questo ha conseguenze dirette su dove viene catturato il valore economico in questa corsa. Un'ontologia che migliora la coerenza semantica è un asset prezioso, ma non sufficiente affinché un'organizzazione possa delegare decisioni operative con conseguenze reali — finanziarie, normative, operative — ad agenti autonomi. Affinché quel livello di delega avvenga, la piattaforma deve offrire qualcosa di più: un registro verificabile delle decisioni, meccanismi di correzione quando l'agente sbaglia e garanzie su cosa succede quando il contesto cambia e il grafo non è ancora stato aggiornato.

Databricks sta costruendo in quella direzione, sebbene Genie Ontology da sola non risponda ancora a quella domanda. Ciò che l'insieme degli annunci del Data + AI Summit rivela è una strategia coerente verso quell'obiettivo: dati + governance + semantica + esecuzione agentica come strati integrati all'interno di un'unica piattaforma. La coerenza della visione è chiara. La prova di resistenza arriverà quando l'ontologia dovrà mantenersi precisa all'interno di organizzazioni che cambiano più velocemente di quanto qualsiasi grafo possa aggiornarsi da solo.

Quella tensione tra l'ambizione dell'architettura e la realtà operativa delle imprese che la adotteranno è il luogo in cui si deciderà se questa scommessa genererà valore sostenibile o si trasformerà in un'infrastruttura sofisticata costruita su fondamenta che non sono ancora pronte a sostenerla.