Databricks e ontologia: quem controla os agentes de IA

Databricks aposta na ontologia e revela quem controla o cérebro dos agentes de IA empresarial

A história da inteligência artificial empresarial pode ser medida em camadas. Primeiro vieram os bancos de dados vetoriais, que permitiram realizar buscas por similaridade semântica sobre grandes volumes de texto. Depois chegou a geração aumentada por recuperação — RAG, na sigla em inglês —, que combinou modelos de linguagem com fontes externas de conhecimento para reduzir as alucinações. Essa arquitetura dominou os últimos dois anos e se tornou o padrão de fato para construir assistentes corporativos.

Agora a Databricks está apostando que essa arquitetura não é suficiente. Em sua conferência anual Data + AI Summit, o CEO Ali Ghodsi apresentou a Genie Ontology, uma camada de contexto que extrai automaticamente definições de negócio a partir de dados internos, painéis, consultas SQL, documentos, pipelines e aplicações, e as organiza em um grafo vivo que os agentes de IA podem consultar para entender como uma organização opera. O produto está em fase de pré-visualização e utiliza um sistema de hierarquização inspirado no PageRank do Google para determinar qual fonte merece mais autoridade: quem criou a informação, com que frequência é utilizada, se está vinculada a ativos certificados e quando foi atualizada pela última vez.

O movimento não é apenas técnico. É uma declaração de intenções sobre quem vai controlar a infraestrutura semântica da empresa do futuro, e essa disputa tem consequências econômicas de primeira ordem.

Do arquivo à autoridade

O problema que a Genie Ontology tenta resolver não é novo. Em qualquer PME de médio ou grande porte, a definição de "receita recorrente mensal" pode diferir entre as áreas de finanças, vendas e o time de dados. Três departamentos, três números distintos para a mesma métrica. Os sistemas RAG tradicionais não resolvem isso: recuperam o que parece similar à pergunta, mas não distinguem entre uma definição oficial e uma que alguém escreveu em um documento do Google há três anos.

Uma ontologia, por outro lado, não apenas recupera; codifica relações hierárquicas entre conceitos, estabelece qual fonte tem autoridade sobre qual definição e permite que diferentes agentes de IA compartilhem o mesmo vocabulário de negócio. Michael Leone, analista da Moor Insights & Strategy, descreve isso com clareza: uma única definição alimentando todos os agentes significa que se deixa de receber três respostas distintas para a mesma pergunta. O valor operacional dessa consistência, em organizações onde decisões críticas são tomadas com base em relatórios automatizados, é elevado.

Ashish Chaturvedi, pesquisador da HFS Research, vai mais longe e vincula isso ao obstáculo mais persistente da adoção de IA corporativa: a falta de confiança. Segundo sua análise, o problema central não é técnico, mas de governança do conhecimento. Os tomadores de decisão não agem sobre os outputs de IA porque não conseguem rastrear de onde eles vêm nem verificar se a cadeia de raciocínio utilizou as fontes corretas. Uma ontologia ancorada em definições oficiais com rastreabilidade até a fonte ataca diretamente esse déficit.

A Databricks também integra a Genie Ontology com sua plataforma Unity Catalog Semantics, o que permite às organizações carregar suas próprias definições ou vocabulários corporativos e manter controle sobre o que entra no grafo. Internamente, a empresa reporta ter gerado cerca de 4,5 milhões de fragmentos ontológicos durante seu próprio processo de teste. Isso dá uma ideia da escala do problema que tentam resolver e, ao mesmo tempo, da complexidade de mantê-lo atualizado.

O risco que a narrativa do progresso omite

Toda arquitetura tem seus limites. Stephanie Walter, da HyperFRAME Research, identifica o elo ausente com precisão: verificação. Uma ontologia melhora o contexto com que um agente opera, mas não garante que a resposta seja correta. Um agente pode consultar a definição correta e ainda assim aplicar lógica equivocada, omitir linhas em um conjunto de dados, interpretar mal um fluxo de trabalho ou executar uma ação indesejada. A consistência semântica não é o mesmo que a correção operacional.

Essa distinção importa especialmente porque o horizonte para o qual a Databricks aponta não são assistentes de consulta, mas agentes que executam ações: modificar pipelines, gerar relatórios regulatórios, disparar alertas ou tomar decisões automatizadas em processos de negócio. Nesse contexto, um erro semântico bem fundamentado pode ser mais perigoso do que uma ambiguidade evidente, porque avança muito mais antes que alguém o detecte.

Leone acrescenta outra dimensão: a maioria das empresas não possui a maturidade de dados e governança necessária para implementar uma camada de ontologia com rigor. Se o lineage de dados é fraco, os responsáveis pelas métricas não estão definidos, ou as definições vigentes são contraditórias, adicionar uma ontologia não resolve o problema; ele o acelera. O grafo se alimenta das fontes existentes, e se essas fontes são inconsistentes, a inconsistência se propaga com maior velocidade e com aparência de autoridade.

Walter acrescenta a dimensão mais silenciosa do risco: a manutenção. Uma ontologia não é um projeto que se configura uma única vez. É um ativo vivo que precisa ser atualizado toda vez que o negócio muda, toda vez que um novo produto é lançado, toda vez que uma métrica é redefinida ou uma unidade é reorganizada. Sem processos de atualização, propriedade clara e mecanismos para resolver conflitos entre definições, o grafo se torna obsoleto. E uma ontologia obsoleta com autoridade algorítmica sobre os agentes é, segundo Walter, "mais um projeto de metadados estagnado com um nome mais sofisticado."

Isso não invalida a aposta da Databricks, mas define o terreno no qual o produto terá que demonstrar seu valor: não na apresentação em um palco, mas na manutenção operacional dentro de organizações com dados imperfeitos e estruturas de governança que ainda estão amadurecendo.

A disputa pelo plano de controle empresarial

A Genie Ontology não existe no vácuo. A Snowflake tem o Horizon Context, sua própria camada semântica para agentes. A Microsoft está construindo capacidades equivalentes dentro do Copilot, do Fabric e de sua família IQ — Work IQ, Fabric IQ, Foundry IQ — integrando contexto de negócio e governança em sua infraestrutura mais ampla. O problema, aponta Leone, é que cada fornecedor batizou de maneira diferente uma ideia basicamente similar, e essa fragmentação terminológica retarda a adoção porque as equipes de CIOs não conseguem comparar com clareza o que estão avaliando.

Além dos nomes, o que está em disputa é estruturalmente significativo. Chaturvedi descreve isso como a corrida para se tornar o plano de controle da IA empresarial: o lugar onde convergem dados, governança, semântica e execução de agentes. A analogia histórica que ele utiliza é precisa: os sistemas ERP se tornaram o sistema de registro para transações de negócio; os data warehouses se tornaram o sistema de registro para analytics. Agora está sendo definido qual plataforma se tornará o sistema de registro para os agentes de IA.

A Databricks está posicionando a Genie Ontology dentro de uma arquitetura mais ampla que inclui o LTAP — sua proposta de fundação para aplicações agênticas — e o OpenSharing, projetado para reduzir os custos de integração em ambientes de IA corporativa. Conectados, esses componentes apontam para uma visão que o próprio Ghodsi descreve como um "sistema de registro agêntico": uma fonte autoritativa a partir da qual os agentes leem, raciocinam e agem. Não é um produto isolado; é uma estratégia de plataforma.

A vantagem estrutural dos fornecedores de dados nessa corrida é real: eles já possuem os dados, os controles de governança, o lineage e as permissões que os agentes precisam para operar com segurança. Isso os coloca em uma posição diferente da de um fornecedor de modelos ou de ferramentas de orquestração. Mas essa vantagem tem um lado menos favorável: também os torna dependentes de que seus clientes já tenham seus dados em ordem. E para a maioria das empresas, isso ainda não é o caso.

Chaturvedi oferece uma heurística que simplifica a decisão para as equipes que hoje avaliam essas opções: a camada de contexto segue a gravidade do dado. Se os dados vivem na Databricks, a Genie Ontology é o caminho natural. Se estão na Snowflake, o é o Horizon Context. Se a infraestrutura é predominantemente Microsoft, a família IQ é a rota. Bhupendra Chopra, da consultoria Kanerika, reforça esse argumento: acima do marketing de cada plataforma, a decisão real é tomada pelo lugar onde os dados já residem.

A Snowflake está tentando diferenciar sua oferta apostando em interoperabilidade semântica aberta, o que em teoria permite que as definições de negócio se movam entre plataformas sem ficarem presas no modelo de dados de um único fornecedor. Essa aposta aponta diretamente para o risco de dependência semântica — o equivalente ao aprisionamento de plataforma, mas aplicado ao vocabulário corporativo — em ambientes onde as empresas operam sobre múltiplos sistemas de dados simultaneamente.

O valor é capturado onde se verifica a execução

A narrativa dominante em torno dessas plataformas fala de contexto, consistência e confiança. Todas essas dimensões importam, mas há uma que ainda não tem uma resposta sólida em nenhuma das propostas disponíveis: como se verifica que o que o agente fez foi o correto.

Essa é a fronteira real. Não a qualidade do contexto com que o agente inicia uma tarefa, mas a capacidade de auditar, com rastreabilidade completa, o que o agente fez, quais definições utilizou, quais dados processou, qual lógica aplicou e se o resultado é reproduzível. Walter resume sem ambiguidade: o próximo campo de disputa na IA empresarial não é o contexto, mas a execução verificável.

Isso tem consequências diretas sobre onde o valor econômico é capturado nessa corrida. Uma ontologia que melhora a consistência semântica é um ativo valioso, mas não suficiente para que uma organização possa delegar decisões operacionais com consequências reais — financeiras, regulatórias, operacionais — a agentes autônomos. Para que esse nível de delegação ocorra, a plataforma precisa oferecer algo mais: um registro auditável de decisões, mecanismos de correção quando o agente erra e garantias sobre o que acontece quando o contexto muda e o grafo ainda não foi atualizado.

A Databricks está construindo nessa direção, embora a Genie Ontology por si só ainda não responda a essa pergunta. O que o conjunto de anúncios do Data + AI Summit revela é uma estratégia coerente em direção a esse objetivo: dados + governança + semântica + execução agêntica como camadas integradas dentro de uma única plataforma. A coerência da visão é clara. O teste de estresse chegará quando a ontologia tiver que se manter precisa dentro de organizações que mudam mais rapidamente do que qualquer grafo pode se atualizar sozinho.

Essa tensão entre a ambição da arquitetura e a realidade operacional das empresas que a adotarão é onde se decidirá se essa aposta gera valor sustentável ou se se torna infraestrutura sofisticada sobre fundamentos que ainda não estão prontos para sustentá-la.

Databricks aposta na ontologia e revela quem controla o cérebro dos agentes de IA empresarial

Databricks aposta na ontologia e revela quem controla o cérebro dos agentes de IA empresarial

Do arquivo à autoridade

O risco que a narrativa do progresso omite

A disputa pelo plano de controle empresarial

O valor é capturado onde se verifica a execução

Você também pode gostar

A amnésia dos sistemas de IA não é um problema de modelos, é um problema de infraestrutura

A Índia descobriu que não controla o interruptor de sua própria economia digital

Por que 95% dos projetos de IA empresarial não sobrevivem ao piloto

Cem bilhões de tokens e nenhum CFO sabe o que comprou

A camada que ninguém construiu e que a IA não consegue improvisar

IBM aposta que a soberania operacional será o campo onde se vencerá a IA empresarial