Databricks Genie Ontology: quién controla los agentes IA

Databricks apuesta por la ontología y revela quién controla el cerebro de los agentes de IA empresarial

La historia de la inteligencia artificial empresarial puede medirse en capas. Primero llegaron las bases de datos vectoriales, que permitieron hacer búsquedas por similitud semántica sobre grandes volúmenes de texto. Luego vino la generación aumentada por recuperación —RAG, en su sigla en inglés—, que combinó modelos de lenguaje con fuentes externas de conocimiento para reducir las alucinaciones. Esa arquitectura dominó los últimos dos años y se convirtió en el estándar de facto para construir asistentes corporativos.

Ahora Databricks está apostando a que esa arquitectura no es suficiente. En su conferencia anual Data + AI Summit, el CEO Ali Ghodsi presentó Genie Ontology, una capa de contexto que extrae automáticamente definiciones de negocio desde datos internos, tableros, consultas SQL, documentos, pipelines y aplicaciones, y las organiza en un grafo vivo que los agentes de IA pueden consultar para entender cómo opera una organización. El producto está en fase de vista previa y usa un sistema de jerarquización inspirado en el PageRank de Google para determinar qué fuente merece más autoridad: quién creó la información, cuánto se usa, si está vinculada a activos certificados y cuándo fue actualizada por última vez.

El movimiento no es solo técnico. Es una declaración de intenciones sobre quién va a controlar la infraestructura semántica de la empresa del futuro, y esa disputa tiene consecuencias económicas de primer orden.

Del archivo a la autoridad

El problema que Genie Ontology intenta resolver no es nuevo. En cualquier empresa mediana o grande, la definición de "ingreso recurrente mensual" puede diferir entre finanzas, ventas y el equipo de datos. Tres departamentos, tres números distintos para la misma métrica. Los sistemas RAG tradicionales no resuelven eso: recuperan lo que parece similar a la pregunta, pero no distinguen entre una definición oficial y una que alguien escribió en un documento de Google hace tres años.

Una ontología, en cambio, no solo recupera; codifica relaciones jerárquicas entre conceptos, establece qué fuente tiene autoridad sobre qué definición y permite que distintos agentes de IA compartan el mismo vocabulario de negocio. Michael Leone, analista de Moor Insights & Strategy, lo describe con claridad: una sola definición alimentando a todos los agentes significa que se deja de recibir tres respuestas distintas a la misma pregunta. El valor operativo de esa consistencia, en organizaciones donde decisiones críticas se toman con base en reportes automatizados, es alto.

Ashish Chaturvedi, investigador de HFS Research, va más lejos y vincula esto con el obstáculo más persistente de la adopción de IA corporativa: la falta de confianza. Según su análisis, el problema central no es técnico sino de gobernanza del conocimiento. Los tomadores de decisiones no actúan sobre los outputs de IA porque no pueden rastrear de dónde vienen ni verificar si la cadena de razonamiento usó las fuentes correctas. Una ontología anclada en definiciones oficiales con trazabilidad hasta la fuente ataca directamente ese déficit.

Databricks también integra Genie Ontology con su plataforma Unity Catalog Semantics, lo que permite a las organizaciones cargar sus propias definiciones o vocabularios corporativos y mantener control sobre qué entra al grafo. Internamente, la compañía reporta haber generado alrededor de 4,5 millones de fragmentos ontológicos durante su propio proceso de prueba. Eso da una idea de la escala del problema que intentan resolver y, al mismo tiempo, de la complejidad de mantenerlo actualizado.

El riesgo que la narrativa del progreso omite

Toda arquitectura tiene sus límites. Stephanie Walter, de HyperFRAME Research, identifica el eslabón ausente con precisión: verificación. Una ontología mejora el contexto con que opera un agente, pero no garantiza que la respuesta sea correcta. Un agente puede consultar la definición correcta y aun así aplicar lógica equivocada, omitir filas en un dataset, malinterpretar un flujo de trabajo o tomar una acción no deseada. La consistencia semántica no es lo mismo que la corrección operativa.

Esa distinción importa especialmente porque el horizonte al que apunta Databricks no son asistentes de consulta sino agentes que ejecutan acciones: modificar pipelines, generar reportes regulatorios, disparar alertas o tomar decisiones automatizadas en procesos de negocio. En ese contexto, un error semántico bien fundamentado puede ser más peligroso que una ambigüedad evidente, porque llega más lejos antes de que alguien lo detecte.

Leone añade otra dimensión: la mayoría de las empresas no tienen la madurez de datos y gobernanza que requiere implementar una capa de ontología con rigor. Si la linaje de datos es débil, los propietarios de métricas no están definidos, o las definiciones vigentes son contradictorias, agregar una ontología no resuelve el problema; lo acelera. El grafo se alimenta de las fuentes existentes, y si esas fuentes son inconsistentes, la inconsistencia se propaga con mayor velocidad y apariencia de autoridad.

Walter añade la dimensión más silenciosa del riesgo: el mantenimiento. Una ontología no es un proyecto que se configura una vez. Es un activo vivo que necesita actualizarse cada vez que el negocio cambia, cada vez que se lanza un producto nuevo, cada vez que se redefiné una métrica o se reorganiza una unidad. Sin procesos de actualización, propiedad clara y mecanismos para resolver conflictos entre definiciones, el grafo se vuelve obsoleto. Y una ontología obsoleta con autoridad algorítmica sobre los agentes es, según Walter, "otro proyecto de metadatos estancado con un nombre más sofisticado."

Eso no invalida la apuesta de Databricks, pero sí define el terreno en el que el producto tendrá que demostrar su valor: no en la presentación en un escenario, sino en el mantenimiento operativo dentro de organizaciones con datos imperfectos y estructuras de gobernanza que todavía están madurando.

La disputa por el plano de control empresarial

Genie Ontology no existe en el vacío. Snowflake tiene Horizon Context, su propia capa semántica para agentes. Microsoft está construyendo capacidades equivalentes dentro de Copilot, Fabric y su familia IQ —Work IQ, Fabric IQ, Foundry IQ— integrando contexto de negocio y gobernanza en su infraestructura más amplia. El problema, señala Leone, es que cada proveedor bautizó de manera distinta una idea básicamente similar, y esa fragmentación terminológica ralentiza la adopción porque los equipos de CIOs no pueden comparar con claridad qué están evaluando.

Más allá de los nombres, lo que está en disputa es estructuralmente significativo. Chaturvedi lo describe como la carrera por convertirse en el plano de control de la IA empresarial: el lugar donde convergen datos, gobernanza, semántica y ejecución de agentes. La analogía histórica que usa es precisa: los sistemas ERP se convirtieron en el sistema de registro para transacciones de negocio; los almacenes de datos se convirtieron en el sistema de registro para analítica. Ahora se está definiendo qué plataforma se convierte en el sistema de registro para los agentes de IA.

Databricks está posicionando Genie Ontology dentro de una arquitectura más amplia que incluye LTAP —su propuesta de fundación para aplicaciones agénticas— y OpenSharing, diseñado para reducir los costos de integración en entornos de IA corporativa. Conectados, esos componentes apuntan a una visión que el propio Ghodsi describe como un "sistema de registro agéntico": una fuente autoritativa desde la que los agentes leen, razonan y actúan. No es un producto aislado; es una estrategia de plataforma.

La ventaja estructural de los proveedores de datos en esta carrera es real: ya poseen los datos, los controles de gobernanza, el linaje y los permisos que los agentes necesitan para operar con seguridad. Eso los pone en una posición diferente a la de un proveedor de modelos o de herramientas de orquestación. Pero esa ventaja tiene una cara menos favorable: también los hace dependientes de que sus clientes ya tengan sus datos en orden. Y para la mayoría de las empresas, eso todavía no es el caso.

Chaturvedi ofrece una heurística que simplifica la decisión para los equipos que hoy evalúan estas opciones: la capa de contexto sigue a la gravedad del dato. Si los datos viven en Databricks, Genie Ontology es el camino natural. Si están en Snowflake, lo es Horizon Context. Si la infraestructura es predominantemente Microsoft, la familia IQ es la ruta. Bhupendra Chopra, de la firma de consultoría Kanerika, refuerza ese argumento: por encima del marketing de cada plataforma, la decisión real la toma el lugar donde ya residen los datos.

Snowflake está intentando diferenciar su oferta apostando por interoperabilidad semántica abierta, lo que en teoría permite que las definiciones de negocio se muevan entre plataformas sin quedar atrapadas en el modelo de datos de un solo proveedor. Esa apuesta apunta directamente al riesgo de dependencia semántica —el equivalente al cierre de plataforma, pero aplicado al vocabulario corporativo— en entornos donde las empresas operan sobre múltiples sistemas de datos simultáneamente.

El valor se captura donde se verifica la ejecución

La narrativa dominante alrededor de estas plataformas habla de contexto, consistencia y confianza. Todas esas dimensiones importan, pero hay una que todavía no tiene una respuesta sólida en ninguna de las propuestas disponibles: cómo se verifica que lo que el agente hizo fue lo correcto.

Esa es la frontera real. No la calidad del contexto con que el agente inicia una tarea, sino la capacidad de auditar, con trazabilidad completa, qué hizo el agente, qué definiciones usó, qué datos procesó, qué lógica aplicó y si el resultado es reproducible. Walter lo resume sin ambigüedad: el próximo campo de disputa en la IA empresarial no es el contexto, sino la ejecución verificable.

Eso tiene consecuencias directas sobre dónde se captura el valor económico en esta carrera. Una ontología que mejora la consistencia semántica es un activo valioso, pero no suficiente para que una organización pueda delegar decisiones operativas con consecuencias reales —financieras, regulatorias, operativas— en agentes autónomos. Para que ese nivel de delegación ocurra, la plataforma necesita ofrecer algo más: un registro auditable de decisiones, mecanismos de corrección cuando el agente se equivoca y garantías sobre qué pasa cuando el contexto cambia y el grafo todavía no se actualizó.

Databricks está construyendo en esa dirección, aunque Genie Ontology por sí sola no responde todavía esa pregunta. Lo que el conjunto de anuncios del Data + AI Summit revela es una estrategia coherente hacia ese objetivo: datos + gobernanza + semántica + ejecución agéntica como capas integradas dentro de una sola plataforma. La coherencia de la visión es clara. La prueba de estrés llegará cuando la ontología tenga que mantenerse precisa dentro de organizaciones que cambian más rápido de lo que cualquier grafo puede actualizarse solo.

Esa tensión entre la ambición de la arquitectura y la realidad operativa de las empresas que la adoptarán es donde se decidirá si esta apuesta genera valor sostenible o si se convierte en infraestructura sofisticada sobre fundamentos que todavía no están listos para sostenerla.