Databricks et l'ontologie pour les agents IA en entreprise

Databricks mise sur l'ontologie et révèle qui contrôle le cerveau des agents d'IA d'entreprise

L'histoire de l'intelligence artificielle en entreprise peut se mesurer en couches. Les bases de données vectorielles sont arrivées en premier, permettant d'effectuer des recherches par similarité sémantique sur de grands volumes de texte. Ensuite est venue la génération augmentée par récupération — RAG, selon son acronyme anglais —, qui a combiné des modèles de langage avec des sources de connaissances externes pour réduire les hallucinations. Cette architecture a dominé les deux dernières années et est devenue le standard de facto pour construire des assistants d'entreprise.

Databricks parie désormais que cette architecture n'est pas suffisante. Lors de sa conférence annuelle Data + AI Summit, le PDG Ali Ghodsi a présenté Genie Ontology, une couche de contexte qui extrait automatiquement des définitions métier à partir de données internes, de tableaux de bord, de requêtes SQL, de documents, de pipelines et d'applications, et les organise en un graphe vivant que les agents d'IA peuvent interroger pour comprendre comment fonctionne une organisation. Le produit est en phase de prévisualisation et utilise un système de hiérarchisation inspiré du PageRank de Google pour déterminer quelle source mérite le plus d'autorité : qui a créé l'information, à quelle fréquence elle est utilisée, si elle est liée à des actifs certifiés et quand elle a été mise à jour pour la dernière fois.

Ce mouvement n'est pas seulement technique. C'est une déclaration d'intention sur qui va contrôler l'infrastructure sémantique de l'entreprise du futur, et cette dispute a des conséquences économiques de premier ordre.

De l'archive à l'autorité

Le problème que Genie Ontology tente de résoudre n'est pas nouveau. Dans toute PME ou grande entreprise, la définition du « revenu mensuel récurrent » peut différer entre les finances, les ventes et l'équipe de données. Trois départements, trois chiffres distincts pour la même métrique. Les systèmes RAG traditionnels ne résolvent pas ce problème : ils récupèrent ce qui semble similaire à la question posée, mais ne font pas la distinction entre une définition officielle et une autre qu'un employé a rédigée dans un document Google il y a trois ans.

Une ontologie, en revanche, ne se contente pas de récupérer ; elle encode des relations hiérarchiques entre concepts, établit quelle source fait autorité sur quelle définition et permet à différents agents d'IA de partager le même vocabulaire métier. Michael Leone, analyste chez Moor Insights & Strategy, le décrit clairement : une seule définition alimentant tous les agents signifie qu'on cesse de recevoir trois réponses différentes à la même question. La valeur opérationnelle de cette cohérence, dans des organisations où des décisions critiques sont prises sur la base de rapports automatisés, est considérable.

Ashish Chaturvedi, chercheur chez HFS Research, va plus loin et relie cela à l'obstacle le plus persistant de l'adoption de l'IA en entreprise : le manque de confiance. Selon son analyse, le problème central n'est pas technique mais relève de la gouvernance des connaissances. Les décideurs n'agissent pas sur les sorties de l'IA parce qu'ils ne peuvent pas retracer leur provenance ni vérifier si la chaîne de raisonnement a utilisé les bonnes sources. Une ontologie ancrée dans des définitions officielles avec une traçabilité jusqu'à la source s'attaque directement à ce déficit.

Databricks intègre également Genie Ontology à sa plateforme Unity Catalog Semantics, ce qui permet aux organisations de charger leurs propres définitions ou vocabulaires d'entreprise et de garder le contrôle sur ce qui entre dans le graphe. En interne, la société rapporte avoir généré environ 4,5 millions de fragments ontologiques lors de son propre processus de test. Cela donne une idée de l'ampleur du problème qu'ils tentent de résoudre et, en même temps, de la complexité de le maintenir à jour.

Le risque que le récit du progrès omet

Toute architecture a ses limites. Stephanie Walter, de HyperFRAME Research, identifie le maillon manquant avec précision : la vérification. Une ontologie améliore le contexte dans lequel opère un agent, mais ne garantit pas que la réponse soit correcte. Un agent peut consulter la bonne définition et appliquer malgré tout une logique erronée, omettre des lignes dans un jeu de données, mal interpréter un flux de travail ou prendre une action non souhaitée. La cohérence sémantique n'est pas la même chose que l'exactitude opérationnelle.

Cette distinction est particulièrement importante car l'horizon visé par Databricks n'est pas celui des assistants de consultation mais celui des agents qui exécutent des actions : modifier des pipelines, générer des rapports réglementaires, déclencher des alertes ou prendre des décisions automatisées dans des processus métier. Dans ce contexte, une erreur sémantique bien fondée peut être plus dangereuse qu'une ambiguïté évidente, parce qu'elle va plus loin avant que quelqu'un la détecte.

Leone ajoute une autre dimension : la plupart des entreprises n'ont pas la maturité en matière de données et de gouvernance que requiert la mise en œuvre d'une couche d'ontologie avec rigueur. Si la lignée des données est faible, si les propriétaires de métriques ne sont pas définis ou si les définitions en vigueur sont contradictoires, ajouter une ontologie ne résout pas le problème ; cela l'accélère. Le graphe se nourrit des sources existantes, et si ces sources sont incohérentes, l'incohérence se propage plus rapidement et avec une apparence d'autorité.

Walter ajoute la dimension la plus silencieuse du risque : la maintenance. Une ontologie n'est pas un projet que l'on configure une fois pour toutes. C'est un actif vivant qui doit être mis à jour chaque fois que l'activité change, chaque fois qu'un nouveau produit est lancé, chaque fois qu'une métrique est redéfinie ou qu'une unité est réorganisée. Sans processus de mise à jour, une propriété claire et des mécanismes pour résoudre les conflits entre définitions, le graphe devient obsolète. Et une ontologie obsolète dotée d'une autorité algorithmique sur les agents est, selon Walter, « un autre projet de métadonnées enlisé avec un nom plus sophistiqué. »

Cela n'invalide pas le pari de Databricks, mais définit bien le terrain sur lequel le produit devra démontrer sa valeur : non pas lors d'une présentation sur scène, mais dans la maintenance opérationnelle au sein d'organisations aux données imparfaites et aux structures de gouvernance encore en cours de maturation.

La dispute pour le plan de contrôle de l'entreprise

Genie Ontology n'existe pas dans le vide. Snowflake dispose de Horizon Context, sa propre couche sémantique pour les agents. Microsoft construit des capacités équivalentes au sein de Copilot, Fabric et de sa famille IQ — Work IQ, Fabric IQ, Foundry IQ — en intégrant le contexte métier et la gouvernance dans son infrastructure plus large. Le problème, souligne Leone, est que chaque fournisseur a baptisé différemment une idée fondamentalement similaire, et cette fragmentation terminologique ralentit l'adoption parce que les équipes des DSI ne peuvent pas comparer clairement ce qu'elles évaluent.

Au-delà des noms, ce qui est en jeu est structurellement significatif. Chaturvedi le décrit comme la course pour devenir le plan de contrôle de l'IA d'entreprise : le lieu où convergent données, gouvernance, sémantique et exécution des agents. L'analogie historique qu'il utilise est précise : les systèmes ERP sont devenus le système d'enregistrement pour les transactions métier ; les entrepôts de données sont devenus le système d'enregistrement pour l'analytique. On est maintenant en train de définir quelle plateforme devient le système d'enregistrement pour les agents d'IA.

Databricks positionne Genie Ontology au sein d'une architecture plus large qui comprend LTAP — sa proposition de fondation pour les applications agentiques — et OpenSharing, conçu pour réduire les coûts d'intégration dans les environnements d'IA d'entreprise. Connectés, ces composants visent une vision que Ghodsi lui-même décrit comme un « système d'enregistrement agentique » : une source faisant autorité depuis laquelle les agents lisent, raisonnent et agissent. Ce n'est pas un produit isolé ; c'est une stratégie de plateforme.

L'avantage structurel des fournisseurs de données dans cette course est réel : ils possèdent déjà les données, les contrôles de gouvernance, la lignée et les permissions dont les agents ont besoin pour opérer en toute sécurité. Cela les place dans une position différente de celle d'un fournisseur de modèles ou d'outils d'orchestration. Mais cet avantage a une face moins favorable : il les rend également dépendants du fait que leurs clients aient déjà leurs données en ordre. Et pour la majorité des entreprises, ce n'est pas encore le cas.

Chaturvedi offre une heuristique qui simplifie la décision pour les équipes qui évaluent ces options aujourd'hui : la couche de contexte suit la gravité de la donnée. Si les données résident dans Databricks, Genie Ontology est la voie naturelle. Si elles sont dans Snowflake, c'est Horizon Context. Si l'infrastructure est principalement Microsoft, la famille IQ est la route à suivre. Bhupendra Chopra, du cabinet de conseil Kanerika, renforce cet argument : au-delà du marketing de chaque plateforme, la décision réelle est prise en fonction de l'endroit où les données résident déjà.

Snowflake tente de différencier son offre en misant sur l'interopérabilité sémantique ouverte, ce qui permet en théorie aux définitions métier de circuler entre les plateformes sans être piégées dans le modèle de données d'un seul fournisseur. Ce pari vise directement le risque de dépendance sémantique — l'équivalent de l'enfermement propriétaire, mais appliqué au vocabulaire d'entreprise — dans des environnements où les entreprises opèrent simultanément sur plusieurs systèmes de données.

La valeur se capture là où l'exécution est vérifiée

Le récit dominant autour de ces plateformes parle de contexte, de cohérence et de confiance. Toutes ces dimensions importent, mais il en est une qui n'a encore de réponse solide dans aucune des propositions disponibles : comment vérifier que ce que l'agent a fait était correct.

C'est là la véritable frontière. Non pas la qualité du contexte avec lequel l'agent commence une tâche, mais la capacité d'auditer, avec une traçabilité complète, ce que l'agent a fait, quelles définitions il a utilisées, quelles données il a traitées, quelle logique il a appliquée et si le résultat est reproductible. Walter le résume sans ambiguïté : le prochain champ de bataille de l'IA d'entreprise n'est pas le contexte, mais l'exécution vérifiable.

Cela a des conséquences directes sur l'endroit où la valeur économique est capturée dans cette course. Une ontologie qui améliore la cohérence sémantique est un actif précieux, mais insuffisant pour qu'une organisation puisse déléguer des décisions opérationnelles aux conséquences réelles — financières, réglementaires, opérationnelles — à des agents autonomes. Pour que ce niveau de délégation se produise, la plateforme doit offrir davantage : un registre auditable des décisions, des mécanismes de correction lorsque l'agent se trompe et des garanties sur ce qui se passe lorsque le contexte change et que le graphe n'a pas encore été mis à jour.

Databricks construit dans cette direction, même si Genie Ontology seul ne répond pas encore à cette question. Ce que l'ensemble des annonces du Data + AI Summit révèle est une stratégie cohérente vers cet objectif : données + gouvernance + sémantique + exécution agentique comme couches intégrées au sein d'une seule plateforme. La cohérence de la vision est claire. L'épreuve de résistance viendra lorsque l'ontologie devra rester précise au sein d'organisations qui évoluent plus vite que n'importe quel graphe ne peut se mettre à jour seul.

C'est dans cette tension entre l'ambition de l'architecture et la réalité opérationnelle des entreprises qui l'adopteront que se décidera si ce pari génère une valeur durable ou s'il devient une infrastructure sophistiquée reposant sur des fondements qui ne sont pas encore prêts à la soutenir.

Databricks mise sur l'ontologie et révèle qui contrôle le cerveau des agents d'IA en entreprise

Databricks mise sur l'ontologie et révèle qui contrôle le cerveau des agents d'IA d'entreprise

De l'archive à l'autorité

Le risque que le récit du progrès omet

La dispute pour le plan de contrôle de l'entreprise

La valeur se capture là où l'exécution est vérifiée

Vous pourriez aussi aimer

L'amnésie des systèmes d'IA n'est pas un problème de modèles, c'est un problème d'infrastructure

L'Inde a découvert qu'elle ne contrôle pas l'interrupteur de sa propre économie numérique

Pourquoi 95% des projets d'IA en entreprise ne survivent pas au pilote

Cent milliards de tokens et aucun DAF ne sait ce qu'il a acheté

La couche que personne n'a construite et que l'IA ne peut pas improviser

IBM parie que la souveraineté opérationnelle sera le terrain où se gagnera l'IA d'entreprise