Databricks और AI एजेंट्स का ऑन्टोलॉजी दांव

Databricks ने ऑन्टोलॉजी पर दांव लगाया और खुलासा किया कि एंटरप्राइज़ AI एजेंट्स के दिमाग को कौन नियंत्रित करता है

एंटरप्राइज़ आर्टिफिशियल इंटेलिजेंस की कहानी को परतों में मापा जा सकता है। पहले आईं वेक्टर डेटाबेस, जिन्होंने बड़े पैमाने पर टेक्स्ट वॉल्यूम पर सिमेंटिक समानता के आधार पर खोज करना संभव बनाया। फिर आई रिट्रीवल-ऑगमेंटेड जनरेशन — जिसे अंग्रेज़ी में RAG कहते हैं — जिसने लैंग्वेज मॉडल्स को बाहरी ज्ञान स्रोतों के साथ जोड़कर हैलुसिनेशन को कम किया। यह आर्किटेक्चर पिछले दो वर्षों में हावी रहा और कॉर्पोरेट असिस्टेंट बनाने के लिए वास्तविक मानक बन गया।

अब Databricks यह दांव लगा रही है कि वह आर्किटेक्चर पर्याप्त नहीं है। अपने वार्षिक Data + AI Summit सम्मेलन में CEO अली घोड्सी ने Genie Ontology प्रस्तुत किया — एक कॉन्टेक्स्ट लेयर जो आंतरिक डेटा, डैशबोर्ड, SQL क्वेरीज़, दस्तावेज़ों, पाइपलाइनों और ऐप्लिकेशन से स्वचालित रूप से व्यावसायिक परिभाषाएं निकालती है और उन्हें एक जीवंत ग्राफ में व्यवस्थित करती है जिसे AI एजेंट्स किसी संगठन के संचालन को समझने के लिए क्वेरी कर सकते हैं। यह उत्पाद प्रीव्यू चरण में है और Google के PageRank से प्रेरित एक श्रेणीकरण प्रणाली का उपयोग करता है, जो यह निर्धारित करता है कि किस स्रोत को अधिक अधिकार मिलना चाहिए: किसने जानकारी बनाई, इसका कितना उपयोग होता है, क्या यह प्रमाणित एसेट्स से जुड़ी है और इसे आखिरी बार कब अपडेट किया गया था।

यह कदम केवल तकनीकी नहीं है। यह इरादों की एक घोषणा है — इस बारे में कि भविष्य की कंपनी की सिमेंटिक इंफ्रास्ट्रक्चर को कौन नियंत्रित करेगा, और उस विवाद के पहले दर्जे के आर्थिक परिणाम हैं।

फ़ाइल से अधिकार तक

जिस समस्या को Genie Ontology हल करने की कोशिश कर रहा है वह नई नहीं है। किसी भी मध्यम या बड़ी कंपनी में "मासिक आवर्ती राजस्व" की परिभाषा वित्त, बिक्री और डेटा टीम के बीच अलग-अलग हो सकती है। तीन विभाग, एक ही मेट्रिक के लिए तीन अलग-अलग संख्याएं। पारंपरिक RAG सिस्टम इसे हल नहीं करते: वे वही पुनः प्राप्त करते हैं जो प्रश्न के समान लगता है, लेकिन एक आधिकारिक परिभाषा और किसी ऐसे व्यक्ति द्वारा तीन साल पहले Google दस्तावेज़ में लिखी गई परिभाषा के बीच अंतर नहीं कर सकते।

दूसरी तरफ, एक ऑन्टोलॉजी केवल पुनः प्राप्त नहीं करती; यह अवधारणाओं के बीच श्रेणीबद्ध संबंधों को एन्कोड करती है, यह स्थापित करती है कि किस स्रोत का किस परिभाषा पर अधिकार है और विभिन्न AI एजेंट्स को एक ही व्यावसायिक शब्दावली साझा करने देती है। Moor Insights & Strategy के विश्लेषक माइकल लियोन इसे स्पष्ट रूप से वर्णित करते हैं: एक ही परिभाषा सभी एजेंट्स को पोषित करती है, जिसका मतलब है कि एक ही प्रश्न के तीन अलग-अलग उत्तर मिलना बंद हो जाते हैं। उस स्थिरता का परिचालन मूल्य उन संगठनों में उच्च है जहां स्वचालित रिपोर्ट के आधार पर महत्वपूर्ण निर्णय लिए जाते हैं।

HFS Research के शोधकर्ता आशीष चतुर्वेदी और आगे जाते हैं और इसे कॉर्पोरेट AI अपनाने की सबसे लगातार बनी रहने वाली बाधा से जोड़ते हैं: विश्वास की कमी। उनके विश्लेषण के अनुसार, केंद्रीय समस्या तकनीकी नहीं बल्कि ज्ञान प्रशासन की है। निर्णय लेने वाले AI आउटपुट पर कार्रवाई नहीं करते क्योंकि वे यह नहीं जान सकते कि वे कहां से आए हैं या यह सत्यापित नहीं कर सकते कि तर्क श्रृंखला ने सही स्रोतों का उपयोग किया था। आधिकारिक परिभाषाओं में लंगर डाली गई स्रोत तक पूर्ण ट्रेसेबिलिटी वाली एक ऑन्टोलॉजी उस कमी पर सीधे हमला करती है।

Databricks Genie Ontology को अपने Unity Catalog Semantics प्लेटफ़ॉर्म के साथ भी एकीकृत करती है, जो संगठनों को अपनी परिभाषाएं या कॉर्पोरेट शब्दावली अपलोड करने और यह नियंत्रण बनाए रखने की अनुमति देता है कि ग्राफ में क्या प्रवेश करता है। आंतरिक रूप से, कंपनी अपनी परीक्षण प्रक्रिया के दौरान लगभग 45 लाख ऑन्टोलॉजिकल फ्रैगमेंट उत्पन्न करने की रिपोर्ट करती है। इससे उस समस्या के पैमाने का अंदाज़ा लगता है जिसे वे हल करने की कोशिश कर रहे हैं और साथ ही इसे अपडेट रखने की जटिलता का भी।

वह जोखिम जिसे प्रगति की कहानी नज़रअंदाज़ करती है

हर आर्किटेक्चर की अपनी सीमाएं होती हैं। HyperFRAME Research की स्टेफ़नी वॉल्टर लापता कड़ी को सटीकता के साथ पहचानती हैं: सत्यापन। एक ऑन्टोलॉजी उस संदर्भ को बेहतर बनाती है जिसमें एक एजेंट काम करता है, लेकिन यह गारंटी नहीं देती कि उत्तर सही है। एक एजेंट सही परिभाषा की क्वेरी कर सकता है और फिर भी गलत तर्क लागू कर सकता है, किसी डेटासेट में पंक्तियां छोड़ सकता है, किसी वर्कफ़्लो को गलत समझ सकता है या कोई अवांछित कार्रवाई कर सकता है। सिमेंटिक स्थिरता परिचालन शुद्धता के समान नहीं है।

यह अंतर विशेष रूप से महत्वपूर्ण है क्योंकि Databricks जिस क्षितिज की ओर इशारा कर रही है वह क्वेरी असिस्टेंट नहीं बल्कि ऐसे एजेंट हैं जो कार्रवाई करते हैं: पाइपलाइन संशोधित करना, नियामक रिपोर्ट उत्पन्न करना, अलर्ट ट्रिगर करना या व्यावसायिक प्रक्रियाओं में स्वचालित निर्णय लेना। उस संदर्भ में, एक अच्छी तरह से प्रमाणित सिमेंटिक त्रुटि एक स्पष्ट अस्पष्टता से अधिक खतरनाक हो सकती है, क्योंकि किसी के उसे पकड़ने से पहले वह और आगे तक पहुंच जाती है।

लियोन एक और आयाम जोड़ते हैं: अधिकांश कंपनियों में डेटा और प्रशासन की वह परिपक्वता नहीं है जो कठोरता के साथ एक ऑन्टोलॉजी लेयर लागू करने के लिए आवश्यक है। यदि डेटा वंशावली कमज़ोर है, मेट्रिक्स के मालिक परिभाषित नहीं हैं, या मौजूदा परिभाषाएं विरोधाभासी हैं, तो ऑन्टोलॉजी जोड़ने से समस्या हल नहीं होती; यह उसे तेज़ करती है। ग्राफ मौजूदा स्रोतों से पोषित होता है, और यदि वे स्रोत असंगत हैं, तो असंगतता अधिक गति और अधिकार के आभास के साथ फैलती है।

वॉल्टर जोखिम का सबसे मूक आयाम जोड़ती हैं: रखरखाव। एक ऑन्टोलॉजी कोई ऐसा प्रोजेक्ट नहीं है जिसे एक बार कॉन्फ़िगर किया जाए। यह एक जीवंत एसेट है जिसे हर बार अपडेट करने की आवश्यकता है जब व्यवसाय बदलता है, हर बार जब कोई नया उत्पाद लॉन्च होता है, हर बार जब किसी मेट्रिक को फिर से परिभाषित किया जाता है या कोई इकाई पुनर्गठित होती है। अपडेट प्रक्रियाओं, स्पष्ट स्वामित्व और परिभाषाओं के बीच टकराव हल करने के तंत्र के बिना, ग्राफ पुराना पड़ जाता है। और एजेंट्स पर एल्गोरिदमिक अधिकार रखने वाली एक पुरानी ऑन्टोलॉजी, वॉल्टर के अनुसार, "एक अधिक परिष्कृत नाम के साथ एक और रुका हुआ मेटाडेटा प्रोजेक्ट" है।

इससे Databricks का दांव अमान्य नहीं होता, लेकिन यह उस ज़मीन को परिभाषित करता है जिस पर उत्पाद को अपना मूल्य साबित करना होगा: किसी मंच पर प्रस्तुति में नहीं, बल्कि अपूर्ण डेटा और अभी भी परिपक्व हो रही प्रशासन संरचनाओं वाले संगठनों के भीतर परिचालन रखरखाव में।

एंटरप्राइज़ कंट्रोल प्लेन के लिए विवाद

Genie Ontology शून्य में अस्तित्व नहीं रखता। Snowflake के पास Horizon Context है, एजेंट्स के लिए अपनी सिमेंटिक लेयर। Microsoft Copilot, Fabric और अपने IQ परिवार — Work IQ, Fabric IQ, Foundry IQ — के भीतर समतुल्य क्षमताएं बना रहा है, जो व्यावसायिक संदर्भ और प्रशासन को अपने व्यापक बुनियादी ढांचे में एकीकृत कर रहा है। लियोन के अनुसार, समस्या यह है कि प्रत्येक प्रदाता ने मूल रूप से समान विचार को अलग नाम दे दिया है, और यह शब्दावली विखंडन अपनाने को धीमा करता है क्योंकि CIO टीमें स्पष्ट रूप से तुलना नहीं कर सकतीं कि वे क्या मूल्यांकन कर रही हैं।

नामों से परे, जो दांव पर है वह संरचनात्मक रूप से महत्वपूर्ण है। चतुर्वेदी इसे एंटरप्राइज़ AI का कंट्रोल प्लेन बनने की दौड़ के रूप में वर्णित करते हैं: वह स्थान जहां डेटा, प्रशासन, सिमेंटिक्स और एजेंट निष्पादन एकत्रित होते हैं। वे जो ऐतिहासिक सादृश्य उपयोग करते हैं वह सटीक है: ERP सिस्टम व्यावसायिक लेनदेन के लिए रिकॉर्ड की प्रणाली बन गए; डेटा वेयरहाउस एनालिटिक्स के लिए रिकॉर्ड की प्रणाली बन गए। अब यह परिभाषित हो रहा है कि कौन सा प्लेटफ़ॉर्म AI एजेंट्स के लिए रिकॉर्ड की प्रणाली बनता है।

Databricks Genie Ontology को एक व्यापक आर्किटेक्चर के भीतर स्थापित कर रही है जिसमें LTAP — एजेंटिक ऐप्लिकेशन के लिए उसका फाउंडेशन प्रस्ताव — और OpenSharing शामिल हैं, जो कॉर्पोरेट AI वातावरण में एकीकरण लागत को कम करने के लिए डिज़ाइन किया गया है। एक साथ जुड़कर, ये घटक एक ऐसे दृष्टिकोण की ओर इशारा करते हैं जिसे स्वयं घोड्सी एक "एजेंटिक रिकॉर्ड सिस्टम" के रूप में वर्णित करते हैं: एक आधिकारिक स्रोत जिससे एजेंट पढ़ते हैं, तर्क करते हैं और कार्रवाई करते हैं। यह कोई अलग उत्पाद नहीं है; यह एक प्लेटफ़ॉर्म रणनीति है।

इस दौड़ में डेटा प्रदाताओं का संरचनात्मक लाभ वास्तविक है: उनके पास पहले से ही वह डेटा, प्रशासन नियंत्रण, वंशावली और अनुमतियां हैं जो एजेंट्स को सुरक्षित रूप से संचालित करने के लिए चाहिए। यह उन्हें किसी मॉडल प्रदाता या ऑर्केस्ट्रेशन टूल प्रदाता से अलग स्थिति में रखता है। लेकिन उस लाभ का एक कम अनुकूल पहलू भी है: यह उन्हें इस पर भी निर्भर बनाता है कि उनके ग्राहकों का डेटा पहले से व्यवस्थित हो। और अधिकांश कंपनियों के लिए, यह अभी भी ऐसा नहीं है।

चतुर्वेदी एक ऐसी व्यावहारिक युक्ति प्रस्तुत करते हैं जो उन टीमों के लिए निर्णय को सरल बनाती है जो आज इन विकल्पों का मूल्यांकन कर रही हैं: कॉन्टेक्स्ट लेयर डेटा के गुरुत्वाकर्षण का अनुसरण करती है। यदि डेटा Databricks में है, तो Genie Ontology स्वाभाविक रास्ता है। यदि Snowflake में है, तो Horizon Context। यदि बुनियादी ढांचा मुख्यतः Microsoft का है, तो IQ परिवार वह मार्ग है। परामर्श फर्म Kanerika के भूपेंद्र चोपड़ा उस तर्क को मज़बूत करते हैं: प्रत्येक प्लेटफ़ॉर्म की मार्केटिंग से ऊपर, असली निर्णय उस स्थान द्वारा किया जाता है जहां डेटा पहले से निवास करता है।

Snowflake खुले सिमेंटिक इंटरऑपरेबिलिटी पर दांव लगाकर अपनी पेशकश को अलग करने की कोशिश कर रहा है, जो सैद्धांतिक रूप से व्यावसायिक परिभाषाओं को एकल प्रदाता के डेटा मॉडल में फंसे बिना प्लेटफ़ॉर्म के बीच स्थानांतरित होने देता है। यह दांव सिमेंटिक निर्भरता के जोखिम को सीधे लक्षित करता है — प्लेटफ़ॉर्म लॉक-इन के बराबर, लेकिन कॉर्पोरेट शब्दावली पर लागू — उन वातावरणों में जहां कंपनियां एक साथ कई डेटा सिस्टम पर काम करती हैं।

मूल्य वहां कैप्चर होता है जहां निष्पादन सत्यापित होता है

इन प्लेटफ़ॉर्म के आसपास की प्रमुख कहानी संदर्भ, स्थिरता और विश्वास के बारे में बात करती है। ये सभी आयाम महत्वपूर्ण हैं, लेकिन एक ऐसा आयाम है जिसका अभी तक उपलब्ध किसी भी प्रस्ताव में ठोस उत्तर नहीं है: यह सत्यापित कैसे किया जाए कि एजेंट ने जो किया वह सही था।

यही असली सीमा है। वह संदर्भ नहीं जिससे एजेंट कोई कार्य शुरू करता है, बल्कि यह क्षमता कि पूर्ण ट्रेसेबिलिटी के साथ ऑडिट किया जा सके कि एजेंट ने क्या किया, किन परिभाषाओं का उपयोग किया, किस डेटा को संसाधित किया, किस तर्क को लागू किया और क्या परिणाम पुनरुत्पादनीय है। वॉल्टर इसे बिना किसी अस्पष्टता के सारांशित करती हैं: एंटरप्राइज़ AI में विवाद का अगला क्षेत्र संदर्भ नहीं बल्कि सत्यापन योग्य निष्पादन है।

इसके इस दौड़ में आर्थिक मूल्य कहां कैप्चर होता है, इस पर सीधे परिणाम हैं। एक ऑन्टोलॉजी जो सिमेंटिक स्थिरता में सुधार करती है वह एक मूल्यवान एसेट है, लेकिन यह किसी संगठन के लिए वास्तविक परिणामों — वित्तीय, नियामक, परिचालन — वाले परिचालन निर्णयों को स्वायत्त एजेंट्स को सौंपने के लिए पर्याप्त नहीं है। उस स्तर का प्रत्यायोजन होने के लिए, प्लेटफ़ॉर्म को कुछ और प्रदान करने की आवश्यकता है: निर्णयों का एक ऑडिट करने योग्य रिकॉर्ड, एजेंट के गलत होने पर सुधार के तंत्र और इस बारे में गारंटी कि जब संदर्भ बदलता है और ग्राफ अभी तक अपडेट नहीं हुआ तो क्या होता है।

Databricks उस दिशा में निर्माण कर रही है, हालांकि Genie Ontology अकेले उस प्रश्न का अभी तक उत्तर नहीं देता। Data + AI Summit की घोषणाओं का पूरा सेट जो रणनीति प्रकट करता है वह उस लक्ष्य की ओर सुसंगत है: डेटा + प्रशासन + सिमेंटिक्स + एजेंटिक निष्पादन एकल प्लेटफ़ॉर्म के भीतर एकीकृत परतों के रूप में। दृष्टिकोण की सुसंगतता स्पष्ट है। तनाव परीक्षण तब आएगा जब ऑन्टोलॉजी को उन संगठनों के भीतर सटीक बनाए रखना होगा जो किसी भी ग्राफ के अपने आप अपडेट होने से तेज़ बदलते हैं।

वास्तुकला की महत्वाकांक्षा और उन कंपनियों की परिचालन वास्तविकता के बीच वह तनाव जो इसे अपनाएंगी — यहीं यह तय होगा कि यह दांव स्थायी मूल्य उत्पन्न करता है या परिष्कृत बुनियादी ढांचा बन जाता है जो ऐसी नींव पर टिका है जो अभी इसे संभालने के लिए तैयार नहीं है।