Google का AI के लिए नया डेटा आर्किटेक्चर

Google ने अपनी डेटा आर्किटेक्चर को नए सिरे से डिज़ाइन किया ताकि कंपनियों में AI की विफलता रुक सके

वर्षों से, बड़े कॉर्पोरेशनों में डेटा टीमें और AI टीमें दो अलग-अलग देशों के विभागों की तरह काम करती रहीं। पहले वाले वेयरहाउस, कैटलॉग और पाइपलाइन बनाते थे। दूसरे वाले मॉडल, APIs और एजेंट तैनात करते थे। दोनों दुनियाएं मैनुअल एक्सपोर्ट, असंगत प्रक्रियाओं और इस अंधे विश्वास के ज़रिए आपस में संवाद करती थीं कि "दूसरी टीम इसे सुलझा लेगी।" नतीजा अनुमानित था: AI एजेंट प्रोडक्शन परिवेश में पहुंचते ही उस डेटा के सामने ढह जाते थे जिसे किसी ने इस तरह तैयार ही नहीं किया था कि कोई स्वायत्त मशीन उसे पढ़ सके, समझ सके और उस पर कार्रवाई कर सके।

Google Cloud Next 2026 में, Google ने उस विफलता को सटीक नाम दिया: डेटा प्लेटफ़ॉर्म और AI प्लेटफ़ॉर्म के बीच की खाई ही स्वायत्त एजेंटों की एंटरप्राइज़ तैनाती की सबसे बड़ी बाधा है। इसका जवाब था एजेंटिक डेटा क्लाउड — उनकी डेटा आर्किटेक्चर का एक गहरा पुनर्निर्माण, जो मौजूदा ढांचे के ऊपर AI की एक परत नहीं जोड़ता, बल्कि नींव को इस तरह से नए सिरे से डिज़ाइन करता है कि एजेंट एंटरप्राइज़ डेटा के प्रथम श्रेणी के उपयोगकर्ता बन सकें।

इस महत्वाकांक्षा की भिन्नता कम नहीं है। हम नए कनेक्टर्स या प्राकृतिक भाषा से समृद्ध डैशबोर्ड की बात नहीं कर रहे। हम एक संरचनात्मक पुनर्निर्माण की बात कर रहे हैं जो किसी भी Fortune 500 कंपनी को — जिसका डेटा AWS, Azure और Google Cloud के बीच बिखरा हुआ है — यह सोचने पर मजबूर करती है कि वह अपनी मौजूदा जानकारी को कैसे नियंत्रित करेगी, परोसेगी और उससे मुनाफ़ा कमाएगी।

वह निदान जिसे अधिकारी नज़रअंदाज़ करना पसंद करते हैं

एक ऐसा आंकड़ा है जो असहजता पैदा करता है: लॉन्च के साथ प्रस्तुत शोध के अनुसार, लगभग 70% कंपनियां एजेंट तैनात करने के बाद अपनी डेटा इन्फ्रास्ट्रक्चर की खामियां खोजती हैं, पहले नहीं। यह कोई तकनीकी समस्या नहीं है। यह तकनीकी भेस में एक नेतृत्व की समस्या है।

खंडित डेटा, बिना गवर्नेंस के, अलग-अलग क्लाउड के साइलो में फंसा हुआ, रात भर में प्रकट नहीं हुआ। यह वर्षों की जल्दबाज़ी में लिए गए निर्णयों, खराब तरीके से एकीकृत कॉर्पोरेट अधिग्रहणों और एक बेहद मानवीय संगठनात्मक प्रवृत्ति के कारण जमा हुआ: डेटा की वास्तविक आर्किटेक्चर पर कठिन बातचीत को इसलिए टालते रहे क्योंकि "व्यवसाय चलता रहता है।" जब तक यह काम करना बंद न कर दे।

Google द्वारा प्रस्तुत आर्किटेक्चर में छह घटक हैं जो एक-दूसरे से स्वतंत्र नहीं, बल्कि अनुक्रमिक तर्क के साथ एक प्रणाली बनाते हैं। आधार पर, मल्टी-क्लाउड डेटा लेकहाउस, Apache Iceberg के खुले प्रारूप पर निर्मित, BigQuery को AWS S3 और Azure ADLS पर संग्रहीत डेटा को बिना स्थानांतरित या प्रतिलिपि बनाए क्वेरी करने की अनुमति देता है, जिससे एग्रेस लागत और प्रतियों के बीच असंगतता का जोखिम समाप्त हो जाता है। उस आधार पर Apache Spark के लिए Lightning Engine काम करता है — C++ में वेक्टराइज़्ड एक्सीक्यूशन की एक परत जो पारंपरिक Spark की तुलना में 4.9 गुना तक प्रदर्शन प्रदान करती है। डेटा केवल सुलभ नहीं है; यह इतनी तेज़ी से प्रोसेस किया जा सकता है कि एक एजेंट के लिए लागत को आसमान छुआए बिना निरंतर चक्रों में Spark कोड उत्पन्न करना, निष्पादित करना और सुधारना व्यावहारिक हो जाता है।

उस निष्पादन इन्फ्रास्ट्रक्चर के ऊपर प्रासंगिक बुद्धिमत्ता की परत आती है: नॉलेज कैटलॉग — 10 अप्रैल 2026 को प्रस्तुत Dataplex Universal Catalog का विकास। यह वही टुकड़ा है जिस पर एंटरप्राइज़ आर्किटेक्ट्स को सबसे अधिक ध्यान देना चाहिए। कैटलॉग को डेटा टीमों की आवश्यकता नहीं है कि वे मैन्युअल रूप से एसेट्स को कैटलॉग करें। यह क्वेरी लॉग की जांच करता है, तालिकाओं को प्रोफाइल करता है, Looker जैसे टूल से सिमेंटिक मॉडल का विश्लेषण करता है और असंरचित फ़ाइलों से संस्थाओं के बीच संबंध निकालता है। परिणाम एक गतिशील ज्ञान ग्राफ है, स्वचालित रूप से बनाए रखा, जो उस प्रश्न का उत्तर देता है जिसे किसी भी एजेंट को कार्य करने से पहले हल करने की आवश्यकता होती है: कौन सा डेटा मौजूद है, उसका सटीक अर्थ क्या है और क्या वह विश्वसनीय है।

जब भंडारण निष्क्रिय रहना बंद हो जाता है

वह टुकड़ा जो डेटा की परिचालन ज्यामिति को सबसे क्रांतिकारी तरीके से बदलता है, वह है इंटेलिजेंट स्टोरेज — वर्तमान में प्रीव्यू में उपलब्ध। अब तक, Google Cloud Storage के किसी बकेट में प्रवेश करने वाली कोई फ़ाइल तब तक निष्क्रिय रहती थी जब तक कोई उसे प्रोसेस करने का निर्णय नहीं लेता। इस कार्यक्षमता के साथ, जिस क्षण कोई फ़ाइल बकेट में पहुंचती है, सिस्टम स्वचालित रूप से उसे टैग करता है, एम्बेडिंग उत्पन्न करता है, प्रासंगिक संस्थाओं को निकालता है और इसे नॉलेज कैटलॉग से जोड़ता है। PDF, अनुबंध, सपोर्ट टिकट, ऑडियो रिकॉर्डिंग: सब कुछ बिना किसी इंजीनियर के हस्तक्षेप के एक खोजने योग्य एसेट बन जाता है।

उन अधिकारियों के लिए जो असंरचित डेटा तैयारी परियोजनाओं को टालते रहे हैं — वे जो "छह महीने" निकासी, OCR, इंडेक्सिंग और कैटलॉगिंग में लेंगी — यह समय और लागत की समीकरण को इस तरह से पुनर्कॉन्फ़िगर करता है जो आरामदायक विलंब की अनुमति नहीं देता। जो पहले एक कार्यकारी प्रायोजक, अपने बजट और अनिश्चित डिलीवरी तिथि वाली परियोजना थी, अब भंडारण नीति का एक स्वचालित परिणाम बन जाती है।

Gemini 3.1 Pro पर आधारित डीप रिसर्च एजेंट, इस पूरे इन्फ्रास्ट्रक्चर के टर्मिनल उपयोग के मामले को दर्शाता है। यह नॉलेज कैटलॉग और लेकहाउस के आंतरिक स्रोतों को इंटरनेट के खुले स्रोतों के साथ संयोजित करते हुए काम करता है, संरचित अनुसंधान योजनाएं उत्पन्न करता है और मिनटों में सत्यापन योग्य उद्धरणों के साथ रिपोर्ट प्रदान करता है। ऐसे कार्य जो प्रतिस्पर्धी खुफिया, जीवन विज्ञान या वित्तीय सेवाओं जैसे क्षेत्रों में एक से तीन सप्ताह के विश्लेषक कार्य की खपत करते थे, अब शुरुआती बिंदु बन जाते हैं, न कि अंतिम बिंदु।

डेटा एजेंट किट डेवलपर पक्ष से तस्वीर को पूरा करती है। यह पूर्व-कॉन्फ़िगर MCP टूल और तीन विशेष एजेंट प्रदान करती है: एक जो प्राकृतिक भाषा के निर्देशों को BigQuery, dbt, Spark या Airflow में से चुनकर प्रबंधित पाइपलाइन में परिवर्तित करता है; दूसरा जो डेटा साइंस मॉडल के पूरे चक्र को स्वचालित करता है; और एक तीसरा इन्फ्रास्ट्रक्चर ऑब्जर्वेबिलिटी को समर्पित। मॉडल कॉन्टेक्स्ट प्रोटोकॉल एक इंटरऑपरेबिलिटी परत के रूप में कार्य करता है जो किसी भी प्रदाता के एजेंटों — Gemini, Claude, स्वयं के मॉडल — को कस्टम कनेक्टर्स के बिना डेटा एसेट्स तक पहुंचने की अनुमति देता है।

मल्टी-क्लाउड एक शिकायत रहना बंद होकर एक आर्किटेक्चर निर्णय बन जाता है

Fortune 500 में से कोई भी कंपनी विशेष रूप से Google Cloud पर काम नहीं करती। SAP, Salesforce, Workday और Oracle सिस्टम ऐतिहासिक, संविदात्मक और परिचालन कारणों से AWS और Azure के बीच वितरित हैं जिन्हें कोई CTO मेमो से हल नहीं कर सकता। वर्षों से, मल्टी-क्लाउड AI पहल को बड़े पैमाने पर आगे न बढ़ाने का आवर्ती तर्क था: "पहले हमें डेटा को समेकित करना होगा।"

मल्टी-क्लाउड डेटा लेकहाउस उस तर्क को तकनीकी विशिष्टता के साथ ध्वस्त करता है। Iceberg REST कैटलॉग, मल्टी-क्लाउड इंटरकनेक्ट और एक इंटेलिजेंट कैश परत का उपयोग करते हुए, BigQuery AWS S3 और Azure ADLS में डेटा को Google Cloud में मूल डेटा के समान विलंबता और लागत पर क्वेरी कर सकता है। एक खरीद एजेंट एकल क्वेरी में S3 में संग्रहीत अनुबंध डेटा, Azure में इन्वेंटरी और BigQuery में लेन-देन रिकॉर्ड को जोड़ सकता है, सब कुछ एकीकृत Iceberg कैटलॉग के तहत, बिना किसी इंजीनियरिंग टीम को क्लाउड के बीच ETL प्रक्रिया प्रबंधित करने की आवश्यकता के।

एकीकरण आर्किटेक्ट्स के लिए निहितार्थ रणनीतिक क्रम का है। बातचीत "हम सब कुछ एक क्लाउड पर कैसे माइग्रेट करें" से बदलकर "हम पहले से मौजूद डेटा वितरण पर एकल कैटलॉग को कैसे नियंत्रित करें" बन जाती है। यह वही बातचीत नहीं है। पहले की राजनीतिक और वित्तीय लागत अधिकांश परिपक्व संगठनों में निषेधात्मक है। दूसरी अन्य प्रदाताओं के साथ मौजूदा अनुबंधों को बाधित किए बिना निष्पादन योग्य है।

Google समग्र रूप से जो प्रस्तावित कर रहा है वह एक पैराडाइम शिफ्ट है जिसके संगठनात्मक परिणाम तकनीकी आर्किटेक्चर से परे जाते हैं। एजेंट गवर्नेंस परत के रूप में MCP को उसी अनुशासन के साथ प्रबंधित करने की आवश्यकता है जो आज एक API गेटवे पर लागू होती है: वर्शनिंग, प्रमाणीकरण, निगरानी, उपयोग सीमाएं। नॉलेज कैटलॉग एक दस्तावेज़ीकरण परियोजना नहीं रह जाता और वास्तविक समय की परिचालन निर्भरता बन जाता है, जिसका अर्थ है सेवा स्तर के समझौते, निरंतर रखरखाव और एक ऑपरेशन मॉडल जिसे डेटा टीमों ने अभी तक डिज़ाइन नहीं किया है।

किसी संगठन की संस्कृति बोर्डरूम में लगाया गया फ्रेम किया हुआ पोस्टर नहीं है, न ही वार्षिक सम्मेलन में CEO का भाषण। यह उन सभी निर्णयों का संचित योग है जो नेताओं ने तब लिए जब तय करने से ज़्यादा आसान था टालना, ज़िम्मेदारी लेने से ज़्यादा सुरक्षित था सौंपना, और तकनीकी कर्ज़ पर दोष मढ़ना ज़्यादा आसान था यह स्वीकार करने से कि डेटा आर्किटेक्चर सर्जिकल सटीकता के साथ उस शक्ति, उस भय और उन बातचीतों की आर्किटेक्चर को दर्शाती है जिन्हें कभी करने का साहस नेतृत्व में नहीं था।