91% कंपनियां AI को बिना डेटा जागरूकता अपनाती हैं

91% कंपनियाँ बिना यह जाने AI अपना रही हैं कि वे उसे क्या डेटा दे रही हैं

जेनरेटिव आर्टिफिशियल इंटेलिजेंस अधिकांश संगठनों तक टेक्नोलॉजी विभाग के रास्ते नहीं, बल्कि प्रोडक्टिविटी एप्लिकेशन के पिछले दरवाज़े से पहुँची। Microsoft 365 Copilot, Gemini, और कोलैबोरेशन प्लेटफ़ॉर्म में एकीकृत असिस्टेंट — ये सभी टूल उन कॉर्पोरेट परिवेशों में सक्रिय हो गए जहाँ कर्मचारी पहले से काम कर रहे थे, और इसी के साथ एक मूक प्रयोग शुरू हो गया, जिसकी शर्तें किसी ने पूरी तरह से तय नहीं की थीं।

समस्या भाषा मॉडलों में नहीं है। समस्या वहाँ है जो ये मॉडल किसी वास्तविक संगठन से जुड़ने पर पाते हैं।

Huble की AI डेटा तैयारी पर रिपोर्ट के अनुसार, केवल 8.6% कंपनियाँ खुद को आर्टिफिशियल इंटेलिजेंस के साथ काम करने के लिए पूरी तरह तैयार मानती हैं। शेष 91% प्रयोग और ठहराव के बीच किसी न किसी बिंदु पर हैं, बावजूद इसके कि उन्होंने अडॉप्शन प्रोजेक्ट में बजट, समय और आंतरिक प्रतिष्ठा झोंक दी है। Deloitte की 2026 की एंटरप्राइज़ AI स्थिति रिपोर्ट में दर्ज है कि दो-तिहाई संगठनों ने प्रोडक्टिविटी लाभ बताए, लेकिन साथ ही इन्फ्रास्ट्रक्चर, डेटा प्रबंधन, प्रतिभा और जोखिम नियंत्रण में स्थायी कमियाँ भी दर्ज की गई हैं। 2025 में कर्मचारियों की AI टूल तक पहुँच 50% बढ़ी। उस पहुँच को प्रबंधित करने की तैयारी उसी गति से नहीं बढ़ी।

यह खाई आकस्मिक नहीं है। यह संरचनात्मक है। और इसका एक कारण है जिसे बहुत कम संगठन बिना लाग-लपेट के नाम लेने को तैयार हैं: कॉर्पोरेट डेटा अधिकांशतः अव्यवस्थित अवस्था में है।

जब कोई नहीं देख रहा होता तो असिस्टेंट को क्या मिलता है

जब कोई कंपनी अपने प्रोडक्टिविटी परिवेश में AI कोपायलट सक्रिय करती है, तो वह सिस्टम नए एक्सेस दरवाज़े नहीं बनाता। वह पहले से मौजूद दरवाज़ों का उपयोग करता है। यह उस यूज़र के इनहेरिटेड परमिशन के साथ काम करता है जो इसे सक्रिय करता है और ठीक वहाँ तक पहुँचता है जहाँ वह यूज़र पहुँच सकता है — एक संचालन संबंधी अंतर के साथ जो सब कुछ बदल देता है: यह मशीन की गति से करता है।

Microsoft इस कामकाज को सटीकता के साथ दस्तावेज़ीकृत करता है। Copilot की आर्किटेक्चर स्थापित करती है कि सिस्टम सेवा के दायरे में काम करता है, प्रमाणित यूज़र और उस व्यक्ति को अधिकृत सामग्री तक सीमित। यह परमिशन तोड़ता नहीं। वह उन्हें क्रियान्वित करता है। और यहीं वह बिंदु है जिसे कई सुरक्षा टीमों ने पर्याप्त स्पष्टता से नहीं आँका था: यदि परमिशन जितनी होनी चाहिए थी उससे अधिक खुले हैं, तो एक अकेला प्रॉम्प्ट वह पुनः प्राप्त कर सकता है जिसके लिए पहले दर्जनों बिखरी हुई मैनुअल खोजें आवश्यक होती थीं।

वर्षों की साझा फ़ोल्डर जो कभी बंद नहीं हुईं। एक बार के विश्लेषण के लिए कॉपी की गई फ़ाइलें जो व्यक्तिगत ड्राइव में रह गईं। बिना वर्गीकृत किए संग्रहीत संवेदनशील अटैचमेंट वाले ईमेल। दस्तावेज़ रिपॉजिटरी जो ऐसे रिकॉर्ड जमा करती रहती हैं जिन्हें कोई नहीं हटाता क्योंकि किसी को याद नहीं रहता कि वे मौजूद हैं। यही वह वास्तविक कच्चा माल है जिसके साथ AI असिस्टेंट काम करता है जब वह ऐसे संगठन से जुड़ता है जिसने एक्सेस सक्षम करने से पहले अपने परिवेश का ऑडिट नहीं किया।

जोखिम भाषा मॉडल से नहीं उत्पन्न होता। यह उस डेटा आर्किटेक्चर से उत्पन्न होता है जिसे मॉडल विरासत में पाता है।

यहाँ सुरक्षा टीमों को एक विज़िबिलिटी समस्या का सामना करना पड़ता है जिसे उनके पारंपरिक टूल हल नहीं करते। डेटा लॉस प्रिवेंशन को निकास बिंदुओं की निगरानी के लिए डिज़ाइन किया गया था। आइडेंटिटी मैनेजमेंट सिस्टम भूमिकाओं और परमिशन को प्रशासित करते हैं। एक्टिविटी लॉग उन घटनाओं को दस्तावेज़ीकृत करते हैं जो पहले ही घट चुकी हैं। इनमें से कोई भी टूल यह मैप करने के लिए नहीं बनाया गया था कि एक AI क्वेरी दस्तावेज़ों, मेलबॉक्स, डेटाबेस और नॉलेज रिपॉजिटरी को एक ही इंटरैक्शन में पार करने पर क्या होता है, जिससे एक ऐसी प्रतिक्रिया उत्पन्न होती है जो सूचना के उन टुकड़ों को जोड़ती है जो पहले कभी जुड़े नहीं थे।

उस क्रॉस से जो उभरता है वह पूरी तरह वैध हो सकता है। यह संवेदनशील डेटा का एक ऐसा संकेंद्रण भी हो सकता है जिसकी किसी पूर्व नियंत्रण ने कल्पना नहीं की थी।

मॉडल से पहले इन्फ्रास्ट्रक्चर को नज़रअंदाज़ करने की छुपी हुई कीमत

एंटरप्राइज़ में AI अडॉप्शन पर प्रमुख कथा में एक मूलभूत विकृति है: यह बातचीत को मॉडल, इंटरफ़ेस और उपयोग के मामलों पर केंद्रित करती है, और पृष्ठभूमि में यह प्रश्न छोड़ देती है कि इन निर्णयों को कौन सा डेटा खिला रहा है और किन परिस्थितियों में — व्यवस्था, वर्गीकरण और शासन के संदर्भ में।

Gartner का अनुमान है कि 63% संगठनों के पास AI प्रोजेक्ट को बनाए रखने के लिए आवश्यक डेटा प्रबंधन प्रथाएँ नहीं हैं। यह संख्या यह समझाने में मदद करती है कि इतने सारे डिप्लॉयमेंट प्रोडक्शन तक पहुँचने से पहले क्यों रुक जाते हैं — मॉडल की सीमाओं या बजट की कमी के कारण नहीं, बल्कि इसलिए कि अंतर्निहित डेटा इन्फ्रास्ट्रक्चर उसे बनाए नहीं रख सकता जो मॉडल को सुसंगत रूप से संचालित करने के लिए आवश्यक है।

इस अंतराल के प्रत्यक्ष वित्तीय परिणाम हैं। जो संगठन पहले डेटा परत को सुलझाए बिना लाइसेंस, प्रशिक्षण और प्रक्रिया परिवर्तन में निवेश करते हैं, वे उस क्षमता के लिए भुगतान कर रहे हैं जिसे वे विश्वसनीय तरीके से उपयोग नहीं कर सकते। इससे भी बुरा: वे ऐसे एक्सपोज़र को स्वीकार कर रहे हैं जिसे वे माप नहीं सकते। यदि AI सिस्टम बिना वर्गीकृत डेटा पर, अत्यधिक परमिशन के साथ और इस बात के अपडेटेड इन्वेंटरी के बिना काम करते हैं कि क्या कहाँ है, तो रेगुलेटरी एक्सपोज़र की खिड़की उन तरीकों से विस्तारित होती है जिन्हें ऑडिटर और कानूनी टीमें अभी भी मापना सीख रही हैं।

Persistent Systems, इस क्षेत्र में विशेषज्ञ अन्य प्रदाताओं के बीच, अपने समाधानों को तीन सटीक धुरियों के इर्द-गिर्द संरचित करता है: इन्फ्रास्ट्रक्चर ऑप्टिमाइज़ेशन, डेटा गुणवत्ता और AI वर्कलोड का सुरक्षित स्केल। यह क्रम आकस्मिक नहीं है। स्केल अंत में आता है, शुरुआत में नहीं।

Astutis 2026 की अपनी रिपोर्ट में दस्तावेज़ीकृत करता है कि अधिकांश कर्मचारी उम्मीद करते हैं कि AI पाँच साल के भीतर उनके कार्यों पर महत्वपूर्ण प्रभाव डालेगी, लेकिन केवल एक छोटा अंश आज इसे सक्रिय रूप से उपयोग करता है। इसका कारण सांस्कृतिक प्रतिरोध नहीं है। यह है कि खराब तरीके से तैयार कॉर्पोरेट परिवेशों में AI टूल के साथ वास्तविक अनुभव ठोस घर्षण उत्पन्न करते हैं: असंगत प्रतिक्रियाएँ, ऐसे परिणाम जो विभिन्न संदर्भों की जानकारी को मिलाते हैं, यह अनिश्चितता कि सिस्टम जो लौटाता है वह भरोसेमंद है या नहीं। वे घर्षण मॉडल को बेहतर बनाकर हल नहीं होते। वे डेटा को ठीक करके हल होते हैं।

AI को उसी तरह शासित करें जैसे उच्च-जोखिम पहचान को किया जाता है

एक वैचारिक बदलाव है जिसे इस क्षेत्र में सबसे उन्नत संगठन पहले से क्रियान्वित कर रहे हैं, और जो बाकी को अंततः करना होगा: AI एजेंटों को शासित पहचान के रूप में व्यवहार करना, न कि यूज़र टूल के रूप में।

जब कोई कोपायलट या ऑटोमेशन एजेंट कॉर्पोरेट सिस्टम तक पहुँचता है, तो वह सर्विस अकाउंट, प्रोग्रामिंग इंटरफ़ेस और यूज़र संदर्भों के माध्यम से ऐसा करता है। इसके पास परमिशन हैं। यह डेटा पर कार्य करता है। यह ऐसे आउटपुट उत्पन्न करता है जिनमें संवेदनशील जानकारी हो सकती है। इन सभी कारणों से, इसे किसी भी उच्च-विशेषाधिकार पहचान के समान व्यवहार मिलना चाहिए: एक्सेस की आवधिक समीक्षा, न्यूनतम विशेषाधिकार का अनुप्रयोग, व्यवहार निगरानी और जो कुछ भी वह स्पर्श करता है उसकी ट्रेसबिलिटी।

अधिकांश कॉर्पोरेट सुरक्षा कार्यक्रम इसके लिए कॉन्फ़िगर नहीं हैं। उन्हें लोगों और सिस्टम को ध्यान में रखकर डिज़ाइन किया गया था, न कि ऐसे AI एजेंटों के लिए जो अपने तर्क के साथ काम करते हैं, सूचना के स्रोतों को मिलाते हैं और ऐसे आउटपुट उत्पन्न करते हैं जिनकी उनके मानव संचालक हमेशा पूर्वानुमान नहीं कर सकते।

AI के लिए डेटा की तैयारी, अपने संचालन संबंधी अर्थ में, कम से कम चार ठोस कदमों की आवश्यकता है। पहला, परिवेश में सक्रिय AI सिस्टम की एक अपडेटेड इन्वेंटरी बनाना, जिसमें प्रोडक्टिविटी प्लेटफ़ॉर्म में एम्बेडेड कोपायलट, कस्टम मॉडल और ऑटोमेशन एजेंट शामिल हों, जिन डेटा स्रोतों तक वे पहुँचते हैं उनसे मैप किए गए। दूसरा, क्लाउड स्टोरेज, सॉफ़्टवेयर-एज़-ए-सर्विस एप्लिकेशन और लेगेसी रिपॉजिटरी में संगत रूप से संवेदनशील डेटा को वर्गीकृत करना — क्योंकि उस वर्गीकरण के बिना कम्प्लायंस नियंत्रण संवेदनशील और सामान्य जानकारी के बीच अंतर नहीं कर सकते। तीसरा, AI एजेंटों पर वही समीक्षा लागू करना जो उच्च-जोखिम सर्विस अकाउंट पर लागू होती है: उनके परमिशन को वास्तविक उपयोग को प्रतिबिंबित करना चाहिए, न कि संचित विरासत को। चौथा, उस डेटा संदर्भ को मौजूदा नियंत्रणों से जोड़ना — जिसमें डेटा लॉस प्रिवेंशन सिस्टम, एक्सेस और आइडेंटिटी मैनेजमेंट, और एक्सेस गेटवे शामिल हैं — ताकि नीतियाँ अमूर्त पैटर्न के बजाय वास्तविक एक्सपोज़र को प्रतिबिंबित करें।

इनमें से किसी भी कदम के लिए AI मॉडल के बेहतर होने का इंतज़ार करने की आवश्यकता नहीं है। ये उस इन्फ्रास्ट्रक्चर के बारे में निर्णय हैं जो पहले से मौजूद है।

डेटा की तैयारी एक पूर्व चरण नहीं है, यह वास्तविक दाँव है

एंटरप्राइज़ AI बाज़ार 30% से अधिक वार्षिक दर से बढ़ रहा है और 2030 तक 150,000 से 200,000 अरब डॉलर के बीच होने का अनुमान है। उस संदर्भ में, प्रतिस्पर्धात्मक लाभ दूसरों से पहले AI अपनाने में नहीं होगा, बल्कि उसे ऐसे आधार पर अपनाने में होगा जो विश्वास के साथ संचालित करने और बिना घर्षण के स्केल करने की अनुमति देता है।

जिन संगठनों ने डेटा तैयारी को एक मामूली तकनीकी औपचारिकता माना, वे प्रोडक्शन में खोज रहे हैं कि उनके AI सिस्टम असंगत परिणाम उत्पन्न करते हैं, उनकी कानूनी टीमें AI-असिस्टेड प्रक्रियाओं के रेगुलेटरी कम्प्लायंस को प्रमाणित नहीं कर सकतीं, और उनकी सुरक्षा टीमें इस बारे में बुनियादी सवालों का जवाब नहीं दे सकतीं कि कौन सी जानकारी किसके द्वारा संसाधित की जा रही है।

इस क्षण में जो विस्थापन प्रकट होता है वह अपने मूल में तकनीकी नहीं है। यह शासन से संबंधित है। आर्टिफिशियल इंटेलिजेंस कंपनियों को उन डेटा समस्याओं का सामना करने के लिए मजबूर कर रही है जो किसी कोपायलट के सक्रिय होने से पहले ही मौजूद थीं: बिना वर्गीकृत डेटा, बिना समीक्षा के जमा हुए परमिशन, अधूरी इन्वेंटरी, ऐसे नियंत्रण जो एक ऐसी दुनिया के लिए डिज़ाइन किए गए थे जहाँ खोजें मैनुअल और धीमी थीं। जो बदला वह यह नहीं है कि ये समस्याएँ उभरीं। जो बदला वह यह है कि अब दृश्यमान और त्वरित परिणामों के बिना इन्हें नज़रअंदाज़ करना संभव नहीं है।

जो संगठन इस चक्र में बेहतर स्थिति में होंगे, वे वे हैं जिन्होंने समझा कि डेटा तैयार करना AI अपनाने से पहले का एक कदम नहीं है। यह, सटीकता के साथ कहें तो, वह पृष्ठभूमि कार्य है जो यह निर्धारित करता है कि अडॉप्शन मूल्य उत्पन्न करती है या केवल जोखिम की अधिक सतह उत्पन्न करती है जिस पर एक तेज़ सिस्टम संचालित होता है।