AI को संभव बनाती है मानवीय निगरानी

मानव-नियंत्रण का चक्र कॉर्पोरेट AI को नहीं रोकता, बल्कि उसे संभव बनाता है

उद्यमों में कृत्रिम बुद्धिमत्ता के साथ गलती करने का एक बेहद प्रचलित तरीका है। इसमें किसी सिस्टम की परिपक्वता को इस आधार पर मापा जाता है कि उसने कितने पदों को समाप्त करने में सफलता पाई। यह मापदंड परिपक्वता नहीं मापता: यह बिना प्रशासन के गति को मापता है, जो कि ठीक वही स्थिति है जो महत्वपूर्ण प्रणालियों में सबसे महंगे पतन से पहले आती है।

human-in-the-loop पर चर्चा — वह मॉडल जिसमें मानवीय निर्णय को AI वर्कफ़्लो में स्पष्ट और जानबूझकर एकीकृत किया जाता है — महीनों से बड़े निगमों के बोर्डरूम में तेज़ी से जगह बना रही है। इसलिए नहीं कि अधिकारी नियामक फैशन के कारण सतर्क हो गए हैं, बल्कि इसलिए कि बड़े पैमाने पर पहली तैनाती ने एक असुविधाजनक सच्चाई दिखानी शुरू कर दी: मॉडल ऐसे प्रवाहमय उत्तर उत्पन्न करते हैं जो सही लगते हैं, भले ही वे आंतरिक नीति का उल्लंघन करते हों, नियामक संदर्भ की गलत व्याख्या करते हों, या ऐसी सिफारिशें उत्पन्न करते हों जिन पर कंपनी का कोई भी इंसान हस्ताक्षर नहीं करता।

Gartner के डेटा के अनुसार, जनरेटिव AI की लगभग आधी पहलें बड़े पैमाने तक नहीं पहुंचती हैं। मुख्य कारण मॉडल की गुणवत्ता नहीं है। वह कारण है अनुपस्थित या अपर्याप्त जोखिम नियंत्रण। संरचना के बिना गति अपनाने की प्रक्रिया को तेज़ नहीं करती: वह उसे बाधित कर देती है।

गणना और समझ के बीच का अंतर के ठोस वित्तीय परिणाम होते हैं

एक AI सिस्टम दशकों के परिचालन घटना डेटा को संसाधित कर सकता है, उनके होने से पहले विफलता के पैटर्न की पहचान कर सकता है और नियंत्रित मामलों में स्वचालित सुधारात्मक प्रतिक्रियाएं सक्रिय कर सकता है। यह वास्तव में मूल्यवान है। साथ ही यह एक तकनीकी रूप से त्रुटिहीन सिफारिश भी उत्पन्न कर सकता है जो उस अनुबंधात्मक, नियामक या राजनीतिक संदर्भ को पूरी तरह से नजरअंदाज करती है जिसमें उस सिफारिश को लागू किया जाना है।

यह भेद दार्शनिक नहीं है। इसकी एक कीमत है। भुगतान प्लेटफार्मों, बीमा प्रणालियों, चिकित्सा देखभाल प्रवाहों या किसी भी ऐसे वातावरण में जहां एक गलत आउटपुट कानूनी, वित्तीय या प्रतिष्ठात्मक परिणाम उत्पन्न करता है, "सही उत्तर" और "संदर्भ के लिए उचित उत्तर" के बीच का अंतर लाखों का होता है। भाषा मॉडल उच्च संभावना के साथ शब्द अनुक्रमों की भविष्यवाणी करते हैं; वे वास्तविक वातावरण में उन अनुक्रमों के परिणामों के लिए जिम्मेदारी नहीं मानते हैं और मान भी नहीं सकते।

इस परिदृश्य में human-in-the-loop जो करता है वह बहुत ठोस है: यह निर्णय को सिस्टम के जीवनचक्र में वितरित करता है, न कि केवल अंत में समीक्षा चरण के रूप में। चार परतें हैं जहां वह वितरण होता है। पहली, मॉडल के संचालन से पहले उद्देश्यों और क्रिया प्रतिबंधों की परिभाषा में। दूसरी, निष्पादन से पहले योजनाओं की समीक्षा में, विशेष रूप से जब सिस्टम अपरिवर्तनीय परिणामों वाले कदम प्रस्तावित करता है। तीसरी, निष्पादन के दौरान निगरानी में, वास्तविक रुकावट या प्रत्यावर्तन क्षमता के साथ। चौथी, सुधारात्मक प्रतिक्रिया में जो सिस्टम के भविष्य के व्यवहार को समायोजित करती है। उन परतों में से किसी से भी मनुष्यों को हटाना सिस्टम को सरल नहीं बनाता: यह उसे एक साथ अपारदर्शी और नाजुक बना देता है।

Forrester का शोध, जिसे क्षेत्र के प्रदाताओं द्वारा प्रलेखित किया गया है, अनुमान लगाता है कि AI निर्णय प्रवाहों में मानवीय समीक्षा को एकीकृत करने से उन निर्णयों की सटीकता में 15% से 20% के बीच सुधार होता है। यह विपणन का वादा नहीं है: यह उस लागत को दर्शाता है जो मनुष्य को वहां से हटाने से आती है जहां मॉडल के पास सही तरीके से कार्य करने के लिए पर्याप्त प्रासंगिक जानकारी नहीं है। साथ ही, विपरीत जोखिम भी मौजूद है और समान रूप से महंगा है: यदि प्रत्येक नियमित निर्णय के लिए मानवीय समीक्षा अनिवार्य है, तो सिस्टम न्यूनतम वास्तविक स्वचालन के साथ महंगे निर्णय समर्थन में बदल जाता है। अंशांकन का बिंदु — जहां लूप लागू होता है और जहां नहीं — वही है जहां मॉडल की अर्थव्यवस्था का निर्धारण होता है।

सिस्टम को डिज़ाइन करते समय कमरे में कौन था

यह वह बिंदु है जहां human-in-the-loop पर सामान्य चर्चा कम पड़ती है। अधिकांश परिचालन ढांचे मनुष्य को निष्पादन के क्षण में रखते हैं: आउटपुट की समीक्षा करता है, अनुमोदन या अस्वीकार करता है, संदेह होने पर बढ़ाता है। यह समस्या का एक हिस्सा हल करता है। लेकिन यह उस क्षण को नहीं छूता जहां असमानता वास्तव में स्वचालित होती है: डिज़ाइन।

जब एक टीम परिभाषित करती है कि कौन सा डेटा मॉडल को प्रशिक्षित करता है, कौन से चर प्रासंगिक माने जाते हैं, कौन से थ्रेशोल्ड निर्धारित करते हैं कि कब मानव समीक्षक तक बढ़ाना है और आउटपुट को सत्यापित करने के लिए कौन से प्रोफाइल का उपयोग किया जाता है, तो वे निर्णय दुनिया के एक विशेष दृष्टिकोण को कोडित करते हैं। यदि वह टीम सजातीय है — समान शिक्षा, समान अनुभव क्षेत्र, संगठन की शक्ति संरचना के भीतर समान स्थिति — तो उस समूह के प्रतिबंध और पूर्वाग्रह आर्किटेक्चर में अंकित हो जाते हैं इससे पहले कि सिस्टम तैनात किया जाए। निष्पादन में human-in-the-loop उन्हें सुधारता नहीं है। वह उन्हें अधिक सुसंगतता के साथ लागू करता है।

AI सिस्टम का वास्तविक शासन तब शुरू नहीं होता जब मॉडल प्रोडक्शन में होता है। यह तब शुरू होता है जब यह तय किया जाता है कि किस समस्या को हल किया जाएगा, किस डेटा के साथ, किन प्रतिबंधों के तहत और कमरे में कौन होगा। उच्च शिक्षा और दृष्टिकोण समरूपता वाली टीमों में अंध-बिंदु होते हैं जिन्हें समूह ऐसे नहीं देखता क्योंकि समूह के अंदर किसी के पास भी उन्हें देखने की स्थिति या कोण नहीं है। वे सामंजस्य को जो कहते हैं वह कभी-कभी नाजुकता है: वह अक्षमता जो अपने स्वयं के वैचारिक ढांचे द्वारा डिफ़ॉल्ट रूप से बाहर किए गए को पहचान नहीं पाती।

इसके मापने योग्य परिणाम होते हैं। स्वचालित भर्ती प्रणालियों में, ऐतिहासिक भर्ती पूर्वाग्रहों को बढ़ाया जाता है यदि डिज़ाइन चरण में उन्हें पहचानने वाला कोई नहीं है। क्रेडिट स्कोरिंग सिस्टम में, ऐतिहासिक रूप से कम सेवा प्राप्त आबादी के डेटा पर प्रशिक्षित मॉडल उन्हीं आबादी के लिए संरचनात्मक रूप से प्रतिकूल मूल्यांकन उत्पन्न करते हैं। मेडिकल ट्राइएज सिस्टम में, प्रशिक्षण डेटा जो देखभाल में पूर्व असमानताओं को दर्शाता है, उन असमानताओं को अधिक गति और बड़े पैमाने पर पुन: उत्पन्न करने वाली सिफारिशें उत्पन्न करता है। इनमें से कोई भी समस्या प्रवाह के अंत में एक मानव समीक्षक जोड़कर हल नहीं होती यदि डिज़ाइन ने उन्हें पहले से परिसर के रूप में शामिल कर लिया है।

वह मेट्रिक्स जिसे कंपनियां गलत तरीके से उपयोग कर रही हैं

एंटरप्राइज़ AI तैनाती में सबसे लगातार शासन त्रुटि तकनीकी नहीं है। यह वैचारिक है: सिस्टम की सफलता को उसकी कंटेनमेंट दर से मापना — मॉडल मानवीय हस्तक्षेप के बिना कितनी बातचीत हल करता है — बजाय यह मापने के कि जो मानवीय हस्तक्षेप होते हैं वे सही हैं, सही समय पर होते हैं और उन लोगों द्वारा किए जाते हैं जिनके पास उन्हें अच्छी तरह से करने के लिए उचित संदर्भ है।

मानवीय हस्तक्षेप को स्वयं एक लक्ष्य के रूप में कम करने के लिए अनुकूलन ऐसे सिस्टम उत्पन्न करता है जो इसे अंशांकित करने के बजाय लूप को न्यूनतम करते हैं। एक ग्राहक सेवा प्रणाली जो 90% कंटेनमेंट दर बनाए रखती है, 90% मामलों को स्वीकार्य गुणवत्ता के साथ हल कर सकती है और 10% सबसे जटिल मामलों — जो ग्राहक के लिए सबसे अधिक मूल्यवान हैं — को व्यवस्थित रूप से ऐसे उत्तरों से अवरुद्ध कर सकती है जिन्हें कंपनी के अंदर कोई भी नहीं मानता यदि उसने उन्हें पढ़ा होता। संख्या डैशबोर्ड पर अच्छी दिखती है। नुकसान तब तक प्रकट नहीं होता जब तक ग्राहक चला नहीं जाता।

महत्वपूर्ण मेट्रिक्स अलग हैं: उचित एस्केलेशन दर, एस्केलेशन के बाद रिज़ॉल्यूशन समय, मॉडल द्वारा हल किए गए मामलों और मानवीय हस्तक्षेप के साथ हल किए गए मामलों के बीच संतुष्टि में अंतर, और सुधारात्मक प्रतिक्रिया दर जो वास्तव में सिस्टम के भविष्य के व्यवहार को समायोजित करती है। ये मेट्रिक्स प्राप्त करने में अधिक कठिन नहीं हैं। एक ऐसे प्रबंधक के सामने बचाव करना अधिक कठिन है जो देखना चाहता है कि स्वचालन ने कितना पैसा बचाया। लेकिन ये एकमात्र ऐसे मेट्रिक्स हैं जो यह प्रकट करते हैं कि सिस्टम सीख रहा है या पहले की तुलना में अधिक दक्षता से त्रुटियां जमा कर रहा है।

उस अंशांकन के हिस्से में उन भूमिकाओं को औपचारिक बनाना भी शामिल है जो अधिकांश संगठनों के पास अभी तक नहीं हैं। AI डेटा क्यूरेटर — लेबलों का ऑडिट करने, मॉडल ड्रिफ्ट की निगरानी करने, फीडबैक लूप प्रबंधित करने के लिए जिम्मेदार व्यक्ति — एक सजावटी शीर्षक नहीं है। यह वह कार्य है जो सिस्टम को सही दिशा में सीखते हुए रखता है बजाय ऐसे व्यवहारों की ओर भटकने के जिन्हें किसी ने स्पष्ट रूप से डिज़ाइन नहीं किया लेकिन किसी ने समय पर रोका भी नहीं।

सिस्टम से मनुष्यों को बहुत जल्दी हटाने की वास्तविक लागत

IBM एजेंटिक AI सिस्टम में मानव की भूमिका को एक सटीक सादृश्य के साथ वर्णित करता है: वह वह नहीं है जो सिस्टम की देखभाल करता है, वह वह है जो वायु यातायात नियंत्रण का अभ्यास करता है। वह हर उड़ान नहीं करता। कॉरिडोर परिभाषित करता है, प्राथमिकताएं स्थापित करता है, अपवाद की स्थितियों में हस्तक्षेप करता है और उसके पास वह प्राधिकरण और प्रशिक्षण है जो स्वचालित सिस्टम अकेले नहीं कर सकता। यह भेद महत्वपूर्ण है क्योंकि यह श्रम लागत के बारे में तर्क को पूरी तरह से बदल देता है।

गलत तर्क यह है: "जैसे-जैसे सिस्टम परिपक्व होगा, हमें कम मनुष्यों की आवश्यकता होगी।" सही तर्क यह है: "जैसे-जैसे सिस्टम परिपक्व होगा, मनुष्य उच्च प्रभाव वाले हस्तक्षेप के साथ उच्च निर्णय परतों में काम करेंगे।" नियमित निगरानी भूमिकाएं नीति परिभाषा, आर्किटेक्चर सत्यापन और अप्रत्याशित परिणामों के मूल्यांकन की भूमिकाओं की ओर स्थानांतरित होती हैं। यह कर्मचारियों में कटौती नहीं है: यह बुद्धिमत्ता का पुनर्वितरण है जहां सिस्टम अकेले नहीं पहुंच सकता।

जिसे Nuvento एजेंटिक मॉडलों के साथ human-in-the-loop के बीच तनाव के रूप में वर्णित करता है वह वास्तविक है लेकिन स्थायी दुविधा नहीं है। यह परिपक्वता की एक वक्र है। अपनाने के प्रारंभिक चरणों में, मानव लूप तंग होना चाहिए क्योंकि संगठन के पास अभी तक सिस्टम की स्वायत्तता पर भरोसा करने के लिए न गार्डरेल हैं और न ही परिचालन इतिहास। जैसे-जैसे संगठन इस बारे में साक्ष्य जमा करता है कि सीमांत स्थितियों में मॉडल कैसे व्यवहार करता है, कहां विफल होता है और किन परिस्थितियों में, तो वह अंधाधुंध तरीके से नहीं बल्कि अंशांकित तरीके से सिस्टम की स्वायत्तता का विस्तार कर सकता है।

उन संगठनों के साथ जो स्वायत्तता की ओर तेज़ी से बढ़ते हैं इससे पहले कि उनके पास वह साक्ष्य हो, जो समस्या हो रही है वह यह है कि उन्हें व्यवस्थित रूप से पहचानने के लिए किसी तंत्र के होने से पहले त्रुटियां बड़े पैमाने पर उत्पन्न होती हैं। तैनाती की गति संस्थागत सीखने की गति से अधिक हो जाती है। और जब ऐसा होता है, तो सुधार की लागत संरचनात्मक रूप से उस लागत से अधिक होती है जो मानव लूप को अधिक समय तक सक्रिय रखने में होती।

इस मॉडल द्वारा प्रकट की गई शक्ति वास्तुकला सरल है, हालांकि उन संगठनों के लिए असुविधाजनक है जो स्वचालन की गति से सफलता को मापते हैं: वितरित बुद्धिमत्ता — सिस्टम के विभिन्न बिंदुओं पर स्थित अलग-अलग संदर्भ वाले मनुष्य — जोखिम के प्रति रियायत नहीं है। यह वह शर्त है जो सिस्टम को वास्तविक गति से संचालित करने में सक्षम बनाती है न कि दिखावटी गति से। अल्पकालिक दक्षता हासिल करने के लिए उन नोड्स को हटाना तेज़ और अधिक अंधे सिस्टम उत्पन्न करता है, जो कि ठीक वही संयोजन है जो पतन को, जब वे आते हैं, अधिक महंगा और नियामकों, ग्राहकों और निदेशक मंडलों के सामने समझाने में अधिक कठिन बनाता है।