AI एजेंट और स्वायत्त भुगतान: गवर्नेंस संकट

जब एजेंट खुद भुगतान करते हैं, तो शासन व्यवस्था देर से पहुँचती है

मई 2026 के एक सप्ताह में, एंटरप्राइज़ AI इन्फ्रास्ट्रक्चर ने एक ऐसी सीमा पार कर ली, जिसे ऑडिट, अनुपालन और बीमा के ढाँचे अभी तक रेखांकित भी नहीं कर पाए थे। 7 मई को, AWS ने Amazon Bedrock AgentCore Payments का प्रीव्यू प्रस्तुत किया — एक ऐसी प्रणाली जो Coinbase और Stripe के साथ मिलकर बनाई गई है और जो AI एजेंटों को उनके निष्पादन के दौरान स्वायत्त रूप से भुगतान करने की अनुमति देती है। इसके तहत एजेंट भुगतान APIs, MCP सर्वर, वेब सामग्री और अन्य एजेंटों तक बिना किसी मानव की प्रत्येक लेनदेन को अनुमति दिए पहुँच सकते हैं। एक सप्ताह बाद, Google के आने वाले Gemini Spark एजेंट की एक लीक हुई ऑनबोर्डिंग स्क्रीन ने उपयोगकर्ताओं को चेतावनी दी कि यह प्रणाली "बिना पूछे आपकी जानकारी साझा करने या खरीदारी करने जैसे काम कर सकती है।" सात दिनों में दो घोषणाएँ, दुनिया के दो सबसे बड़े तकनीकी इन्फ्रास्ट्रक्चर प्लेटफॉर्मों से, जो एक ही व्यवहार का वर्णन करती हैं: एक एजेंट जो अपने दम पर पैसे खर्च करने का निर्णय लेता है।

जो बदला वह केवल तकनीकी नहीं था। जो बदला वह किसी कंपनी के भीतर वित्तीय निर्णय लेने वाले अभिनेता की प्रकृति थी। अब तक, AI प्रणालियाँ अनुशंसा करती थीं, वर्गीकरण करती थीं या सामग्री तैयार करती थीं। अब से, उनमें से कुछ खरीदारी भी करते हैं। और कंपनियाँ जो प्रोक्योरमेंट नीतियाँ, SOC 2 और ISO 27001 के ऑडिट ढाँचे, और साइबर बीमा अनुबंध हर साल नवीनीकृत करती हैं — वे सब एक ऐसी दुनिया के लिए लिखे गए थे जहाँ प्रत्येक लेनदेन के पीछे एक पहचाना जा सकने वाला इंसान होता है।

वह इंसान अब हमेशा वहाँ नहीं होता।

वह तंत्र जिसे किसी ने सक्रिय करने से पहले ऑडिट नहीं किया

Amazon Bedrock AgentCore Payments x402 प्रोटोकॉल पर काम करता है — यह Coinbase द्वारा विकसित एक नेटिव HTTP मानक है जो HTTP स्टेटस कोड 402 — "Payment Required" को, जो तकनीकी रूप से नब्बे के दशक से अस्तित्व में है लेकिन कभी बड़े पैमाने पर लागू नहीं हुआ — मशीन-से-मशीन भुगतान की एक लेन में बदल देता है। जब एक एजेंट अपने निष्पादन के दौरान किसी भुगतान-योग्य संसाधन का सामना करता है, तो AgentCore x402 की शर्तों पर बातचीत करता है, वॉलेट को प्रमाणित करता है, Base — Coinbase के Ethereum लेयर-2 नेटवर्क — पर USDC में भुगतान निष्पादित करता है, और संसाधन को भुगतान का प्रमाण प्रदान करता है — यह सब एजेंट के रीज़निंग चक्र को बाधित किए बिना। डेवलपर एक Coinbase CDP वॉलेट या Stripe Privy वॉलेट जोड़ता है, उसे स्टेबलकॉइन या डेबिट कार्ड से फंड करता है, और प्रति सत्र खर्च की सीमा तय करता है। निपटान में लगभग 200 मिलीसेकंड लगते हैं।

डेवलपर्स के लिए इंटरफ़ेस जानबूझकर अंतर्निहित प्रोटोकॉल के बारे में अस्पष्ट रखा गया है। AWS को x402 या वॉलेट मैकेनिक्स की जानकारी होने की आवश्यकता नहीं है। एक बजट निर्धारित किया जाता है, क्षमता सक्रिय की जाती है, और प्रबंधित सेवा निष्पादन को संभाल लेती है। Warner Bros. Discovery इस प्रणाली को लाइव स्पोर्ट्स सहित प्रीमियम सामग्री तक पहुँच के लिए परख रहा है; Heurist AI इसका उपयोग एक ऐसा रिसर्च एजेंट बनाने के लिए कर रहा है जो अंतिम उपयोगकर्ताओं के लिए वित्तीय विश्लेषण करता है। AWS ने संकेत दिया है कि आगामी उपयोग के मामलों में होटल बुकिंग, यात्रा और व्यापारियों को भुगतान शामिल हैं।

यह डिज़ाइन जो काम अच्छी तरह करता है वह है डेवलपर के लिए घर्षण को समाप्त करना। जो यह हल नहीं करता — और हल करने का दावा भी नहीं करता — वह यह सवाल है कि क्या होता है जब एजेंट वह पैसा खर्च करता है जिसे किसी ने स्पष्ट रूप से अधिकृत नहीं किया था, या जब एक छेड़छाड़ किया गया निर्देश उसे ऐसे गंतव्यों पर खर्च करने के लिए प्रेरित करता है जो मूल इरादे में नहीं थे।

प्रति सत्र खर्च की सीमा वह मुख्य नियंत्रण है जो AWS प्रदान करता है। यह एक वास्तविक नियंत्रण है। लेकिन यह संरचनात्मक रूप से उन लेनदेन सीमाओं जैसा भी है जो 2008 में कार्ड धोखाधड़ी को रोकने के लिए मौजूद थीं: ये व्यक्तिगत सबसे बुरी घटना को सीमित करती हैं, लेकिन समग्र वेक्टर को नहीं। एक एजेंट जो किसी हमलावर द्वारा नियंत्रित एंडपॉइंट का सामना करता है, एक जहरीला निर्देश प्राप्त करता है जो उसे 200 माइक्रोपेमेंट के माध्यम से एक वॉलेट को "सत्यापित" करने के लिए प्रेरित करता है — प्रत्येक सेंट के एक अंश का — और प्रत्येक कॉल पर सत्र सीमा के भीतर रहता है, वह समग्र रूप से वॉलेट खाली कर सकता है बिना किसी सीमा अलार्म को ट्रिगर किए। प्रॉम्प्ट इंजेक्शन, जिसकी सफलता दर सर्वश्रेष्ठ फ्रंटियर सिस्टम में भी लगभग 1% दर्ज की गई है, अब फंड तक पहुँच वाले एजेंट के विरुद्ध मशीन की गति से काम करता है। जो 2025 में डेटा एक्सफिल्ट्रेशन पैदा करता था, वह 2026 में फंड मूवमेंट पैदा कर सकता है।

वह अंतराल जिसे CXOs ने अभी तक नहीं मापा

निदेशक मंडल ने जो प्रश्न अभी तक ठीक से नहीं पूछे हैं, वे तकनीक के नहीं बल्कि वास्तुकला के प्रश्न हैं। जब एक एजेंट कोई ऐसा खर्च करता है जिसे उपयोगकर्ता ने अनुमोदित नहीं किया, तो जिम्मेदार कौन है? जब खरीदने वाला पक्ष सॉफ्टवेयर हो तो Know Your Customer और एंटी-मनी लॉन्ड्रिंग नियंत्रणों का क्या होता है? एजेंट-शुरू किए गए खर्च को अधिग्रहण नीतियों को कैसे संभालना चाहिए? और क्या मौजूदा SOC 2 Type II और ISO 27001 प्रमाणपत्र इनमें से किसी को भी कवर करते हैं?

अंतिम प्रश्न का ईमानदार उत्तर यह है कि नहीं। SOC 2 को एक ऐसे मॉडल के लिए डिज़ाइन किया गया था जहाँ विशेषाधिकार प्राप्त क्रियाएँ किसी जिम्मेदार व्यक्ति तक वापस अनुरेखण योग्य होती हैं। एक ऑडिटर जो संवेदनशील प्रणालियों में गैर-आरोपणीय क्रियाएँ पाता है, उन्हें जवाबदेही की कमी के रूप में देखता है, क्योंकि यह ढाँचा प्रत्येक संवेदनशील ऑपरेशन के पीछे एक पहचाने जाने योग्य व्यक्ति की अपेक्षा के आधार पर बनाया गया था। एक एजेंट जो किसी टूल परिणाम, प्रॉम्प्ट इंजेक्शन या किसी छेड़छाड़ किए गए वेबपेज के परिणामस्वरूप भुगतान शुरू करता है, वह वह ऑडिट आर्टिफैक्ट नहीं बनाता जिसकी ढाँचा पूर्वकल्पना करता है। ISO 27001 सूचना सुरक्षा प्रबंधन के लिए आवश्यकताएँ निर्धारित करता है, लेकिन इसमें अभी तक स्वायत्त लेनदेनात्मक एजेंटों के लिए स्पष्ट नियंत्रण उद्देश्य नहीं हैं।

साइबर बीमा एक अलग लेकिन संबंधित अंतराल प्रस्तुत करता है। वर्तमान अंडरराइटिंग मॉडल यह मानते हैं कि धोखाधड़ी क्रेडेंशियल चोरी, सोशल इंजीनियरिंग या सिस्टम से समझौते से उत्पन्न होती है — न कि उन एजेंटों से जो ठीक से प्रमाणित हैं, नीति-अनुरूप हैं और प्रतिकूल प्रॉम्प्ट या दोषपूर्ण रीज़निंग के जवाब में भुगतान कर रहे हैं। बीमाकर्ताओं ने नवीनीकरण में AI अनुपूरक जोड़ना शुरू कर दिया है और उस शासन प्रमाण की माँग करने लगे हैं जो अधिकांश SOC 2 रिपोर्टों में नहीं है। इस संदर्भ में उद्योग जिसे "शासन प्रमाण" कहता है उसकी अभी तक कोई स्थिर परिभाषा नहीं है।

कानूनी ढाँचा ऑडिट ढाँचे की तुलना में तेज़ी से आगे बढ़ रहा है। कैलिफ़ोर्निया का AB 316 कानून, जो 1 जनवरी 2026 से लागू है, प्रतिवादियों को देयता दावों के विरुद्ध AI प्रणाली के स्वायत्त संचालन को बचाव के रूप में उपयोग करने से रोकता है। कोलोराडो का AI कानून, जो जून 2026 में प्रभावी होगा, उच्च जोखिम वाली AI प्रणालियों को तैनात करने वालों से वार्षिक प्रभाव मूल्यांकन करने की माँग करेगा। EU AI अधिनियम के उपभोक्ता पारदर्शिता दायित्व 2 अगस्त 2026 को लागू होते हैं। नियामक आ रहे हैं। बीमाकर्ता आ रहे हैं। ऑडिटर बाद में आते हैं।

गैर-मानवीय पहचान और वित्तीय शक्ति का डिज़ाइन

इस समस्या में एक संरचनात्मक आयाम है जिसे तकनीकी जोखिम पर केंद्रित विश्लेषण अक्सर छोड़ देते हैं: यह सवाल कि जब नियंत्रण डिज़ाइन किए गए तब कमरे में कौन था, और उन नियंत्रणों के विषय के रूप में अप्रत्यक्ष रूप से किस प्रकार के अभिनेता की कल्पना की गई थी।

कॉर्पोरेट वित्तीय शासन के ढाँचे — प्रोक्योरमेंट नीतियों से लेकर प्राधिकरण प्रत्यायोजन मॉडलों तक — एक ऐसी वास्तुकला पर बनाए गए थे जहाँ व्यय शक्ति लोगों से लोगों तक प्रवाहित होती है, जिसमें दस्तावेज़ीकृत अनुमोदन एक कस्टडी श्रृंखला बनाते हैं। वह श्रृंखला मानवीय इरादे, स्पष्ट रिकॉर्ड और व्यक्तिगत जवाबदेही की संभावना को पूर्वमान लेती है। विशेषाधिकार प्राप्त पहचान और पहुँच प्रणालियाँ उसी तर्क से डिज़ाइन की गई थीं: यहाँ तक कि सेवा खातों का भी एक पहचाने जाने योग्य मानव स्वामी होता है।

भुगतान क्षमता वाले एजेंट उस श्रृंखला को एक विशिष्ट बिंदु पर तोड़ते हैं। वे पहचान प्रणालियों के बाहर नहीं हैं — AgentCore वॉलेट प्रमाणीकरण प्रबंधित करता है और logs, मेट्रिक्स और ट्रेस में भुगतान गतिविधि उजागर करता है — लेकिन वे उस मानसिक मॉडल के बाहर हैं जिस पर नियंत्रण नीतियाँ बनाई गई थीं। यह अनुमान है कि 2026 के अंत तक गैर-मानवीय पहचान 45 अरब से अधिक हो जाएगी — वैश्विक मानव कार्यबल से बारह गुना से अधिक — जबकि केवल 10% संगठन रिपोर्ट करते हैं कि उनके पास उन्हें प्रबंधित करने की रणनीति है। यह संख्या केवल परिचालन पैमाने की समस्या नहीं है। यह शक्ति डिज़ाइन की समस्या है: संगठनों ने उन अभिनेताओं को वित्तीय प्राधिकरण दे दिया जिन्हें उनकी अपनी नीतियाँ अभिनेताओं के रूप में मान्यता नहीं देती हैं।

उन MSME और बड़े उद्यमों के लिए पहला व्यावहारिक कदम जो पहले से ही भुगतान क्षमता वाले एजेंटों का मूल्यांकन या तैनाती कर रहे हैं, यह है कि उन एजेंटों को उसी पहचान इन्वेंटरी में शामिल किया जाए जिसमें व्यय प्राधिकरण वाले मनुष्य शामिल हैं। प्रत्येक एजेंट जो पैसा स्थानांतरित कर सकता है, उसे उसी स्तर की ट्रेसेबिलिटी, आवधिक समीक्षा और निरसन नीति की आवश्यकता है जो किसी भी अधिकृत हस्ताक्षर वाले कर्मचारी को होती है। दूसरा कदम है अधिग्रहण नीतियों को फिर से लिखना ताकि सॉफ्टवेयर को संभावित खरीदने वाले पक्ष के रूप में मान्यता मिले: वर्तमान नियंत्रण एक मानव आरंभकर्ता, एक दस्तावेज़ीकृत खरीद आदेश और एक आरोपण योग्य अनुमोदन श्रृंखला मानते हैं। एक रिसर्च एजेंट जो रनटाइम पर स्टेबलकॉइन माइक्रोपेमेंट के माध्यम से एक मार्केट डेटा फ़ीड खरीदता है, वह उनमें से किसी भी पैटर्न में फिट नहीं बैठता।