रोबोट जो सुनते हैं लेकिन समझते नहीं कि वे कहाँ हैं
आज रोबोटिक्स में सबसे ईमानदार चुनौती तकनीकी नहीं है। यह मनोवैज्ञानिक है, और उस अर्थ में नहीं जिसमें आमतौर पर मशीनों से डरने वाले इंसानों की बात होती है, बल्कि इसके विपरीत: दुनिया के सबसे परिष्कृत रोबोटिक सिस्टम किसी ऐसी चीज़ में बार-बार विफल होते हैं जिसे एक तीन साल का बच्चा बिना किसी प्रयास के कर लेता है। वे एक निर्देश सुनते हैं, जगह को देखते हैं और फिर भी, दोनों को जोड़कर किसी सार्थक तरीके से आगे नहीं बढ़ पाते।
Carnegie Mellon University के रोबोटिक्स संस्थान ने मई 2026 में अपने विज़न-एंड-लैंग्वेज नेविगेशन चैलेंज का नया चरण शुरू किया, और इस संस्करण को परिभाषित करने वाला निर्णय सबसे खुलासा करने वाला है: उन्होंने "ग्राउंड ट्रूथ" को हटा दिया। अब तक, टीमें एक शुरुआती नक्शे के साथ प्रतिस्पर्धा करती थीं, जिसमें पहले से लेबल किए गए ऑब्जेक्ट होते थे, एक पूर्व-पचाई हुई वास्तविकता होती थी। इस बार, रोबोट दुनिया का सामना उसी तरह करते हैं जैसे हम करते हैं — बिना मैनुअल के, बिना पूर्वनिर्धारित श्रेणियों के, सेंसर से आए कच्चे डेटा के साथ जिसे शुरू से व्याख्यायित करना होता है।
यह निर्णय, जो겉보기에 तकनीकी लगता है, एक विशाल खाई को उजागर करता है जो दशकों से व्यावहारिक रोबोटिक्स के कमरे में हाथी की तरह मौजूद रही है।
वह नक्शा जो कोई नहीं देता
इसका एक कारण है कि इतने सारे AI सिस्टम डेमो में चमकते हैं और प्रोडक्शन में ठप हो जाते हैं। प्रयोगशाला के वातावरण ऐसी जगहें होती हैं जहाँ दुनिया को पहले से ही सरल बना दिया जाता है ताकि सिस्टम काम कर सके। अस्पष्टताओं को हटा दिया जाता है। ऑब्जेक्ट्स को लेबल किया जाता है। संभावित मार्ग तैयार किया जाता है। रोबोट दुनिया में नहीं चलता, वह दुनिया की एक क्यूरेटेड प्रस्तुति में चलता है। और इन दोनों के बीच का अंतर ही वह जगह है जहाँ अपनाया जाना मर जाता है।
इस चैलेंज के इस चरण में CMU जो कर रही है वह उस तर्क के साथ एक जबरन टूटन है। भाग लेने वाली टीमों को ऐसे सिस्टम बनाने होंगे जो बिना किसी पूर्व ढाँचे के एक जगह को पढ़ सकें, जो न केवल यह पहचानें कि कोई ऑब्जेक्ट क्या है, बल्कि यह भी कि वह उस स्थानिक संदर्भ में क्या भूमिका निभाता है जहाँ वह है। गलियारा केवल एक ज्यामितीय श्रेणी नहीं है। यह एक प्रवाह प्रणाली का एक हिस्सा है। यह जोड़ता है। यह दिशा देता है। इसके पहले और बाद में आने वाली चीज़ों के साथ इसके अंतर्निहित संबंध हैं। इस प्रकार की समझ को ऑब्जेक्ट दर ऑब्जेक्ट हाथ से कोड नहीं किया जा सकता। यह वास्तविक समय में वातावरण के बारे में तर्क करने से उभरनी होती है।
यह जो उजागर करता है वह यह है कि रोबोटिक्स में सबसे कठिन छलांग किसी सिस्टम को अलग-अलग देखना या निर्देशों को समझना नहीं है। यह हासिल करना है कि दोनों चीज़ें अनिश्चितता के बीच एक एकीकृत प्रणाली के रूप में काम करें। अब तक, कंप्यूटर विज़न और भाषा मॉडल में अधिकांश प्रगति समानांतर में विकसित हुई है, जैसे दो मांसपेशियाँ जिन्हें कभी एक साथ काम करने के लिए प्रशिक्षित नहीं किया गया। CMU का चैलेंज ठीक उसी एकीकरण की मांसपेशी की ओर इशारा करता है।
लोग तकनीकी रूप से काम करने वाली चीज़ें क्यों नहीं अपनाते
उपभोक्ता व्यवहार के नज़रिए से, यह चैलेंज कुछ ऐसा रोशन करता है जो रोबोट से परे है। AI सिस्टम के बीच अभी भी एक विशाल खाई बने रहने का कारण — जो वे एक पिच में वादा करते हैं और दैनिक संचालन में क्या देते हैं — तकनीकी क्षमताओं से कम और इस बात से अधिक जुड़ा है कि वे काम करने के लिए मानव मस्तिष्क से क्या माँगते हैं।
जब किसी सिस्टम को आवश्यकता होती है कि उपयोगकर्ता वातावरण तैयार करे, ऑब्जेक्ट्स को लेबल करे, प्रारंभिक पैरामीटर कॉन्फ़िगर करे या प्रक्रिया को सक्रिय रूप से पर्यवेक्षण करे, तो वह अपनी खुद की अधूरेपन को ऑपरेटर की ओर बाहरी कर रहा होता है। रोबोट अपना हिस्सा कर सकता है, लेकिन उसे पहले किसी को उसके लिए वास्तविकता बनानी होती है। यही अदृश्य लागत ठीक वहाँ है जहाँ अपनाया जाना मरता है: कीमत में नहीं, इंटरफेस में नहीं, बल्कि उस अघोषित संज्ञानात्मक बोझ में जो सिस्टम थोपता है।
इस प्रतियोगिता में ग्राउंड ट्रूथ को हटाना, व्यावहारिक दृष्टि से, सबसे ईमानदार निर्णय है जो एक शोध टीम ले सकती है। वे स्वीकार कर रहे हैं कि जो भी सिस्टम काम करने के लिए एक पूर्व-लेबल दुनिया की आवश्यकता रखता है, वह दुनिया के लिए तैयार सिस्टम नहीं है। यह दुनिया के एक नियंत्रित संस्करण के लिए तैयार सिस्टम है, जिसका एक तकनीकी नाम है और एक रोज़मर्रा का नाम है। तकनीकी है "संरचित वातावरण"। रोज़मर्रा का है "प्रयोगशाला"।
उद्योग, लॉजिस्टिक्स, घरेलू देखभाल या बचाव में रोबोटिक्स के अपनाए जाने को रोकने वाली वास्तविक घर्षण हार्डवेयर की लागत नहीं है। यह सिस्टम की वातावरण की पूर्व तैयारी के बिना काम करने में असमर्थता है। तैयारी के उस चरण के लिए प्रशिक्षित कर्मियों, समय, निरंतरता और पर्यवेक्षण की आवश्यकता होती है। दुनिया के अधिकांश परिचालन संदर्भों में, यह सब बस मौजूद नहीं होता। और रोबोट डिज़ाइन करने वाली टीमें आमतौर पर इसे नहीं देखतीं क्योंकि वे ऐसे वातावरण में काम करती हैं जहाँ यह मौजूद होता है — प्रयोगशाला — ठीक इसलिए क्योंकि उन्होंने खुद उसे बनाया है।
वह रोबोट जो कमरे को समझता है बिना किसी के कमरे की व्याख्या किए
प्रतियोगिता का प्रारूप तकनीकी परिपक्वता अनुक्रम के बारे में सोचने के तरीके के बारे में भी कुछ महत्वपूर्ण उजागर करता है। चैलेंज सिमुलेशन से शुरू होता है और वास्तविक रोबोट तक पहुँचता है। यह नया नहीं है, लेकिन बारीकियाँ मायने रखती हैं: सिमुलेशन गंतव्य नहीं है, यह भौतिक दुनिया की परिवर्तनशीलता का सामना करने से पहले पहला नियंत्रित एक्सपोज़र है। सबसे अच्छी टीमें वे नहीं होंगी जो सिमुलेटर के लिए ऑप्टिमाइज़ करती हैं। वे होंगी जो ऐसे सिस्टम बनाती हैं जो संदर्भ परिवर्तन से बचे रहें — जो टूटें नहीं जब फर्श की बनावट अलग हो, जब रोशनी बदले या जब कोई ऐसी वस्तु हो जिसे मॉडल ने पहले कभी नहीं देखा।
यही ट्रांसफर की समस्या है, और यहीं अधिकांश वर्तमान सिस्टम चुपचाप विफल हो जाते हैं। वे शानदार तरीके से विफल नहीं होते, वे खराब होते जाते हैं। सिमुलेटर में 80% काम करते हैं और वास्तविक दुनिया में 40% पर, और यह अंतर प्रस्तुति पेपर में कभी नहीं दिखता।
CMU जो प्लेटफॉर्म प्रदान करती है, 3D डिटेक्शन और मापन तकनीक और 360-डिग्री कैमरे के साथ, हार्डवेयर की परिवर्तनशीलता को कम करने की कोशिश करती है ताकि फोकस तर्क पर हो। इसकी एक स्पष्ट तर्कसंगतता है: यदि सभी टीमें एक ही सेंसर से शुरू करती हैं, तो अंतर इस बात में है कि वे डेटा के साथ क्या करती हैं, न कि उन्होंने कितना अच्छा उपकरण खरीदा। यह चैलेंज का एक डिज़ाइन निर्णय है जो पहुँच की समानता को प्राथमिकता देता है और प्रतिस्पर्धा को उस स्तर पर केंद्रित करता है जहाँ समस्या सबसे कठिन और महत्वपूर्ण है।
चैलेंज पिट्सबर्ग में IROS 2026 सम्मेलन में परिणाम प्रस्तुति के साथ समाप्त होता है। लेकिन वास्तविक संकेतक यह नहीं होगा कि प्रतियोगिता किसने जीती। यह होगा कि उन सिस्टमों में से कितने छह महीने बाद ऐसे वातावरण में काम कर सकते हैं जिसे किसी ने उनके लिए तैयार नहीं किया।
बुद्धिमान रोबोटिक्स के अपनाए जाने को न तो लागत रोकती है और न ही समझी जाने वाली तकनीकी जटिलता। इसे रोकता है यह तथ्य कि सिस्टम अभी भी अच्छी तरह से काम करने के लिए एक सरलीकृत दुनिया की ज़रूरत रखते हैं, और वास्तविक दुनिया व्यवस्थित रूप से सहयोग करने से इनकार कर देती है। वह शोध जो बिना शुरुआती डेटा के सिमेंटिक-स्थानिक तर्क में आगे बढ़ता है, वह कोई इंजीनियरिंग समस्या हल नहीं कर रहा। वह उस मूक पूर्व-आवश्यकता को समाप्त कर रहा है जो अधिकांश वास्तविक तैनाती को शुरू होने से पहले ही विफल कर देती है।









