करपैथी की पुस्तकालय और पूर्वाग्रह

करपैथी की पुस्तकालय और वह पूर्वाग्रह जिसे कोई ऑडिट नहीं करता

आंद्रे करपैथी, आधुनिक कृत्रिम बुद्धिमत्ता आंदोलन के सबसे प्रभावशाली बौद्धिक आर्किटेक्ट में से एक, ने हाल ही में एक प्रस्ताव पेश किया है जो इंजीनियरिंग टीमों और उत्पाद नेताओं के बीच तेजी से फैल रहा है: RAG (Retrieval-Augmented Generation) सिस्टमों के लिए एक वैकल्पिक आर्किटेक्चर जिसे वह 'LLM Knowledge Base' कहते हैं। इसकी केंद्रीय विचार यह है कि मौजूदा वेक्टर डेटाबेस और डायनामिक रिकवरी प्रोसेस को एक Markdown फ़ाइलों के पुस्तकालय द्वारा बदला जाए, जिसे एक भाषा मॉडल स्वायत्त रूप से समय-समय पर बनाए, अपडेट और संगठित करता है।

यह प्रस्ताव तकनीकी दृष्टि से साफ-सुथरा है। यह विलंबता को कम करता है, वेक्टर सूचियों की जटिलता को समाप्त करता है और एक ज्ञान का भंडार बनाता है जो उपयोग के साथ अधिक सुसंगत होता है। किसी भी टीम के लिए जिसने अस्थिर RAG पाइपलाइनों से संघर्ष किया है, यह तत्काल राहत का प्रतीत होता है।

लेकिन एक सवाल है जो इंजीनियरिंग टीमें नई आर्किटेक्चर लागू करने से पहले बहुत कम पूछती हैं, और जो निर्देशक कभी नहीं पूछते हैं: किसने प्रारंभिक कॉर्पस को परिभाषित किया और कौन से प्रासंगिकता के मानदंडों के तहत।

एक सुंदर आर्किटेक्चर जो एक राजनीतिक निर्णय को छुपाता है

AI द्वारा प्रबंधित Markdown की एक पुस्तकालय स्वभाव से तटस्थ नहीं होती। किसी भी ज्ञान प्रणाली का प्रारंभिक कृत्य एक संपादकीय कार्य होता है: कोई यह तय करता है कि कौन से दस्तावेज पहले आते हैं, कौन से स्रोत प्राधिकृत होते हैं, कौन से विषयों को अपने खुद के फ़ाइल की आवश्यकता होती है और कौन से दूसरे में समाहित होते हैं। यह प्रारंभिक निर्णय तकनीकी नहीं है। यह राजनीतिक दृष्टि से गहरा है: यह उन मूल्यों, अंधे धब्बों और प्राथमिकताओं की परछाई है जिन्हें लागू किया गया है।

करपैथी का प्रस्ताव अपडेट करने की परत को स्वचालित और परिष्कृत करता है, लेकिन यह प्राथमिक समस्या का समाधान नहीं करता। मॉडल वैसा ही रहेगा जैसा कि शुरुआत से पूर्वाग्रही था। एक Markdown फ़ाइल जो "कैसे एक सामान्य ग्राहक काम करता है" का वर्णन करती है, यदि एक समरूप इंजीनियरों की टीम द्वारा लिखा गया हो, तो यह उस ग्राहक का एक विशिष्ट दृष्टिकोण को कोडित करता है, उस परस्पर का संचालन, क्या उपकरण उपयोग होती है, किस स्तर की डिजिटल साक्षरता है और किस समय क्षेत्र में काम करता है। मॉडल इसे समर्पण से अपडेट करेगा। लेकिन यह इसे प्रश्न नहीं करेगा।

यह करपैथी या आर्किटेक्चर की आलोचना नहीं है। यह तकनीकी उत्कृष्टता और संगठनात्मक मजबूती के बीच अंतराल का निदान है। जो टीमें बिना किसी ऑडिट के इस समाधान को लागू करेंगी, वे एक संस्थागत स्मृति बना रही हैं जो अपनी सूचना-प्राप्ति की सीमाओं को बढ़ा देगी गतिशीलता के साथ, केवल स्वचालन की अनुमति से।

यह संचालन की विडंबना है कि जितना अधिक प्रभावी सिस्टम पुस्तकालय को बनाए रखेगा, उतनी ही तेजी से वह उन पूर्वाग्रहों को संदर्भित करेगा।

एक समानार्थी कॉर्पोरेट मेमोरी का असली खर्च

प्रबंधन टीमों में जो विविधता की कमी है, उनके पास निर्णय लेने में अंधे धब्बे बनाने का ठोस सबूत पर्याप्त है। मैकेंजी ने नेतृत्व की टीमों में विविधता के बारे में अपने माप में, समानता और निकटता के बीच संबंधों को दर्ज किया है जो उभरते बाजारों में पूर्वानुमान की क्षमता को कम करते हैं। लेकिन इस विश्लेषण के लिए अधिक प्रासंगिक है तंत्र, न कि सांख्यिकी।

जब एक समान टीम एक संस्थागत ज्ञान का आधार बनाती है - वह Markdown में हो, एक कॉर्पोरेट विकी में, या नए कर्मचारियों के लिए ऑनबोर्डिंग में - तो जो उत्पन्न होता है वह उनके साझा मानसिक मॉडल का कोडिंग है। यह ठीक वही है जो एक संगठन के लिए अवरोधों का पता लगाने के लिए आवश्यक नहीं है। अवरोधों का स्रोत वे सीमाएँ हैं: उपयोगकर्ताओं के संदर्भों से जिन्हें उत्पादन पर विचार नहीं किया गया, ऐसे बाजार जो तात्कालिक लगते थे, आवश्यकता जो टीम कभी नहीं जान पाई क्योंकि वे कभी अनुभव नहीं किए।

AI द्वारा बनाए रखा गया एक ज्ञान का पुस्तकालय जो इस समान कॉर्पस से निकलता है केवल समस्या को हल नहीं करता: यह इसे एक स्वचालन की परत के साथ संस्थागत बनाता है जो इसे वस्तुनिष्ठता की उपस्थिति देती है। दस्तावेज अच्छे से लिखे गए हैं, संरचना सुसंगत है, और मॉडल उन्हें निरंतरता से अपडेट करता है। सब कुछ ठीक लगता है। लेकिन प्रश्न यह है कि कौन से बाजार, कौन से उपयोगकर्ता और कौन से उपयोग के मामलों को पहले दिन से बाहर रखा गया है, अब भी उदासीनता में बना रहता है।

किसी विशेष आर्थिक जोखिम का मामला यह है कि संगठन उत्पाद, विस्तार और ग्राहक सेवा के निर्णयों को उस ज्ञान के आधार पर बनाता है जो स्थायी रूप से उन खंडों को बाहर रखता है जिनका सबसे अधिक विकास की क्षमता होती है: ठीक वही है जिसे कंपनी अभी अच्छी तरह से समझ नहीं पाई है।

जो प्रस्ताव खुलता है उनके लिए जो इसे समझते हैं

इस विश्लेषण को केवल एक चेतावनी में घटित करना एक गलती होगी। करपैथी द्वारा वर्णित आर्किटेक्चर का संगठनात्मक गतिशीलता से परे तकनीकी ऑप्टिमाइजेशन का एक संभावनात्मक है, बशर्ते कि नेता उस परत में हस्तक्षेप करें जो इंजीनियर्स ने सहजता से हल करने के रूप में माना।

AI द्वारा प्रबंधित Markdown की एक पुस्तकालय, स्वतंत्र रूप से कहा जाए, एक जीवित संस्थागत मेमोरी है। यदि प्रारंभिक कॉर्पस को सचेत विविधता के दृष्टिकोण के साथ स्थापित किया जाता है - उभरते बाजारों की टीमें, कम बैंडविड्थ वाले संदर्भों के उपयोगकर्ता, विभिन्न भाषाओं में ऑपरेटर, संगठन के परिधि की आवाजें और केवल केंद्र से नहीं - तो सिस्टम का क्षमता है कि वह उस धन को समय-समय पर अद्यतित और सुसंगत रखे। यह कुछ ऐसा है जो कोई पारंपरिक कॉर्पोरेट विकी प्राप्त नहीं कर सकती क्योंकि यह उन लोगों के स्वैच्छिक प्रयासों पर निर्भर है जिनके पास इसे दस्तावेज़ करने के लिए कम प्रोत्साहन होता है।

बिजनेस का तर्क सीधा है: एक ज्ञान का आधार जो उन बाजारों की वास्तविक जटिलता का प्रतिनिधित्व करता है जहां कंपनी कार्य करती है, वह उत्पाद निर्णय लेते हुए संचालन लागत को कम करता है, तुलना में केवल संस्थापक टीम के दृष्टिकोण का प्रतिनिधित्व करने वाली किसी के। न केवल इसलिए कि यह अधिक उचित है, बल्कि इसलिए कि यह अधिक प्रासंगिक जानकारी को अपनी संरचना में एकीकृत करता है।

सी-लेवल को किसी भी इस आर्किटेक्चर के कार्यान्वयन को मंजूरी देने से पहले जो हस्तक्षेप करना चाहिए वह सरल है और तकनीकी विशेषज्ञता की आवश्यकता नहीं है: प्रारंभिक दस्तावेज़ों में योगदान देने वालों का एक सूची, वे कौन से भौगोलिक क्षेत्र का प्रतिनिधित्व करते हैं, कौन से भाषाएं संदर्भ में मौजूद हैं और कौन से प्रकार के उपयोगकर्ताओं को दस्तावेज़ किए गए मामलों का उपयोग किया गया है। यदि वह सूची छोटी और समरूप है, तो निवेश का निर्णय सुरक्षित करना चाहिए जब तक इसे स्वचालित न किया जाए।

डिजाइन की मेज को जोखिम का कारक के रूप में पात्र करना

उद्योग आर्किटेक्चर को तकनीकी बेंचमार्क के आधार पर मूल्यांकन करने की प्रवृत्ति रखता है: विलंबता, रिकवरी की सटीकता, अर्थ या बोध की संगति, प्रति कॉल लागत। ये लेजिटिमेट और आवश्यक मेट्रिक्स हैं। लेकिन एक कारक है जो किसी भी बेंचमार्क में नहीं आता और जो दीर्घकालिक में सिस्टम की वास्तविक उपयोगिता को निर्धारित करता है: टीम की संरचना जिसने डिजाइन के निर्णय लिए।

एक उच्च सटीकता वाला RAG सिस्टम जो एक पूर्वाग्रही कॉर्पस पर बना है, पूर्वाग्रहित जानकारी निकासी करता है उच्च दक्षता के साथ। एक स्थानीय रूप से अच्छी तरह से संरक्षित Markdown लाइब्रेरी जो केवल एक उप-समूह के उपयोगकर्ताओं का अनुभव ही दस्तावेज करती है, उस उप-समूह के लिए सुसंगत उत्तर देती है और अन्य के लिए चुपचाप विफल होती है। चुपचाप विफलता सबसे खतरनाक होती है क्योंकि यह चेतावनियाँ नहीं देती: सिस्टम उत्तर देता है, टीम मानती है कि यह काम कर रहा है, और संगठन अज्ञात रूप से अधूरी जानकारी पर निर्णय लेना जारी रखता है।

करपैथी का प्रस्ताव तकनीकी ध्यान का हकदार है और इसे लागू किया जाना चाहिए। लेकिन यह भी हकदार है कि जो नेता इसे मंजूरी देते हैं वे समझें कि वे एक संस्थागत ज्ञान आर्किटेक्चर पर निर्णय ले रहे हैं, केवल सॉफ्टवेयर इन्फ्रास्ट्रक्चर पर नहीं। यह अंतर यह बदलता है कि प्रारंभिक कॉर्पस को परिभाषित करने के समय कौन लोग कमरे में होना चाहिए और यह बदलता है कि सिस्टम की सफलता का मूल्यांकन छह महीने बाद कैसे किया जाता है।

जो निदेशक इस निवेश को मंजूरी देते हैं बिना डिज़ाइन टेबल पर विविधता की परिसंख्या का ऑडिट किए, वे एक संस्थागत मेमोरी का भुगतान कर रहे हैं जो कुशलता से याद रखेगी, ठीक जो उनकी समानतम टीम पहले से जानती थी।