गूगल ने जेम्मा 4 खोला और एआई श्रृंखला में शक्ति का पुनर्वितरण किया
वर्षों से, बड़ी तकनीकी कंपनियों का मानक तर्क यह था कि सबसे शक्तिशाली भाषा मॉडल अपनी महंगाई के लिए उस बुनियादी ढांचे द्वारा उचित ठहराए जाते हैं, जिसकी वे मांग करते हैं। ज्यादा पैरामीटर, ज्यादा कंप्यूटिंग, ज्यादा बिल। गूगल ने इस समीकरण को तोड़ दिया है जेम्मा 4 के लॉन्च के साथ, जो चार ओपन-सोर्स मॉडल का एक परिवार है, जो सीधे जेमिनी 3 प्रो के पीछे की आर्किटेक्चर से निकलता है। इसका सबसे बड़ा घना मॉडल, जिसमें 31 अरब पैरामीटर हैं, एरेना एआई की टेक्स्ट रैंकिंग में तीसरे स्थान पर है, जो बीस गुना बड़े सिस्टम को पीछे छोड़ देता है।
यह एक मार्केटिंग आंकड़ा नहीं है। यह दर्शाता है कि पूरी इंडस्ट्री की लागत संरचना किस ओर बढ़ रही है।
पैरामीटर के मूल्य के प्रॉक्सी के रूप में जाल
एआई का मार्केट पिछले कुछ वर्षों से पैरामीटर की गणना का उपयोग एक मानसिक शॉर्टकट के रूप में कर रहा है, ठीक वैसे ही जैसे ऑटोमोबाइल सेक्टर ने दशकों तक हॉर्सपावर का उपयोग किया। शॉर्टकट्स का एक समस्या यह है कि वे प्रोत्साहनों को विकृत करते हैं: यदि पैरामीटर गुणवत्ता का संकेतक है, तो प्रदाता उस संख्या कोinflate करने के लिए सभी प्रोत्साहनों को रखते हैं और उसके अनुसार शुल्क लेते हैं, भले ही वास्तविक दक्षता इसकी अनुपालन न कर रही हो।
जेम्मा 4 इस मान्यता को स्पष्ट रूप से चुनौती देता है। गूगल का दावा है कि उसने अपने मॉडलों में पैरामीटर के प्रति बुद्धिमत्ता का एक बेजोड़ स्तर हासिल किया है, और इसे एक सत्यापनीय परिणाम से समर्थन दिया है: 26 अरब पैरामीटर वाला मॉडल जोपरीक्षित विशेषज्ञों की आर्किटेक्चर के अंतर्गत है, उसी रैंकिंग में छठे स्थान पर है जहां 500 अरब पैरामीटर के वैकल्पिक मॉडलों के सामने ध्यान केंद्रित किया गया है। यदि यह वास्तविक उत्पादन स्थितियों में कायम रहता है — और केवल सावधानीपूर्वक चयनित बेंचमार्क में नहीं — तो कार्य के प्रति अनुमानित लागत ऐसे घटने के लिए गिरती है जो आज किसी भी व्यवसाय की गणना को बदल देती है जो एपीआई कॉल के लिए बड़े मॉडलों को भुगतान करता है।
गूगल को इसका तुरंत प्रभाव नहीं महसूस होता। इस प्रभाव को स्वतंत्र डेवलपर, दस लोगों की स्टार्टअप, और मध्यम कंपनी द्वारा महसूस किया जाता है जो अब अपने एआई ऑपरेशनल खर्चों के 15 से 30 प्रतिशत को उन प्रदाताओं को देते हैं जो मॉडल, अवसंरचना और मूल्य को नियंत्रित करते हैं। एक единल प्रदाता में शक्ति का यह संकेंद्रण बेहतर मूल्य निर्धारण के लिए ऐतिहासिक रूप से एकतरफा वृद्धि के रूप में समाप्त होता है।
अपाचे 2.0 उदारता नहीं, यह सामरिक आर्किटेक्चर है
गूगल ने जेम्मा के पिछले संस्करणों को अपनी स्वयं की स्वामित्व लाइसेंस के तहत जारी किया था, जो व्यावसायिक उपयोग और मॉडलों के संशोधन पर प्रतिबंध लगाता था। जेम्मा 4 के लिए अपाचे 2.0 में बदलाव कोई परोपकारी इशारा नहीं है: यह एक डिज़ाइन का निर्णय है जो बुनियादी ढांचे के अंतिम छोर पर मूल्य उत्पन्न करने वाले के रूप में कौन बनेगा, यह पूरी तरह से बदल देता है।
अपाचे 2.0 के तहत, कोई भी कंपनी मॉडल को संशोधित कर सकती है, उसे अपनी अवसंरचना पर लागू कर सकती है, उसे वाणिज्यिक उत्पादों में एकीकृत कर सकती है और जो मूल्य उत्पन्न करती है, उसका सौ फीसदी रख सकती है, बिना कोई रॉयल्टी दिए या गूगल के सर्वरों पर निर्भर हुए। इससे शक्ति को मॉडल प्रदाता से इंटीग्रेटर के पास स्थानांतरित किया जाता है। एक डिजाइन सहायक बनाने के लिए जेम्मा 4 पर निर्माण करने वाला एक आर्किटेक्ट, एक क्लिनिक जो इसके ऊपर एक ट्रायज मॉडल को प्रशिक्षित करती है, या एक लॉजिस्टिक कंपनी जो इसे दस्तावेजों के ऑप्टिकल पहचान के लिए उपयोग करती है: सभी अपने डेटा, अपने समायोजित मॉडल और अपनी अवसंरचना पर संप्रभुता के साथ कार्य कर सकते हैं।
सही सामरिक प्रश्न यह नहीं है कि गूगल यह सब क्यों स्वतंत्र कर रहा है। कंपनी ने अपने बयान में पहले ही उत्तर दे दिया है: "डिजिटल संप्रभुता, डेटा, अवसंरचना और मॉडलों पर पूर्ण नियंत्रण"। गूगल जानता है कि जो डेवलपर जेम्मा 4 पर निर्माण करता है वह अभी भी गूगल क्लाउड का उपयोग करने के लिए एक स्वाभाविक उम्मीदवार है इन मॉडलों को चलाने के लिए, उनके डेटा एपीआई का उपभोग करने के लिए, और उनके प्लेटफॉर्म के चारों ओर चक्कर लगाने के लिए। मॉडल की खुलापन एक चारा है; अवसंरचना अभी भी व्यापार है।
यह डेवलपर के लिए लाभ को अमान्य नहीं करता। यह संदर्भ में लाता है। यहां मूल्य का वितरण असममित है लेकिन निष्कर्षणात्मक नहीं है: गूगल अवसंरचना के मूल्य को पकड़ता है, डेवलपर उत्पाद के मूल्य को पकड़ता है, और अंतिम उपयोगकर्ता उन सस्ते मॉडलों का लाभ उठाता है जो पहले से ही जेब में मौजूद उपकरणों पर चल रहे हैं।
2 अरब पैरामीटर का मॉडल सबसे सोचा-समझा कदम है
हेडलाइन 31 अरब मॉडल के बारे में बात करती है। सबसे दिलचस्प कदम 2 अरब का है।
जेम्मा 4 में दो संस्करण हैं जो एज उपकरणों के लिए डिज़ाइन किए गए हैं — 2 और 4 अरब पैरामीटर — जो वीडियो, छवियों और ऑडियो को संसाधित करने की क्षमता रखते हैं, और 140 से अधिक भाषाओं में प्रशिक्षित हैं। इसका मतलब है कि एक एप्लिकेशन सीधे एक स्मार्टफोन में अनुमानित प्रक्रिया चला सकता है, बिना किसी बाहरी सर्वर पर डेटा भेजे, एक मॉडल के साथ जो आवाज, चित्र और टेक्स्ट को समझता है, उन भाषाओं में जिन्हें अधिकांश स्वामित्व वाले मॉडल केवल थोड़ा ही कवर करते हैं।
इस परिदृश्य में अनुमानित लागत लगभग शून्य है। कोई नेटवर्क विलंबता नहीं है, कोई एपीआई लागत नहीं है, उपयोगकर्ता डेटा थर्ड-पार्टी डेटा केंद्रों की यात्रा नहीं कर रहा है। स्वास्थ्य, शिक्षा या वित्तीय सेवाओं जैसे क्षेत्रों के लिए, सख्त गोपनीयता नियमों के साथ या सीमित कनेक्टिविटी वाले बाजारों में, यह एक क्रमिक सुधार नहीं है: यह एआई को लागू करने में सक्षम होना या नहीं होना है।
यह तथ्य कि गूगल ने इंटरनेट कनेक्शन के बिना कोड जनरेशन की अनुमति भी दी है, इस तर्क को मजबूत करता है। एक सीमित अवसंरचना के साथ क्षेत्र में एक डेवलपर, या एक टीम जो संवेदनशील डेटा पर काम कर रही है जो कंपनी के परिधीय से बाहर नहीं जा सकती, अब किसी बाहरी प्रदाता पर निर्भर किए बिना कोड सहायता की एक उपकरण तक पहुंच रखती है। हगिंग फेस, काग्ल और ओलामा पर मॉडल के वेट्स की उपलब्धता इस विकेंद्रीकरण का समर्थन करती है: कोई एकल नियंत्रण बिंदु नहीं है।
श्रृंखला में कोई नहीं गणना कर रहा लागत
एक असहज पढ़ाई है जिसका ध्यान देने योग्य है। उच्च क्षमता के खुले मॉडलों की वृद्धि विशेषीकृत प्रदाताओं के लिए मार्जिन को संकुचित करती है जो आज मध्यम न्यायालयों में मूल्य प्रस्तावों के साथ मॉडल तक पहुँच बेचते हैं। उदाहरण के लिए, एक डेटा निकालने के मॉडल के लिए शुल्क लेने वाली एक कंपनी अब एक मुक्त, मल्टी-मोडल मॉडल के रूप में एक प्रतिस्पर्धी स्थिति का सामना करती है, जिसमें ऑप्टिकल कैरेक्टर पहचान और स्थानीय तैनाती की क्षमता होती है।
इसके दो समवर्ती प्रभाव हैं। अंतिम ग्राहक के लिए, सामान्य एआई समाधानों के लिए भुगतान करने की तैयारियां गिरती हैं। विशिष्ट प्रदाताओं के लिए, एकमात्र रास्ता मूल्य श्रृंखला में ऊपर चढ़ना है: मॉडल तक पहुँच बेचने से डेटा, एकीकृत कार्यप्रवाह या डोमेन ज्ञान बेचने में बदलाव, जो कोई भी मूल मॉडल नहीं दोहरा सकता। जो लोग अगले 18 से 24 महीनों में यह संक्रमण नहीं करते, उन्हें मूल्य निर्धारण का दबाव का सामना करना पड़ेगा, जिसकी उनकी लागत की संरचना को समाहित करने के लिए डिजाइन नहीं किया गया है।
जेम्मा 4 का लॉन्च व्यावसायिक एआई बाजार को नष्ट नहीं करता। यह अधिक क्रूरता से विभाजित करता है। और उस विभाजन में, जिन खिलाड़ियों का अस्तित्व है वे हैं जो उस मूल्य का निर्माण करते हैं जिसे मॉडल स्वयं नहीं बदल सकता है: स्वामित्व डेटा, एकीकृत प्रक्रिया, ग्राहक का विश्वास।
ओपन सोर्स को संरचनात्मक लाभ के रूप में देखें, परोपकार के रूप में नहीं
मुख्यधारा की कहानी जेम्मा 4 को डेवलपर्स के समुदाय के प्रति कॉर्पोरेट उदारता के एक कृत्य के रूप में प्रस्तुत करेगी। यह पढ़ाई गलत है। गूगल कुछ बहुत स्पेसिफिक खरीद रहा है: बड़े पैमाने पर अपनाना, वास्तविक कार्यान्वयनों से लाखों फीडबैक और डेवलपर के जीवनचक्र में पसंद की अवसंरचना के रूप में स्थिति।
इस कदम को बनाए रखने के पीछे जो चीज उसे सस्टेनेबल बनाती है, वह यह है कि डेवलपर के लिए मूल्य प्रस्ताव गूगल को कृत्रिम रूप से कम कीमतों को बनाए रखने पर निर्भर नहीं करता है। मॉडल पहले ही उपयोगकर्ता के हाथों में है। मूल्य उस समय उत्पन्न हुआ जब इसे डाउनलोड किया गया। गूगल यह समाप्त नहीं कर सकता।
यह एक प्लेटफार्म मॉडल के बीच संरचनात्मक अंतर है जो मूल्य की निर्भरता की व्यवस्था करता है और एक ऐसा जो क्षमता की निर्भरता को निर्माण करता है। पहले में, डॉमिनेंट एक्टर मूल्य को तब निकालता है जब उपयोगकर्ता बाहर नहीं जा सकता। दूसरे में, उपयोगकर्ता को बाहर जाने की आवश्यकता नहीं होती है क्योंकि संपत्ति पहले से ही उसके परिधीय के भीतर है। गूगल उस योजना में अपनी स्थिति बनाए रखने का एकमात्र तरीका यह है कि वह जेम्मा पर निर्माण करने के लिए सबसे अच्छा स्थान बना रहे, न कि एकमात्र स्थान।
उस आर्किटेक्चर में, डेवलपर टॉप-टियर क्षमताओं तक लाइसेंस शुल्क के बिना पहुँच पाता है। गूगल एक वितरण और अपनाने का चैनल प्राप्त करता है जिसे कोई विज्ञापन अभियान खरीद नहीं सकता। और अंतिम उपयोगकर्ता सस्ते और अधिक गोपनीय उत्पाद प्राप्त करते हैं। केवल वे अभिनेता हारते हैं जिन्होंने अपनी मूल्य प्रस्ताव को मॉडल के दुर्लभता पर स्थापित किया है, क्योंकि वह दुर्लभता अब मौजूद नहीं है।










