طبقة وسيطة بين التطبيقات ونماذج الذكاء الاصطناعي

لماذا تضع الشركات الكبرى طبقةً وسيطةً بين تطبيقاتها ونماذج الذكاء الاصطناعي

ثمة نمط يتكرر في كل مرة تتحول فيها تقنيةٌ ما من كونها تجربةً معزولة إلى بنيةٍ تحتية تعمل في الإنتاج الفعلي. حدث ذلك مع قواعد البيانات العلائقية، ومع الخدمات السحابية، ومع الخدمات المصغّرة. والآن يتكرر الأمر ذاته مع نماذج اللغة الكبيرة. والنمط يسير بصورة يمكن التنبؤ بها: في البداية، تربط المؤسسات تطبيقاتها مباشرةً بالتقنية الجديدة لأن ذلك هو المسار الأسرع. ثم، حين يتوسع النظام ويكبر، يبدأ هذا الاتصال المباشر في الأزّ والاحتكاك. لهذا الاحتكاك أسماء تقنية محددة — تذبذب زمن الاستجابة، وانقطاع الخدمة، وحدود معدلات الطلبات، والردود المقتطعة — غير أنه في جوهره مشكلة تصميم: لم يضع أحدٌ طبقةً وسيطة تمتص الاحتكاك قبل أن يصل إلى المستخدم.

إن ظهور بوابات الذكاء الاصطناعي — أو ما يُعرف في الأدبيات التقنية الإنجليزية بـ AI gateways — هو الاستجابة الهيكلية لذلك الاحتكاك. وما يجعلها ذات أهمية استراتيجية بالغة ليس المكوّن التقني في حد ذاته، بل ما تكشفه عن المرحلة التي وصل إليها تبني الذكاء الاصطناعي على مستوى المؤسسات: فالمؤسسات التي كانت تتحدث قبل قليل عن تجارب أولية ونماذج أولية، باتت اليوم تتحدث عن استمرارية العمليات، والتسامح مع الأعطال، وتكاليف البنية التحتية. هذه ليست نقاشات ابتكار، بل نقاشات هندسة إنتاج حقيقية.

---

الفجوة التي لم يصمم أحدٌ لتجنبها

إن فهم سبب تحوّل بوابات الذكاء الاصطناعي إلى ضرورة حتمية يستلزم فهم الطريقة التي ربطت بها معظم المؤسسات تطبيقاتها بنماذج اللغة خلال السنوات الأولى من التبني الواسع. وكانت البنية الأكثر شيوعاً هي الأكثر بساطةً وبداهةً: يستدعي تطبيقٌ ما واجهة برمجية لدى مزوّد الخدمة — OpenAI أو Anthropic أو غيرهما — وينتظر الرد. هذا التصميم يعمل في ظروف مضبوطة، أما في بيئة الإنتاج الفعلية فالظروف لا تكون كذلك قط.

لنماذج اللغة ملفٌ خاص بزمن الاستجابة يختلف اختلافاً جوهرياً عن واجهات البرمجة التقليدية. فقاعدة البيانات المُفهرَسة جيداً تستجيب في أجزاء من الثانية. أما نموذج اللغة فقد يستغرق عدة ثوانٍ، ويتفاوت هذا الوقت تبعاً لحجم الحمل على المزوّد، وتعقيد النص المُدخَل، وطول الرد المتوقع، وعوامل أخرى خارج نطاق سيطرة المؤسسة المستهلكة كلياً. وحين لا يكون للتطبيق سياسات محددة لمهلة الانتظار، يتحول الرد البطيء إلى طلب معلّق. وحين تتراكم طلبات معلقة متعددة في الوقت ذاته، يتدهور النظام بأكمله. إنه النمط ذاته من الفشل الذي تعلّم مهندسو الأنظمة الموزعة إدارته منذ عقود، غير أنه يُطبَّق الآن على طبقة جديدة من البنية التحتية.

والمشكلة الهيكلية الثانية تتعلق بموثوقية الإرسال في الوقت الفعلي. كثيرٌ من تطبيقات الذكاء الاصطناعي تُسلّم ردودها بصورة تدريجية — رمزاً تلو رمز — لأن ذلك يُحسّن الإحساس الذاتي بالسرعة لدى المستخدم. بيد أن هذا النمط من التسليم عرضةٌ للانقطاع وسط العملية. فإن لم تكن ثمة طبقة ترصد الانقطاع، وتعيد محاولة الطلب، وتعيد بناء التدفق للعميل، تصل إلى المستخدم استجابة منقوصة. والاستجابة المنقوصة ليست خطأً تقنياً بسيطاً: إنها اللحظة بالذات التي يقرر فيها المستخدم أن المنتج لا يعمل.

المتجه الثالث للهشاشة هو تعدد المزوّدين. لقد كانت استراتيجية الاعتماد على مزوّد واحد مريحةً في البداية، لكنها محفوفة بالمخاطر على المستوى التشغيلي مع التوسع. فالمؤسسات التي تعتمد على نموذج لغة واحد مكشوفةٌ تماماً لأي انقطاع يطرأ على ذلك المزوّد. تتيح بوابة الذكاء الاصطناعي توزيع الطلبات عبر مزوّدين متعددين، وتطبيق منطق التوجيه بحسب التوافر أو التكلفة، وعزل التطبيقات عن تغيرات الأسعار أو الأداء لدى أي مزوّد بعينه.

---

ما يفصل بين النموذج الأولي وقرار البنية المعمارية

ثمة تمييزٌ يتعلمه الفرق التقنية، وأحياناً في أعقاب حادثة خطيرة، بين بناء شيء يعمل وبناء شيء يواصل العمل حين يتغير السياق من حوله. وبوابة الذكاء الاصطناعي هي، من الناحية المعمارية، التجلي الفعلي لهذا التمييز المطبَّق على أنظمة اللغة.

تُحوِّل البوابة السياسات التشغيلية إلى مكان مركزي، بدلاً من أن تضطر كل تطبيق إلى تطبيقها على حدة: حدود إعادة المحاولة، وعتبات مهلة الانتظار، وتهيئة التراجع الأسّي حين يكون أحد المزوّدين مثقلاً بالطلبات. إذا تولّت كل تطبيق إدارة منطق الأخطاء الخاص به، كان النتيجة الحتمية هي التضارب: بعض التطبيقات ستمتلك سياسات معقولة، وبعضها الآخر لن يمتلك أي سياسة على الإطلاق. وحين يقع حدث تدهور لدى المزوّد — وهذا يقع لا محالة — فإن سلوك النظام بأسره يتوقف على مدى عمق تفكير كل فريق على حدة في ذلك السيناريو.

إن مركزة هذه السياسات ليست بيروقراطية تقنية. إنها الفارق بين مؤسسة قادرة على التنبؤ بكيفية تصرف أنظمتها تحت الضغط، ومؤسسة عاجزة عن ذلك. وهذه القدرة التنبؤية ذات قيمة مباشرة للعمل: تتيح تصميم ضمانات مستوى الخدمة، وحساب الأثر المالي للأعطال، وفي نهاية المطاف الحفاظ على ثقة المستخدم في التطبيقات التي تعتمد على الذكاء الاصطناعي.

وثمة بُعدٌ آخر لا يقل أهمية، يتعلق بالرؤية والمراقبة. فبدون طبقة مركزية للإدارة، لا تمتلك المؤسسات سوى قدرة شحيحة على فهم ما يجري في استهلاكها لنماذج اللغة: كم عدد الطلبات المُنفَّذة؟ بأي تكلفة؟ أيها يفشل؟ وكم يستغرق كل منها في المتوسط؟ تحوّل البوابة هذا التدفق المعتم إلى بيانات قابلة للرصد والقياس، وهي المادة الخام لأي قرار تحسين لاحق. لا يمكن إدارة ما لا يمكن رؤيته.

الحجة المضادة لإدخال هذه الطبقة الوسيطة تتمحور عادةً حول ما تضيفه من زمن استجابة إضافي. وهي حجة مشروعة في السياقات التي تعني فيها كل ميلي ثانية. لكن لمعظم حالات الاستخدام المؤسسية — المعالجة في الخلفية، وتدفقات الأتمتة، والمهام غير التفاعلية — فإن تكلفة زمن الاستجابة التي تفرضها البوابة هامشيةٌ مقارنةً بأوقات الاستجابة الجوهرية لنماذج اللغة التي تُقاس بالثواني. إن المقايضة الحقيقية هي بين زمن استجابة أعلى قليلاً وموثوقية أعلى جوهرياً. وللتطبيقات في بيئة الإنتاج، لهذه المقايضة إجابةٌ واضحة لا لبس فيها.

---

ما يكشفه هذا القرار على المستوى التنظيمي

ثمة ما يتجاوز البنية التقنية في اعتماد بوابات الذكاء الاصطناعي. إن اللحظة التي تقرر فيها مؤسسةٌ تطبيق هذه الطبقة تقول شيئاً دقيقاً ومحدداً عن مستوى نضجها التشغيلي في ما يتعلق بالذكاء الاصطناعي.

المؤسسات في مرحلة التجريب تعمل ببنى معمارية مباشرة لأن سرعة التكرار أقيم في تلك المرحلة من المتانة. وهذا صحيح في سياقه تماماً. يحدث الخطأ حين تنتهي مرحلة التجريب — حين يصبح للتطبيق مستخدمون حقيقيون، وحين تصبح تدفقات العمل معتمدةً على النظام، وحين يكون للعطل عواقب قابلة للقياس — ولا تتغير البنية المعمارية. يتحول الاتصال المباشر الملائم للنموذج الأولي إلى دين تقني حين يصبح النظام في بيئة إنتاج حقيقية.

النمط الذي يتكرر في المؤسسات التي نجحت في توسيع نطاق الذكاء الاصطناعي بفاعلية هو أن قرار البنية التحتية اتُّخذ قبل وقوع الحادثة الأولى، لا بعدها. إن ضبط سياسات إعادة المحاولة، وعتبات مهلة الانتظار، وتهيئة التراجع في خضم انقطاع نشط يطال مستخدمين متضررين ويولّد ضغطاً للحل، يُفضي إلى نتائج أسوأ بكثير مما لو جرى ذلك بهدوء ووقت كافٍ وبيانات تاريخية.

هذا أيضاً قرارٌ تنظيمي لا مجرد قرار تقني. فالفرق التي تبني تطبيقات ذكاء اصطناعي بتكامل مباشر مع الواجهات البرمجية لديها حوافز طبيعية لمقاومة إدخال طبقة إضافية يرونها احتكاكاً في سرعة تطويرهم. ويستلزم التغلب على هذه المقاومة أن يُوضّح قادة المنصات بجلاء أن البوابة ليست عقبة بيروقراطية، بل هي ما يُعادل في عالم الذكاء الاصطناعي الممارسات الهندسية للموثوقية التي يطبقونها أصلاً على سائر بنيتهم التحتية. الموثوقية ليست ميزةً تُضاف في النهاية، بل هي خاصية تُصمَّم منذ البداية.

وقد توسّع سوق الحلول في هذا الفضاء توسعاً سريعاً خلال الثمانية عشر شهراً الماضية. تتنافس منصات متخصصة كـ Portkey وLiteLLM وKong، إلى جانب عروض مزوّدي البنية التحتية الراسخين كـ Cloudflare، على تأسيس مواقعها بوصفها الطبقة المعيارية لإدارة نماذج اللغة في البيئات المؤسسية. إن تقارب الوظائف بين هذه المنصات — التوجيه عبر مزوّدين متعددين، وتتبع التكلفة لكل رمز، والتخزين المؤقت للردود، والمراقبة والرصد — يشير إلى أن السوق يبلغ مرحلة نضج تسبق عادةً موجة التوحيد والاندماج. ومن المرجح أن تشهد الأربعة والعشرون شهراً المقبلة عمليات استحواذ من قِبل مزوّدي السحابة أو منصات إدارة الواجهات البرمجية الراسخة الساعية إلى دمج هذه القدرة في عروضها القائمة.

---

التصميم الذي لا يُرتجل تحت الضغط

بنية بوابات الذكاء الاصطناعي ليست ابتكاراً مفاهيمياً بالغ الجدة. إنها تطبيقٌ للمبدأ ذاته الذي أسّس لبوابات الواجهات البرمجية التقليدية، وخوادم الوكالة في بنى الخدمات المصغّرة، وطبقات إدارة قواعد البيانات: حين تكون التبعية الخارجية بالغة التعقيد وعدم القدرة على التنبؤ، فإن الذكاء التشغيلي يجب أن يُمركَز في طبقة وسيطة تعزل التطبيقات عن تلك التعقيدات.

ما يحوّل هذه البنية المعمارية إلى قرار استراتيجي لا مجرد قرار تقني، هو توقيت اتخاذه. المؤسسات التي تدمجه كجزء من التصميم الأولي لمنصات الذكاء الاصطناعي لديها تبني على أساس قادر على استيعاب النمو دون الحاجة إلى إعادة كتابة مكلفة. أما تلك التي تُدخله بعد الحوادث الجسيمة الأولى، فتدفع ثمناً مضاعفاً: ثمن الدين التقني، وثمن اهتزاز ثقة المستخدم.

نظامٌ للذكاء الاصطناعي يفشل بصورة معتمة، دون سياسات لإعادة المحاولة، ودون إدارة لمهلة الانتظار، ودون رؤية لما يجري في الداخل، ليس بنيةً تحتية للإنتاج. إنه نموذجٌ أولي مع مستخدمين حقيقيين. البوابة هي الهيكل الذي يحوّل الثاني إلى الأول، وإنجاز ذلك على نحو صحيح يستلزم اتخاذ قرار التصميم قبل أن يُزيل الضغط التشغيلي المساحة اللازمة للتفكير بوضوح.