نسيان الذكاء الاصطناعي: مشكلة بنية تحتية

نسيان أنظمة الذكاء الاصطناعي ليس مشكلة نماذج، بل مشكلة بنية تحتية

ثمة مشهد يعرفه فرق منتجات الذكاء الاصطناعي جيداً، بل ربما أكثر مما يودون. يقضي أحد المستخدمين عشرين دقيقة في بناء سياق متكامل مع مساعد آلي: الميزانية، والقيود الغذائية، والتواريخ التي لا تقبل التغيير، وتفضيلات أفراد عائلته. ثم، بعد ثلاثة أدوار فحسب، يتصرف النظام كأن تلك المحادثة لم تجرِ قط. يتصل المستخدم بقسم الدعم، فيُحيله الدعم إلى فريق المنتج، فيتصل فريق المنتج بمزود النموذج، ليأتي رد المزود، وهو محق في ذلك، بأن نموذجه عمل على النحو الذي صُمِّم من أجله تماماً.

لأن النموذج لم ينسَ شيئاً. النموذج لم يكن يملك وصولاً إلى تلك المعلومات من الأساس.

يبدو هذا التمييز تقنياً وهامشياً، حتى تحسب ما يكلفه. فكل إخفاق في الاستمرارية داخل مساعد للاستخدام المؤسسي ليس مجرد احتكاك في تجربة المستخدم؛ بل هو مؤشر على أن النظام يُعيد بناء الصورة الخاطئة للعالم قبل أن يطلب من النموذج أن يستدل عليها. وحين يتضاعف هذا النمط عبر آلاف الجلسات اليومية، فإن التكلفة لا تُقاس بمجرد اكتظاظ قسم الدعم، بل تُقاس بالثقة الضائعة، وسير العمل المهجورة، والعائد على الاستثمار الذي لا يتحقق أبداً.

الخبر السار هو أن للمشكلة حلاً. والخبر السيئ هو أن معظم المنظمات لا تزال تجهل أين يكمن المشكل الحقيقي.

النموذج بريء. الأنبوب هو المذنب.

نماذج اللغة الكبيرة هي، بطبيعة تصميمها، كيانات عديمة الحالة. كل استدعاء لواجهة برمجية هو حدث رياضي مستقل. النموذج لا يحتفظ بذاكرة بين الأدوار، ولا يملك وصولاً إلى الجلسة السابقة، ولا وسيلة ليعلم أن المستخدم سبق أن أخبره بأن ميزانيته أربعة آلاف دولار. ما يراه النموذج في كل دور هو بالضبط ما يرسله إليه النظام في ذلك الدور، لا أكثر ولا أقل.

هذا يعني أن وهم الاستمرارية بأسره، وكل ما يجعل المساعد يبدو كأنه "يتذكر"، يعتمد حصراً على ما يحدث قبل أن تصل الطلبية إلى النموذج. لهذه العملية اسم تقني يزداد ثقلاً استراتيجياً يوماً بعد يوم: أنبوب السياق.

يُنفِّذ أنبوب السياق المُحكَم البناء ثلاث مراحل في كل دور. أولاً، الترطيب: استخراج السجل التاريخي ذي الصلة من التخزين، وبيانات التعريف الخاصة بالمستخدم، والتمثيلات المتجهية التي تلتقط ما قيل من قبل. ثانياً، التجميع: تصفية تلك المادة الخام وضغطها وهيكلتها في حمولة متماسكة. ثالثاً، التنفيذ: إرسال تلك الحمولة المجمَّعة إلى نقطة الاستدلال. وحين يُخفق النظام في محاكاة الذاكرة، يكون الإخفاق قد وقع في إحدى هذه المراحل الثلاث، لا داخل النموذج.

تُحدِّد فرق الهندسة التي تشخِّص هذه الإخفاقات أربع مناطق تتكسَّر فيها الأنابيب بصورة أكثر تكراراً. الأولى هي الاسترداد المعيب: لا يستخرج النظام المعلومة الصحيحة من التخزين. الثانية هي الضغط مع الفقدان: تُدهور الملخصات المتجددة القيوداً الدقيقة حتى تحولها إلى عموميات لا قيمة لها. الثالثة هي تخفيف السياق: إرسال قدر مفرط من المادة إلى النموذج يدفن البيانات ذات الصلة تحت ضوضاء هائلة. الرابعة هي أخطاء التجميع: كتل معلومات مرتبة ترتيباً خاطئاً، أو محددات غائبة، أو نسخ قديمة تُحقَن قبل تصحيحات المستخدم.

كل واحدة من هذه المناطق المعطلة تبدو، من منظور المستخدم، متشابهة: مساعد نسي ما أُخبر به. غير أنها تشير إلى مكونات مختلفة كلياً في بنية المكدس. محاولة حل إخفاق الاسترداد عبر إعادة كتابة موجَّه النظام يشبه إضافة ذاكرة عشوائية إلى خادم قرصه الصلب تالف.

البنية الحقيقية التي تفصل النماذج التجريبية الناجحة عن تلك التي تظل حبيسة التجربة

القفزة من تطبيق ذكاء اصطناعي يعمل في العروض التوضيحية إلى واحد يعمل في الإنتاج تحت حمل حقيقي يعتمد، إلى حد بعيد، على اختيار بنية الذاكرة الصحيحة لكل طبقة من طبقات المشكلة. لا توجد حلول واحدة تصلح للجميع. كل مقاربة تحل اختناقاً وتولِّد آخر.

النافذة المنزلقة، أي تضمين آخر N رسالة وتجاهل ما سواها، هي خيار البنية التحتية صفرية. تُنشر في ساعات. وتضمن اختفاء أي قيد مُحدَّد في بداية جلسة طويلة من السياق الفعّال. وهي كافية للمساعدين الذين يتعاملون مع معاملات قصيرة وعديمة الحالة. أما لأي سير عمل مؤسسي تعتمد قراراته على شروط وضعت قبل عشرين دوراً، فهي فخ محقق.

البحث الدلالي على المتجهات يحل هذه المشكلة جزئياً. بدلاً من أخذ آخر N رسالة، يُمثِّل النظام الاستعلام الحالي كمتجه ويسترد الأجزاء الأكثر صلة تاريخياً من قاعدة البيانات. حين يطرح المستخدم سؤالاً يعتمد على معلومة أدلى بها في بداية المحادثة، يمكن للبحث المتجهي الوصول إليها حتى لو مرت عشرات الأدوار. لكن تكلفة ذلك ليست هيِّنة: تتطلب بنية تحتية للفهرسة، ومعايرة لعتبات الترتيب، ومنطقاً للحداثة، وتقييماً مستمراً لأداء الاسترداد. قاعدة البيانات المتجهية ترسم القرب الرياضي، لا الأهمية التشغيلية. وهذا التمييز يستلزم ضبطاً دائماً.

حيث يُخفق البحث المتجهي هيكلياً هو في القيود الصارمة. حد أقصى للميزانية، حساسية غذائية، رقم حساب، مستوى خدمة تعاقدي. هذه ليست قطع معلومات ينبغي أن تتنافس في ترتيب التشابه الدلالي. بل هي حقائق يجب أن يكون النظام قادراً على حقنها بيقين في كل دور دون الاعتماد على البحث لاستردادها. مخازن الكيانات، وهي قواعد بيانات منظمة تُحفظ فيها هذه القيود كحقول منفصلة وقابلة للتحديث، تحل تلك المشكلة باسترداد حتمي. إذا صحَّح المستخدم ميزانيته من أربعة آلاف إلى خمسة آلاف دولار، يُحدِّث النظام الخلفي حقلاً محدداً، ولا يُضيف تصحيحاً في نهاية ملخص نصي. يتلقى النموذج الرقم الصحيح دائماً لأنه لا غموض في طريقة تخزينه.

بالنسبة للعلاقات المعقدة بين الكيانات، يُضيف الاسترداد القائم على الرسوم البيانية طبقة إضافية من الدقة. إذا احتاج النظام إلى معرفة أن ابنة المستخدم لديها حساسية من الفول السوداني، وأن زوجه يفضل مقعد الممر، وأن والديه يحتاجان غرفة في الطابق الأرضي، فقد يسترد البحث الدلالي هذه الحقائق الثلاثة لكنه يفقد المسار الذي يحدد لمن تنطبق كل قيد منها. تخزِّن بنية الرسم البياني تلك العلاقات كروابط صريحة بين الكيانات وتتيح اجتيازها أثناء الاسترداد. الحمل التشغيلي كبير، من تصميم المصطلحات إلى الصيانة المستمرة للرسم البياني، لكن في مجالات كالرعاية الصحية والسفر والخدمات المالية، حيث تكون القيود علائقية بطبيعتها، لا يكون هذا التعقيد اختيارياً.

البنية الأكثر متانة في الإنتاج تجمع هذه الطبقات في مكدس متدرج: مخزن مؤقت للأدوار الأخيرة للحفاظ على تدفق المحادثة الفوري، وطبقة متجهية للوقائع ضمن الجلسة والمحاور متوسطة المدى، وقاعدة بيانات منظمة لملفات تعريف المستخدمين وتفضيلاتهم على المدى البعيد. فوق هذا المكدس، يقرر موجِّه السياق بحسب نوع الرسالة أي الطبقات يُفعِّل. رسالة تأكيد بسيطة لا تحتاج الاستعلام عن أي قاعدة بيانات. طلب حجز يُفعِّل مخزن الكيانات، والسجل الأخير، وحالة الأدوات. الهدف ليس أثقل أنبوب ممكن. الهدف هو أكثر أنبوب انتقائية ممكن.

إمكانية الملاحظة التي لا يبنيها أحد حتى يُخفق النظام في الإنتاج

ثمة نمط يتكرر بما يكفي لاعتباره بنيوياً. يُطلِق فريق مساعداً آلياً، ويتلقى تقارير من مستخدمين يقولون إن النظام "لا يتذكر"، فيكون رد الفعل الفوري إعادة كتابة تعليمات النظام. تُضاف عبارات بأحرف كبيرة: "تذكَّر دائماً ميزانية المستخدم". لا يتحسن السلوك. يُرقِّي الفريق النموذج إلى نسخة أغلى. لا يتحسن السلوك أيضاً. في نهاية المطاف، يراجع أحدهم الحمولة الدقيقة التي وصلت إلى النموذج لحظة الإخفاق، فيكتشف أن الميزانية لم تُسترد أصلاً من قاعدة البيانات، أو أنها استُردت لكنها صُفِّيت قبل التجميع، أو أنها أُدرجت لكنها وُضعت في نهاية موجَّه من ثلاثين ألف رمز حيث لم يعالجها النموذج فعلياً.

كل واحد من هذه السيناريوهات يستلزم تدخلاً مختلفاً كلياً. دون رؤية لحالة الأنبوب الدقيقة لحظة الاستدلال، يصبح التشخيص ضرباً من التخمين. والتخمين في أنظمة الذكاء الاصطناعي له ثمن: وقت هندسة مُهدَر، وتكرارات في الموجَّهات لا تحل شيئاً، وتآكل متراكم في ثقة المستخدم بينما يعمل الفريق التقني في المكان الخاطئ من المكدس.

التتبع الحتمي يحل هذا. سجِّل الموجَّه المجمَّع كاملاً، مع قرارات التوجيه الفعّالة ومخرجات الأدوات الخام، في اللحظة الدقيقة السابقة للاستدلال. بهذه الرؤية، يتوقف سؤال التشخيص عن كونه "لماذا تصرف النموذج هكذا" ليصبح "ما الذي تلقاه النموذج بالضبط". هذا هو الفرق بين تصحيح أخطاء خدمة مصغرة بسجلات الطلبات ودونها.

يُكمِّل التقييم غير المتصل عملية التتبع في الإنتاج. بناء مجموعات اختبار تضم محادثات متعددة الأدوار حيث تعتمد الإجابة الصحيحة على قيود وُضعت في بداية الجلسة يُتيح قياس ما إذا كان النظام يسترد تلك البيانات ويستخدمها بصورة صحيحة قبل النشر. المقاييس التي تهم في هذا السياق ليست مقاييس المعيار القياسي للنموذج: بل هي معدل دقة الاسترداد، ودقة استرجاع الذاكرة، والاستخدام الفعلي للسياق المحقون، وزمن الاستجابة التراكمي لطبقات الاسترداد. بدون هذه المقاييس، تُحسِّن الفرق وكلاء يبدون جيدين في الاختبار المعزول لكنهم لا يتنبؤون بسلوك النظام الكامل.

الميزة التنافسية لم تعد في النموذج الذي اخترته

مع تقارب نماذج الحافة في قدرات الاستدلال، يتحول التميز نحو البنية التحتية المحيطة بها. المنظمة التي نشرت النموذج الأكبر عام 2023 لم تعد تمتلك ميزة بنيوية على من نشر نموذجاً أصغر لكن بأنبوب سياق أكثر دقة. تُظهر الأبحاث التي نشرتها فرق البيانات المؤسسية فروقاً جوهرية في دقة الإجابات بين الأنظمة التي تعمل على مخططات بدون سياق منظَّم والأنظمة التي تمتلك طبقات سياق محكومة، وهي فروق لا يستطيع أي تعديل في الموجَّه تعويضها.

ما يعنيه هذا على صعيد التخطيط الاستراتيجي للمنتج ليس بالأمر الهين. أولاً، يصبح اختيار مزود النموذج أقل حسماً من بنية الذاكرة. ثانياً، الفرق التي بنت طبقة السياق الخاصة بها على بنية تحتية مفتوحة ومملوكة تمتلك قدرة التنقل: يمكنها تغيير النموذج دون إعادة بناء تمثيل معرفتها. الفرق التي حقنت قيودها مباشرة في موجَّهات ملكية لا تمتلك هذه المرونة. ثالثاً، تصبح حوكمة السياق، من يستطيع تحديث أي حقل في مخزن الكيانات، وفي أي ظروف، وبأي مراجعة، سؤالاً في البنية التنظيمية لا يستطيع فرق المنتج تفويضه إلى فرق البيانات إلى أجل غير مسمى.

المساعد الذي يبدو أكثر كفاءة للمستخدم النهائي ليس بالضرورة ذلك الذي يعمل على النموذج ذي المعاملات الأكثر. عادةً ما يكون ذلك الذي يمتلك أكثر أنظمة إدارة الحالة صرامة من خلفه. هذا هو الفرق بين الذكاء الظاهري والذكاء المستدام على نطاق واسع. وبناء الثاني يستلزم التعامل مع أنبوب السياق بالمستوى ذاته من الانضباط الهندسي الذي يُطبَّق على أي مكوِّن آخر حرج في البنية التحتية: بعقود واجهات، والتحقق من صحة المخططات، والإصدار، والمراقبة الدائمة.

المنظمات التي تستمر في تشخيص إخفاقات السياق باعتبارها إخفاقات في النموذج ستواصل الاستثمار في الجزء من المكدس الذي يحتاجه أقل.