استثمار علي بابا في الذكاء الاصطناعي

علي بابا تستثمر 290 مليون دولار في مستقبل الذكاء الاصطناعي بعيدا عن النصوص

في بداية أبريل 2026، قادت شركة علي بابا كلاود جولة تمويلية بقيمة 2 مليار يوان (حوالي 290 مليون دولار) في شركة ShengShu Technology، وهي شركة ناشئة صينية عمرها ثلاث سنوات معروفة بشكل رئيسي بمنشئ الفيديو "Vidu" الذي يعتمد على الذكاء الاصطناعي. وشارك في العملية أيضا كل من TAL Education وBaidu Ventures. الأمر الملحوظ ليس المبلغ، على الرغم من كونه كبيراً، بل هو الغرض من هذه الأموال.

الوجهة المعلنة ليست لتحسين Vidu أو توسيع عملها في مجال الفيديو، بل لبناء نموذج عالمي عام، مدرب على بيانات متعددة الأنماط تشمل الرؤية والصوت واللمس، مع تطبيقات مباشرة في الروبوتات والقيادة الذاتية. من الناحية التشغيلية، تسعى ShengShu إلى جعل الذكاء الاصطناعي يتعلم كيفية التفاعل مع فيزياء العالم، وليس فقط معالجة تسلسلات النصوص.

تعتبر هذه الميزة ذات أهمية أكبر مما يبدو في العناوين.

لماذا لا يمكن لنماذج اللغة التقدم بمفردها

تعد نماذج اللغة الكبيرة فعالة بشكل استثنائي داخل نطاقها: في التفكير الرمزي وتوليد النصوص وتلخيص المعلومات. ومع ذلك، فإنها تعاني من قيود هيكلية لا يمكن لحل إضافي من المعلمات أن يحلها بمفردها: لا يمكنها التعميم على بيئات فيزيائية ذات حلقة مغلقة. يحتاج الروبوت الذي يحتاج إلى ضبط القوة الدقيقة لحمل جسم هش إلى أن يكون قد "رأى" الآلاف من التكرارات لذلك الجسم، في ظل ظروف إضاءة وملمس وحرارة مختلفة. يحتاج، من الناحية التقنية، إلى نموذج للعالم.

هذه ليست مجرد تكهنات: إنها عنق الزجاجة الذي يحد اليوم من الانتشار الواسع للروبوتات المستقلة. ستجد الشركات التي تحاول توسيع نطاق الروبوتات في التصنيع أو اللوجستيات أو الرعاية الصحية أن نماذج لغتها، مهما كانت متطورة، تفشل عند نقل سلوكها من المحاكاة الرقمية إلى البيئات الحقيقية. يُطلق على هذا الظاهرة اسم فجوة المحاكاة إلى الواقع، وهي الفجوة بين ما يتعلمه النموذج في بيئة محاكاة وما يمكنه تنفيذه في العالم المادي بتغيراته الحقيقية.

تعمل ShengShu على بناء البنية التحتية التي تغلق تلك الفجوة. وعلي بابا تدفع ثمن ذلك.

من وجهة نظر 6Ds لتطوير التكنولوجيا، يُعد هذا التحرك انتقالًا من تقنية كانت لسنوات في مرحلة رقمنة وخيبة أمل —حيث تتجاوز الوعود النتائج في التطبيقات المادية— نحو مرحلة اضطراب ملموس في القطاعات الصناعية. لن يأتي هذا الاضطراب من نصوص أكثر دقة؛ سيأتي من محاكاة أكثر دقة.

الحسابات وراء هذا الاستثمار

الحجم التراكمي لتمويل ShengShu في غضون شهرين —ما يقرب من 380 مليون دولار في المجموع— ليس مصادفة. يكشف عن اقتصاديات بناء نموذج عالمي بحجم كبير.

بين فئات الإنفاق الأكثر كثافة في هذا النوع من المشاريع ثلاثة: جمع البيانات المتعددة الأنماط (فيديو، استشعار، صوت، لمسي)، تطوير منصات المحاكاة لتوليد بيانات صناعية عالية الدقة، وبنية تحتية حاسوبية لتدريب النماذج التي تتعامل مع هذا التنوع من الإشارات. لا توجد أي من هذه الفئات الثلاث رخيصة، ولا تتوسع بشكل خطي.

بالنسبة لعلي بابا كلاود، فإن الحساب الاستراتيجي مختلف عن ShengShu. تحتاج السحابة إلى قطاعات عالية القيمة للحوسبة لتبرير بنيتها التحتية. نماذج العالم العامة —لما تحتاجه من تدريب مستمر، ومحاكاة واستدلال في الوقت الحقيقي— هي بالضبط نوع عبء العمل الذي يحول القدرة السحابية غير المستغلة إلى إيرادات متكررة. إن مشاركة علي بابا في ShengShu ليست مجرد استثمار مالي؛ إنها وسيلة لخلق طلب محجوز لمنصتها.

هذا النمط يتماشى مع تحركات علی بابا الأخيرة: إطلاق HappyHorse 1.0 —نموذج توليد الفيديو الذي تصدر تصنيفات Artificial Analysis العالمية في أبريل 2026— و RynnBrain، أداتها لرسم خرائط الأجسام في الروبوتات. إن علی بابا لا تستثمر في مجرد رهان واحد؛ بل تبني طبقات من نفس هيكلة الأعمال حيث تعزز السحابة والنماذج الخاصة والشركات الناشئة المساهمة بعضها البعض.

ارتفعت أسهم علي بابا في هونغ كونغ بنسبة 2.12% في 10 أبريل 2026 بعد تأكيد HappyHorse، في يوم تقني كان قد ارتفع بالفعل بنسبة 6.75%. لقد قرأ السوق نمطًا مماثلاً.

عندما يتوقف الفيديو عن كونه ترفيهًا ويصبح بيانات صناعية

هناك تحول مفاهيمي يستحق الذكر لأنه له تداعيات على أي شركة تفكر في الذكاء الاصطناعي كأداة إنتاجية: أصبح الفيديو التوليدي مصدرًا للبيانات التدريبية للأنظمة الفيزيائية، وليس مجرد منتج للاستهلاك.

Vidu، مولد الفيديو الخاص بـ ShengShu، ليس مصير الشركة. إنه آلية لتجميع البيانات البصرية التي ستغذي نموذج العالم. كل فيديو يتم إنشاؤه، كل تفاعل للمستخدم، كل اختلاف في المشهد هو، وفقًا للاقتصاديات الداخلية لـ ShengShu، نقطة بيانات حول كيفية تصرف العالم بصريًا. وبمجرد توسيعه إلى عشرات الملايين من التفاعلات، يصبح هذا المستودع بمثابة قاعدة لتدريب نظام يحتاج في النهاية إلى فهم السببية الفيزيائية، وليس مجرد الارتباط الإحصائي.

هذه المنطقية لها نظير تاريخي مباشر: لم تبنِ جوجل خدمة Street View لبيع صور الشوارع. بل بنته لتدريب أنظمة التعرف البصري التي تغذي اليوم من خرائطها إلى حساسات مشاريعها للقيادة الذاتية. تقوم ShengShu بعمل مشابه هيكلي: استخدام منتج للاستهلاك الجماهيري كآلية لجمع البيانات من أجل تطبيق صناعي ذي قيمة أكبر.

بالنسبة للقادة التنفيذيين في أي شركة تعمل في التصنيع أو اللوجستيات أو الصحة أو التنقل، الرسالة واضحة: الشركات التي تتحكم اليوم في مستودعات البيانات المتعددة الأنماط ذات الجودة —الفيديو، الاستشعار، الصوت في سياقات فعلية— تتمتع بميزة يصعب شراؤها بسهولة في سوق البيانات الفوري. تستورد تجميع البيانات الآن، قبل أن تنضج نماذج العالم.

الانتقال قد بدأ، والنص هو مجرد الدرجة الأولى

علي بابا، وشينغشو، وByteDance، وعدد متزايد من اللاعبين الصينيين والعالميين يتنافسون في سباق ليس جائزة أفضل دردشة آلية. الجائزة هي السيطرة على الطبقة الذكية التي تربط العالم الرقمي بالعالم الفيزيائي: الروبوتات الصناعية، والمركبات الذاتية القيادة، وأنظمة التصنيع القابلة للتكيف.

لقد ديمقراطية نماذج اللغة الوصول إلى التفكير الرمزي. كانت هذه هي الدرجة الأولى. إذا وصلت نماذج العالم إلى النضج الفني الذي يفترض هذا الاستثمار أنه ممكن، فستديمقراطية الوصول إلى التفكير الفيزيائي: القدرة على عمل أنظمة ذاتية الحكم مع معايير في بيئات متغيرة، دون تدخل بشري مستمر. هذه الانتقالية تحدد أي الشركات والصناعات تحتفظ بالسيطرة على عملياتها الإنتاجية وأيها تتنازل عن هذه السيطرة لمن يمتلكون بنية الذكاء.

تسجل استثمار علي بابا في ShengShu البداية المرئية لمرحلة الاضطراب في الروبوتات والصناعة الفيزيائية. لا تفعل ذلك من خلال منتج نهائي، بل من خلال البيانات الأكثر ندرة في القطاع: القدرة على محاكاة العالم بدقة كافية لتدريب الأنظمة التي ستعمل فيه لاحقًا. فهذه القدرة، بمجرد تثبيتها، لا تعيد تقييم الجانب المادي بل تعيد تحديد من له الحق في تحصيل الأجر عن الذكاء الذي يحرك جميع الأشياء.