ما الذي يكشفه البحث حول نماذج اللغة والصوت؟

تظهر الأبحاث أن نماذج اللغة تحتوي على تمثيلات صوتية دون الحاجة لملفات صوتية.

كيف يمكن للشركات الناشئة الاستفادة من هذه المعرفة؟

ينبغي لها بناء على المعرفة الموجودة لتقليل التكاليف والوقت للمنتج.

لماذا يفضل المستثمرون التكرار على استخدام المعرفة القديمة؟

لأن العملية الجديدة تبدو أكثر جاذبية رغم وجود تكلفة عالية.

ما هي العواقب الناجمة عن انتظار النموذج المثالي؟

يمكن أن يؤدي ذلك إلى خسارة السيطرة وتأخير العائد.

كيف يمكن للشركات تحقيق تأثير أكبر؟

من خلال الإطلاق المبكر وتحقيق المدفوعات من العملاء.

ما تعرفه نماذج اللغة عن الصوت

ما يعرفه نماذج اللغة عن الصوت قبل أن يسمعوه

هناك اكتشاف يدور بين فرق البحث في الذكاء الاصطناعي يبدو للوهلة الأولى مجرد فضول تقني. لكن تحت هذه الطبقة، تتواجد درس مهم في الهيكل المالي الذي لا يزال مؤسسو الشركات الناشئة في مجال الذكاء الاصطناعي عاجزين عن فهمه تمامًا.

تشير الأبحاث المنشورة في HackerNoon إلى أن نماذج اللغة المدربة حصريًا على النصوص —دون أي ملف صوتي واحد في بياناتها— تحتوي بالفعل على تمثيلات داخلية كافية للتنبؤ بأداء نماذج الصوت المتخصصة. بعبارة أخرى: قبل توصيل أي جهاز تشفير صوت، تتوقع نموذج اللغة كيف سيتصرف. المعرفة الصوتية موجودة كمخزون في اللغة، نائمة بين ملايين الفقرات حول الموسيقى والصوتيات والطب السمعي وترجمة المحادثات.

بالنسبة لمهندس، هذه نتيجة مثيرة. بينما لمؤسس شركة ناشئة يمتلك عامًا واحدًا من رأس المال المتاح ويملك عرضًا يقدم "ذكاءً اصطناعيًا صوتيًا من الجيل التالي"، يجب أن تكون هذه المسألة أكثر إلحاحًا: إشارة على أن رأس المال الذي أوشك على الاحتراق في بنية التدريب قد لا يكون عاملاً مقيدًا بعد الآن.

المعرفة التي دفعت ثمنها دون أن تعرف

كانت المنطق السائد في تطوير منتجات الذكاء الاصطناعي خطيًا ومكلفًا: تحتاج إلى بيانات صوتية لبناء نماذج صوتية. وهذا يستلزم فرق من التعليق، تراخيص مجموعات البيانات، بنية حوسبة متخصصة، ودورات تدريب قد تمتد لأسابيع. كل مرحلة من تلك المراحل تحرق رأس المال الثابت قبل أن يدفع أي زبون أي مبلغ.

ما تظهره هذه النتيجة هو أن جزءًا كبيرًا من هذا العمل قد تم بالفعل، ودُفع ثمنه جماعيًا من قبل عمالقة التكنولوجيا الذين قاموا بتدريب نماذج اللغة الكبرى. التمثيلات الصوتية —هيكلها، أنماطها، علاقاتها مع اللغة البشرية— موجودة بالفعل داخل تلك النماذج. مهمة المؤسس ليست بناء كل شيء من الصفر؛ بل تعلم كيفية استجواب ما هو موجود بالفعل.

وهذا له تداعيات مباشرة على هيكل التكاليف لأي شركة ناشئة تعمل في مجال الصوت، التعرف على الصوت، تحليل المشاعر الصوتية أو تركيب الصوت. إذا كانت المعرفة الأساسية متاحة بالفعل كبنية تحتية مشتركة، فإن التكلفة التغييرية لبناء النسخة الأولى من منتج تتقلص بشكل دراماتيكي. وتكاليف بداية أقل تعني أن الطريق إلى البيع الأول - الحدث الوحيد الذي يجعل شركة ناشئة حقيقية - يمكن أن يتقلص من شهور إلى أسابيع.

لكن هنا تكمن الفخ: ستستمر العديد من الفرق المؤسسة في الاستثمار في تكرار ما هو موجود بالفعل لأن عملية التدريب الخاصة لها جاذبية سردية قوية للمستثمرين. "نموذجنا" يبدو أفضل من "استخدمنا ما هو موجود بالفعل وبنينا فوقه". هذا خطأ في التموضع قد يكلف الشركة.

الفرق بين شركة ناشئة في مجال الذكاء الاصطناعي ومختبر مدعوم

النمط الذي أراه بشكل متكرر في الشركات الناشئة في الذكاء الاصطناعي - especialmente التي تعمل في مجالات تقنية مثل الصوت - هو الخلط بين البحث والأعمال. يبنون فرقًا كثيفة من علماء البيانات، ويتراكمون ديونًا تقنية في بنية تحتية خاصة، ويؤجلون لحظة البيع مع الوعد بأنه "عندما يكون النموذج جاهزًا، سيصل الزبائن".

هذا ليس شركة ناشئة. إنه مختبر يحرق رأس المال المغامر على أمل أن يشتريه شخص ما قبل أن ينفد المال.

تشير النتائج المتعلقة بالمعرفة الصوتية الكامنة في نماذج اللغة إلى الاتجاه المعاكس تمامًا. إذا كانت 70٪ من المعرفة التقنية اللازمة موجودة بالفعل في نماذج مدربة مسبقًا متاحة للجمهور أو تجارية، فإن 70٪ من عمل مؤسس ذكي ليس تقنيًا: بل هو توزيع وفهم للعميل وتصميم لنموذج الفوترة.

يمكن لشركة ناشئة تبني على المعرفة الموجودة سابقًا أن تطلق نسخة وظيفية من منتجها بفريق صغير، وتحصيل النقود من الشهر الأول - حتى بأسعار منخفضة للتحقق من الاستعداد للدفع - واستخدام هذا التدفق النقدي لتمويل التكرارات التالية. هذه ليست استسلامًا للصغر؛ بل هي الهيكل المالي الوحيد الذي يضمن بقاء تأثير المنتج خلال أزمات التمويل.

البديل - انتظار الحصول على النموذج المثالي، مجموعة البيانات الخاصة، والبنية التحتية الخاصة - هو رهان كبير على جولة رأس المال التي قد لا تصل، أو قد تصل بشروط تخفف السيطرة إلى درجة تجعل المؤسسين يتوقفون عن اتخاذ القرارات الهامة.

الأصل غير المرئي الذي لا يعتمده أحد

هناك مستوى ثاني من التحليل يبدو لي ذا صلة بنفس القدر للقادة الذين يقيمون أين يوجهون ميزانيات التكنولوجيا خلال السنوات القادمة.

إذا كانت نماذج اللغة تحتوي بالفعل على تمثيلات صوتية قابلة للاستخدام، فإن القيمة المتراكمة داخل تلك النماذج أكبر بكثير مما يقدره السوق. الشركات التي دفعت ثمن الوصول إلى تلك النماذج - من خلال واجهات برمجة التطبيقات أو التراخيص - جالسة على أصل بقدرات لم تكتشف بالكامل بعد. وتلك التي تبني منتجات صوتية على افتراض أنها تحتاج إلى البدء من الصفر تترك أموالًا على الطاولة.

بالنسبة للمدير المالي، ينبغي أن تترجم هذه إلى سؤال تدقيق داخلي: كم من القدرات التي ندفع ثمن تطويرها موجودة بالفعل في الأدوات التي تعاقدنا معها؟ الجواب، في معظم المنظمات المتوسطة، هو أن التداخل كبير وأن لا أحد قد قياسه.

هذا ليس حجة ضد الابتكار الفني العميق. إنه حجة ضد الابتكار الفني العميق كبديل للتحقق التجاري. المعرفة الصوتية الكامنة في نماذج اللغة هي تذكير بأن رأس المال الأكثر قيمة في اقتصاد الذكاء الاصطناعي ليس دائمًا هو الذي يتم حقنه في الجولة التالية: أحيانًا هو ما تم دفع ثمنه بالفعل ولم يتم استغلاله بعد.

النموذج الذي ينجو ليس الأكثر قوة، بل الذي يحصل على الدفع أولًا

تعد الأبحاث المتعلقة بالمعرفة الصوتية في نماذج اللغة، في جوهرها، دليلاً على الكفاءة المتراكمة. يتم نقل المعرفة، وإعادة استخدامها، وبنائها في طبقات. تمتلك الشركات الناشئة التي تعتمد هذه المنطق - البناء على ما هو موجود، تقليل التكلفة المتغيرة لكل تكرار، الحصول على المدفوعات قبل الإتقان - ميزات هيكلية على تلك التي تصر على إعادة اختراع البنية الأساسية.

يواجه المؤسسون وقادة المستوى C الذين يقودون أقسام الابتكار قرارًا في الهيكل أمامهم، وهو أيضًا قرار أخلاقي: يمكنهم استخدام رأس المال المتاح لتكرار ما هو موجود بالفعل وتغذية دورات جمع الأموال التي تفيد بشكل أساسي الوسطاء الماليين، أو يمكنهم استخدام هذا التمويل كوقود للتوزيع، دخول السوق بشكل أسرع وتوليد تدفق نقدي يجعل منتجهم مستقلًا عن الجولة التالية. إن الشركة التي تمولها دفعات عملائها لا تعود بالنظر إلى أي أحد سوى هؤلاء العملاء. هذه هي الطريقة الوحيدة لتحقيق تأثير يتوسع دون طلب الإذن.