أطلقت شركة ميتا نموذجها الجديد “Spirit LM” المفتوح المصدر الذي يُعنى بمعالجة التحديات المتعلقة بالنماذج المتعددة الوسائط في الذكاء الاصطناعي في توليد الأصوات.
ويهدف النموذج الجديد إلى تقديم تجربة صوتية طبيعية وأكثر تعبيرًا، مما يشكّل خطوة متقدمة في تطوير الروبوتات الذكية القادرة على التواصل الصوتي بنحو أكثر تعقيدًا وواقعية.
ويعتمد نموذج “Spirit LM” على نموذج لغوي مُدرّب سابقًا يحتوي على 7 مليارات مَعلمة، ويتميز بقدرته على معالجة الصوت بنحو مختلف عن النماذج التقليدية التي تعتمد على تقنيات تعرّف الكلام تلقائيًا (ASR).
وتُشير “ميتا” إلى أن النهج التقليدي يؤدي إلى فقدان الكثير من التعبيرات الطبيعية في الصوت. ولذلك، يعتمد “Spirit LM” على استخدام رموز الفونيم (الوحدات الصوتية) والنغمات ودرجات الصوت لتجاوز هذه القيود، مما يمكّنه من إنتاج أصوات طبيعية، والتعلم من مهام جديدة تشمل تعرّف الكلام، وتحويل النص إلى صوت، وتصنيف الكلام.
وكشفت ميتا عن هذا النموذج في ورقة بحثية، كما ذكرت أيضًا تفاصيل البحث الذي قاد إلى تطوير “Spirit LM”، بالإضافة إلى عينات من الأداء الصوتي للنموذج، مما يمنح فكرة واضحة عن قدراته المستقبلية.
ويتوفر النموذج الآن كمشروع مفتوح المصدر للمطورين والباحثين لاستخدامه وتطويره، ويُتوقع أن يُستخدم مستقبلًا ضمن تطبيقات ميتا مثل واتساب وإنستاجرام وفيسبوك، مما يتيح للمستخدمين التفاعل مع الذكاء الاصطناعي عبر محادثات صوتية طبيعية مليئة بالتعبيرات على غرار الوضع الصوتي المتقدم التي قدمته شركة OpenAI حديثًا.
نسخ الرابط تم نسخ الرابط
0 تعليق