أطلقت شركة “ميتا” نموذجها الجديد “Spirit LM” مفتوح المصدر، الذي يُعنى بمعالجة التحديات المتعلقة بالنماذج متعددة الوسائط في الذكاء الاصطناعي من حيث توليد الأصوات، وتقليد الأصوات البشرية.
ويعتمد نموذج “Spirit LM” على نموذج لغوي مدرب سابقا يحتوي على 7 مليارات معلمة، ويتميز بقدرته على معالجة الصوت بنحو مختلف عن النماذج التقليدية التي تعتمد على تقنيات التعرف على الكلام تلقائيا (ASR).
ويهدف النموذج الجديد إلى تقديم تجربة صوتية طبيعية وأكثر تعبيرا، مما يشكل خطوة متقدمة في تطوير الروبوتات الذكية القادرة على التواصل الصوتي بنحو أكثر تعقيدا وواقعية.
وأشارت “ميتا” إلى أن النهج التقليدي يؤدي إلى فقدان الكثير من التعبيرات الطبيعية في الصوت، ولذلك، يعتمد “Spirit LM” على استخدام رموز الفونيم (الوحدات الصوتية) والنغمات ودرجات الصوت لتجاوز هذه القيود، مما يمكنه من إنتاج أصوات طبيعية، والتعلم من مهام جديدة تشمل تعرف الكلام، وتحويل النص إلى صوت، وتصنيف الكلام.
ويتوفر النموذج الآن كمشروع مفتوح المصدر للمطورين والباحثين لاستخدامه وتطويره، ويتوقع أن يستخدم مستقبلا ضمن تطبيقات “ميتا” مثل “واتساب” و”إنستغرام” و”فيسبوك”، مما يتيح للمستخدمين التفاعل مع الذكاء الاصطناعي عبر محادثات صوتية طبيعية مليئة بالتعبيرات على غرار الوضع الصوتي المتقدم الذي قدمته شركة OpenAI حديثا.