لقد لعبت Nvidia دورًا فعالًا في طفرة الذكاء الاصطناعي الحالية، ولكن في المقام الأول باعتبارها الشركة المصنعة لوحدات معالجة الرسومات التي تدعم جميع مهام معالجة الذكاء الاصطناعي من الجيل التالي. لكن الشركة لا تكتفي بمجرد توفير المجارف لجميع الحفارين. لقد مضوا قدمًا وانضموا إلى المعركة بنموذج الذكاء الاصطناعي الخاص بهم والذي يفعل شيئًا جديدًا حقًا.
ذكرت Ars Technica أن نموذج الذكاء الاصطناعي الجديد من Nvidia يسمى Fugatto وهو يجمع بين أساليب وتقنيات تدريب الذكاء الاصطناعي الجديدة لتحويل الموسيقى والأصوات والأصوات الأخرى بطرق لم يتم القيام بها من قبل، لإنشاء مقاطع صوتية لم يسبق لها مثيل.
يعتمد Fugatto على بنية الذكاء الاصطناعي المتقدمة مع 2.5 مليار معلمة، تم تدريبها على أكثر من 50000 ساعة من البيانات الصوتية المشروحة. يستخدم النموذج تقنية تسمى Composable ART (تحويل تمثيل الصوت)، والتي يمكنها دمج خصائص الصوت المختلفة والتحكم فيها بناءً على المطالبات النصية أو الصوتية. والنتيجة هي مجموعات صوتية جديدة تمامًا لم تكن موجودة في المواد التدريبية.
على سبيل المثال، يستطيع Fugatto إنشاء صوت للكمان يبدو وكأنه طفل يضحك، أو آلة مصنع تصرخ من الألم المعدني. ويتيح النموذج أيضًا ضبطًا دقيقًا لخصائص معينة، مثل تضخيم اللهجات الفرنسية أو تقليلها أو ضبط درجة الحزن في التسجيل الصوتي.
بالإضافة إلى الجمع بين الأصوات وتحويلها، يستطيع Fugatto أداء مهام صوتية كلاسيكية تعمل بالذكاء الاصطناعي، مثل تغيير عاطفة الصوت، أو عزل الأصوات في الموسيقى، أو تكييف الآلات الموسيقية مع مصادر صوتية جديدة.
للحصول على كافة التفاصيل الجوهرية، يمكنك أن تقرأ عن Fugatto في الوثيقة البيضاء الرسمية لـ Nvidia (PDF). بخلاف ذلك، قم بمراجعة صفحة Fugatto التي تحتوي على أمثلة للأصوات الناشئة والمهام الناشئة.
ظهرت هذه المقالة في الأصل على منشورنا الشقيق M3 وتمت ترجمتها وتعريبها من اللغة السويدية.