مدل جدید هوش مصنوعی انویدیا از پیام های متنی و صوتی موسیقی می سازد
انویدیا مدل جدید هوش مصنوعی صوتی به نام Fugatto را منتشر کرده که قادر است بر اساس پیامهای متنی و صوتی ساده، صداها و موسیقی و حتی صداهای نوینی را تولید کند.
این مدل، که به عنوان Transformer Audio Generative Foundation Opus 1 شناخته میشود، میتواند به طور مثال، جنگها و قطعات موسیقی را تنها بر اساس پیامهای متنی خلق کند، سازها و آوازها را به آهنگهای موجود اضافه یا از آنها حذف نماید، لهجه و احساس صدا را دگرگون سازد، و طبق اعلامیهای که روز دوشنبه منتشر شد، حتی امکان تولید صداهایی را فراهم آورد که پیشتر شنیده نشدهاند.
رافائل واله، مدیر تحقیقات صوتی کاربردی در انویدیا، بیان میکند:
هدف ما ایجاد مدلی بود که صدا را همانند انسانها درک و تولید نماید. “Fugatto” اولین گام ما به سمت آیندهای است که در آن، یادگیری چندوظیفهای بدون نظارت در سنتز و تبدیل صدا، از دادهها و مدلهای مختلف بهره میبرد.
شرکت تأکید میکند که تولیدکنندگان موسیقی میتوانند از این مدل هوش مصنوعی برای نمونهسازی سریع و آزمایش ایدههای موسیقی در سبکها و تنظیمهای گوناگون استفاده کنند، یا افکتها و لایههای جدیدی به آهنگهای موجود افزوده و آنها را تقویت کنند. این مدل همچنین قابلیت استفاده برای هماهنگسازی و بومیسازی موسیقی و صداهای یک کمپین تبلیغاتی، یا تنظیم موسیقی یک بازی ویدیویی در زمان اجرای یک مرحله را دارد.
این مدل قادر است صداهایی را تولید کند که پیش از این شنیده نشدهاند، مانند غرش شیپور یا میوه ساکسیفون. برای این کار، از تکنیکی به نام ComposableART استفاده میکند که دستورالعملهای یادگرفته شده در طول آموزش را ترکیب میکند. روهان بدلانی، محقق هوش مصنوعی در انویدیا، در این پست اعلام کرده است:
هدف من این بود که به کاربران امکان دهم تا ویژگیها را به شکلی خلاقانه ترکیب کنند و تعیین کنند که بر کدام ویژگی بیشتر تأکید داشته باشند. در آزمایشهای من، نتایج اغلب شگفتانگیز بوده و احساس میکردم که شبیه به یک هنرمند هستم، حتی اگر در واقع یک دانشمند کامپیوتر باشم.
مدل Fugatto خود از 2.5 میلیارد پارامتر بهره میبرد و بر روی 32 پردازنده گرافیکی H100 آموزش دیده است. استفاده از هوش مصنوعی صوتی مانند این رو به افزایش است. در ماه آوریل، هوش مصنوعی پایداری سیستمی مشابه را معرفی کرد که قادر است آهنگهایی به طول سه دقیقه تولید کند، در حالی که مدل V2A گوگل میتواند “تعداد نامحدودی از موسیقی متن برای هر ورودی ویدdویی” ایجاد نماید.
یوتیوب به تازگی ریمیکسی از موسیقی هوش مصنوعی را منتشر کرده که بر اساس آهنگ ورودی و پیامهای متنی کاربر، نمونهای 30 ثانیهای تولید میکند. OpenAI نیز در این زمینه در حال آزمایش است و در ماه آوریل ابزار هوش مصنوعیای را عرضه کرده که برای شبیهسازی کامل صدا و الگوهای صوتی کاربر، تنها به 15 ثانیه نمونه صوتی نیاز دارد.