هوش مصنوعی

مدل جدید هوش مصنوعی انویدیا از پیام های متنی و صوتی موسیقی می سازد

انویدیا مدل جدید هوش مصنوعی صوتی به نام Fugatto را منتشر کرده که قادر است بر اساس پیام‌های متنی و صوتی ساده، صداها و موسیقی و حتی صداهای نوینی را تولید کند.

این مدل، که به عنوان Transformer Audio Generative Foundation Opus 1 شناخته می‌شود، می‌تواند به طور مثال، جنگ‌ها و قطعات موسیقی را تنها بر اساس پیام‌های متنی خلق کند، سازها و آوازها را به آهنگ‌های موجود اضافه یا از آن‌ها حذف نماید، لهجه و احساس صدا را دگرگون سازد، و طبق اعلامیه‌ای که روز دوشنبه منتشر شد، حتی امکان تولید صداهایی را فراهم آورد که پیشتر شنیده نشده‌اند.

رافائل واله، مدیر تحقیقات صوتی کاربردی در انویدیا، بیان می‌کند:

هدف ما ایجاد مدلی بود که صدا را همانند انسان‌ها درک و تولید نماید. “Fugatto” اولین گام ما به سمت آینده‌ای است که در آن، یادگیری چندوظیفه‌ای بدون نظارت در سنتز و تبدیل صدا، از داده‌ها و مدل‌های مختلف بهره می‌برد.

شرکت تأکید می‌کند که تولیدکنندگان موسیقی می‌توانند از این مدل هوش مصنوعی برای نمونه‌سازی سریع و آزمایش ایده‌های موسیقی در سبک‌ها و تنظیم‌های گوناگون استفاده کنند، یا افکت‌ها و لایه‌های جدیدی به آهنگ‌های موجود افزوده و آن‌ها را تقویت کنند. این مدل همچنین قابلیت استفاده برای هماهنگ‌سازی و بومی‌سازی موسیقی و صداهای یک کمپین تبلیغاتی، یا تنظیم موسیقی یک بازی ویدیویی در زمان اجرای یک مرحله را دارد.

این مدل قادر است صداهایی را تولید کند که پیش از این شنیده نشده‌اند، مانند غرش شیپور یا میوه ساکسیفون. برای این کار، از تکنیکی به نام ComposableART استفاده می‌کند که دستورالعمل‌های یادگرفته شده در طول آموزش را ترکیب می‌کند. روهان بدلانی، محقق هوش مصنوعی در انویدیا، در این پست اعلام کرده است:

هدف من این بود که به کاربران امکان دهم تا ویژگی‌ها را به شکلی خلاقانه ترکیب کنند و تعیین کنند که بر کدام ویژگی بیشتر تأکید داشته باشند. در آزمایش‌های من، نتایج اغلب شگفت‌انگیز بوده و احساس می‌کردم که شبیه به یک هنرمند هستم، حتی اگر در واقع یک دانشمند کامپیوتر باشم.

مدل Fugatto خود از 2.5 میلیارد پارامتر بهره می‌برد و بر روی 32 پردازنده گرافیکی H100 آموزش دیده است. استفاده از هوش مصنوعی صوتی مانند این رو به افزایش است. در ماه آوریل، هوش مصنوعی پایداری سیستمی مشابه را معرفی کرد که قادر است آهنگ‌هایی به طول سه دقیقه تولید کند، در حالی که مدل V2A گوگل می‌تواند “تعداد نامحدودی از موسیقی متن برای هر ورودی ویدdویی” ایجاد نماید.

یوتیوب به تازگی ریمیکسی از موسیقی هوش مصنوعی را منتشر کرده که بر اساس آهنگ ورودی و پیام‌های متنی کاربر، نمونه‌ای 30 ثانیه‌ای تولید می‌کند. OpenAI نیز در این زمینه در حال آزمایش است و در ماه آوریل ابزار هوش مصنوعی‌ای را عرضه کرده که برای شبیه‌سازی کامل صدا و الگوهای صوتی کاربر، تنها به 15 ثانیه نمونه صوتی نیاز دارد.

نمایش بیشتر

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا