مدل جدید هوش مصنوعی انویدیا از پیام های متنی و صوتی موسیقی می سازد

آذر ۵, ۱۴۰۳

0 زمان تقریبی مطالعه 2 دقیقه

انویدیا مدل جدید هوش مصنوعی صوتی به نام Fugatto را منتشر کرده که قادر است بر اساس پیام‌های متنی و صوتی ساده، صداها و موسیقی و حتی صداهای نوینی را تولید کند.

این مدل، که به عنوان Transformer Audio Generative Foundation Opus 1 شناخته می‌شود، می‌تواند به طور مثال، جنگ‌ها و قطعات موسیقی را تنها بر اساس پیام‌های متنی خلق کند، سازها و آوازها را به آهنگ‌های موجود اضافه یا از آن‌ها حذف نماید، لهجه و احساس صدا را دگرگون سازد، و طبق اعلامیه‌ای که روز دوشنبه منتشر شد، حتی امکان تولید صداهایی را فراهم آورد که پیشتر شنیده نشده‌اند.

رافائل واله، مدیر تحقیقات صوتی کاربردی در انویدیا، بیان می‌کند:

هدف ما ایجاد مدلی بود که صدا را همانند انسان‌ها درک و تولید نماید. “Fugatto” اولین گام ما به سمت آینده‌ای است که در آن، یادگیری چندوظیفه‌ای بدون نظارت در سنتز و تبدیل صدا، از داده‌ها و مدل‌های مختلف بهره می‌برد.

شرکت تأکید می‌کند که تولیدکنندگان موسیقی می‌توانند از این مدل هوش مصنوعی برای نمونه‌سازی سریع و آزمایش ایده‌های موسیقی در سبک‌ها و تنظیم‌های گوناگون استفاده کنند، یا افکت‌ها و لایه‌های جدیدی به آهنگ‌های موجود افزوده و آن‌ها را تقویت کنند. این مدل همچنین قابلیت استفاده برای هماهنگ‌سازی و بومی‌سازی موسیقی و صداهای یک کمپین تبلیغاتی، یا تنظیم موسیقی یک بازی ویدیویی در زمان اجرای یک مرحله را دارد.

این مدل قادر است صداهایی را تولید کند که پیش از این شنیده نشده‌اند، مانند غرش شیپور یا میوه ساکسیفون. برای این کار، از تکنیکی به نام ComposableART استفاده می‌کند که دستورالعمل‌های یادگرفته شده در طول آموزش را ترکیب می‌کند. روهان بدلانی، محقق هوش مصنوعی در انویدیا، در این پست اعلام کرده است:

هدف من این بود که به کاربران امکان دهم تا ویژگی‌ها را به شکلی خلاقانه ترکیب کنند و تعیین کنند که بر کدام ویژگی بیشتر تأکید داشته باشند. در آزمایش‌های من، نتایج اغلب شگفت‌انگیز بوده و احساس می‌کردم که شبیه به یک هنرمند هستم، حتی اگر در واقع یک دانشمند کامپیوتر باشم.

مدل Fugatto خود از 2.5 میلیارد پارامتر بهره می‌برد و بر روی 32 پردازنده گرافیکی H100 آموزش دیده است. استفاده از هوش مصنوعی صوتی مانند این رو به افزایش است. در ماه آوریل، هوش مصنوعی پایداری سیستمی مشابه را معرفی کرد که قادر است آهنگ‌هایی به طول سه دقیقه تولید کند، در حالی که مدل V2A گوگل می‌تواند “تعداد نامحدودی از موسیقی متن برای هر ورودی ویدdویی” ایجاد نماید.

یوتیوب به تازگی ریمیکسی از موسیقی هوش مصنوعی را منتشر کرده که بر اساس آهنگ ورودی و پیام‌های متنی کاربر، نمونه‌ای 30 ثانیه‌ای تولید می‌کند. OpenAI نیز در این زمینه در حال آزمایش است و در ماه آوریل ابزار هوش مصنوعی‌ای را عرضه کرده که برای شبیه‌سازی کامل صدا و الگوهای صوتی کاربر، تنها به 15 ثانیه نمونه صوتی نیاز دارد.

آذر ۵, ۱۴۰۳

0 زمان تقریبی مطالعه 2 دقیقه

نمایش بیشتر

مدل جدید هوش مصنوعی انویدیا از پیام های متنی و صوتی موسیقی می سازد

دیدگاهتان را بنویسید لغو پاسخ

انویدیا PhysX و Flow Made را به‌طور کامل متن‌باز کرد

این مانیتور 55 دلاری AOC پنل IPS و نرخ 120 هرتز دارد

واتس اپ در حال آزمایش ویژگی های جدید برای تماس های صوتی و تصویری است

متا مدل‌های هوش مصنوعی Llama 4 را معرفی کرد

آشنایی با ویژگی های هوش مصنوعی نرم افزار Paint ویندوز

آمازون ویژگی جدید “Buy for Me” را آزمایش می‌کند

انویدیا PhysX و Flow Made را به‌طور کامل متن‌باز کرد

این مانیتور 55 دلاری AOC پنل IPS و نرخ 120 هرتز دارد

تمدید پشتیبانی نرم‌افزاری از گوشی‌های نوکیا 8، 6، 5 و 3 تا یک سال

راه اندازی بزرگترین کارخانه جذب مستقیم کربن جهان در ایسلند

نوشته های مشابه

متا مدل‌های هوش مصنوعی Llama 4 را معرفی کرد

مایکروسافت کوپایلت با امکانات جدید به روز شد

گوگل سرانجام قابلیت جستجوی وب را به ابزار NotebookLM اضافه کرد

5 اپلیکیشن خوب برای استفاده همزمان از چت بات های هوش مصنوعی

دیدگاهتان را بنویسید لغو پاسخ

انویدیا PhysX و Flow Made را به‌طور کامل متن‌باز کرد

این مانیتور 55 دلاری AOC پنل IPS و نرخ 120 هرتز دارد

تمدید پشتیبانی نرم‌افزاری از گوشی‌های نوکیا 8، 6، 5 و 3 تا یک سال

راه اندازی بزرگترین کارخانه جذب مستقیم کربن جهان در ایسلند