مدل جدید هوش مصنوعی انویدیا از پیام های متنی و صوتی موسیقی می سازد

آذر ۵, ۱۴۰۳

0 زمان تقریبی مطالعه 2 دقیقه

انویدیا مدل جدید هوش مصنوعی صوتی به نام Fugatto را منتشر کرده که قادر است بر اساس پیام‌های متنی و صوتی ساده، صداها و موسیقی و حتی صداهای نوینی را تولید کند.

این مدل، که به عنوان Transformer Audio Generative Foundation Opus 1 شناخته می‌شود، می‌تواند به طور مثال، جنگ‌ها و قطعات موسیقی را تنها بر اساس پیام‌های متنی خلق کند، سازها و آوازها را به آهنگ‌های موجود اضافه یا از آن‌ها حذف نماید، لهجه و احساس صدا را دگرگون سازد، و طبق اعلامیه‌ای که روز دوشنبه منتشر شد، حتی امکان تولید صداهایی را فراهم آورد که پیشتر شنیده نشده‌اند.

رافائل واله، مدیر تحقیقات صوتی کاربردی در انویدیا، بیان می‌کند:

هدف ما ایجاد مدلی بود که صدا را همانند انسان‌ها درک و تولید نماید. “Fugatto” اولین گام ما به سمت آینده‌ای است که در آن، یادگیری چندوظیفه‌ای بدون نظارت در سنتز و تبدیل صدا، از داده‌ها و مدل‌های مختلف بهره می‌برد.

شرکت تأکید می‌کند که تولیدکنندگان موسیقی می‌توانند از این مدل هوش مصنوعی برای نمونه‌سازی سریع و آزمایش ایده‌های موسیقی در سبک‌ها و تنظیم‌های گوناگون استفاده کنند، یا افکت‌ها و لایه‌های جدیدی به آهنگ‌های موجود افزوده و آن‌ها را تقویت کنند. این مدل همچنین قابلیت استفاده برای هماهنگ‌سازی و بومی‌سازی موسیقی و صداهای یک کمپین تبلیغاتی، یا تنظیم موسیقی یک بازی ویدیویی در زمان اجرای یک مرحله را دارد.

این مدل قادر است صداهایی را تولید کند که پیش از این شنیده نشده‌اند، مانند غرش شیپور یا میوه ساکسیفون. برای این کار، از تکنیکی به نام ComposableART استفاده می‌کند که دستورالعمل‌های یادگرفته شده در طول آموزش را ترکیب می‌کند. روهان بدلانی، محقق هوش مصنوعی در انویدیا، در این پست اعلام کرده است:

هدف من این بود که به کاربران امکان دهم تا ویژگی‌ها را به شکلی خلاقانه ترکیب کنند و تعیین کنند که بر کدام ویژگی بیشتر تأکید داشته باشند. در آزمایش‌های من، نتایج اغلب شگفت‌انگیز بوده و احساس می‌کردم که شبیه به یک هنرمند هستم، حتی اگر در واقع یک دانشمند کامپیوتر باشم.

مدل Fugatto خود از 2.5 میلیارد پارامتر بهره می‌برد و بر روی 32 پردازنده گرافیکی H100 آموزش دیده است. استفاده از هوش مصنوعی صوتی مانند این رو به افزایش است. در ماه آوریل، هوش مصنوعی پایداری سیستمی مشابه را معرفی کرد که قادر است آهنگ‌هایی به طول سه دقیقه تولید کند، در حالی که مدل V2A گوگل می‌تواند “تعداد نامحدودی از موسیقی متن برای هر ورودی ویدdویی” ایجاد نماید.

یوتیوب به تازگی ریمیکسی از موسیقی هوش مصنوعی را منتشر کرده که بر اساس آهنگ ورودی و پیام‌های متنی کاربر، نمونه‌ای 30 ثانیه‌ای تولید می‌کند. OpenAI نیز در این زمینه در حال آزمایش است و در ماه آوریل ابزار هوش مصنوعی‌ای را عرضه کرده که برای شبیه‌سازی کامل صدا و الگوهای صوتی کاربر، تنها به 15 ثانیه نمونه صوتی نیاز دارد.

آذر ۵, ۱۴۰۳

0 زمان تقریبی مطالعه 2 دقیقه

نمایش بیشتر

مدل جدید هوش مصنوعی انویدیا از پیام های متنی و صوتی موسیقی می سازد

دیدگاهتان را بنویسید لغو پاسخ

آمازون ویژگی جدید “Buy for Me” را آزمایش می‌کند

مقایسه اسنپدراگون 8s نسل 4 و 8s نسل 3: چه تفاوتی با هم دارند؟

واتس اپ در آینده امکان جلوگیری از ذخیره خودکار رسانه های ارسال شده به دیگران را فراهم می کند

microSD Express چیست و چرا سریعتر از microSD معمولی است؟

سامسونگ از نمایشگرهای Onyx Cinema LED رونمایی کرد

مایکروسافت کوپایلت با امکانات جدید به روز شد

آمازون ویژگی جدید “Buy for Me” را آزمایش می‌کند

مقایسه اسنپدراگون 8s نسل 4 و 8s نسل 3: چه تفاوتی با هم دارند؟

ایسر از لپ تاپ های جدید Predator Helios Neo با گرافیک RTX 5070 Ti معرفی کرد

مدل هوش مصنوعی جدید MIT قادر به تشخیص زودهنگام سرطان پانکراس است

نوشته های مشابه

مایکروسافت کوپایلت با امکانات جدید به روز شد

گوگل سرانجام قابلیت جستجوی وب را به ابزار NotebookLM اضافه کرد

5 اپلیکیشن خوب برای استفاده همزمان از چت بات های هوش مصنوعی

ویژگی تولید تصویر ChatGPT رایگان در دسترس کاربران قرار گرفت

دیدگاهتان را بنویسید لغو پاسخ

آمازون ویژگی جدید “Buy for Me” را آزمایش می‌کند

مقایسه اسنپدراگون 8s نسل 4 و 8s نسل 3: چه تفاوتی با هم دارند؟

ایسر از لپ تاپ های جدید Predator Helios Neo با گرافیک RTX 5070 Ti معرفی کرد

مدل هوش مصنوعی جدید MIT قادر به تشخیص زودهنگام سرطان پانکراس است