متا از خانواده مدل های Movie Gen رونمایی کرد
امروز، متا خانواده MovieGen را از مدلهای هوش مصنوعی بنیاد رسانهای معرفی کرد که قادر به تولید ویدیوهای واقعی با صدا بر اساس متنهای متنی هستند. خانواده MovieGen دو مدل اصلی دارد: MovieGen Video و MovieGen Audio.
MovieGen Video یک مدل ترانسفورماتور با 30 میلیارد پارامتر است که میتواند تصاویر و ویدیوهای با کیفیت و وضوح بالا را از یک پیام متنی تولید کند. ویدیوهای تولیدی میتوانند تا 16 ثانیه با سرعت 16 فریم در ثانیه باشند. MovieGen Audio یک مدل ترانسفورماتور با 13 میلیارد پارامتر است که میتواند یک ویدیو ورودی به همراه پیامهای متنی اختیاری را دریافت کند و صدای با کیفیت بالا تا 45 ثانیه تولید کند که با ویدیوی ورودی هماهنگ میشود.
این مدل صوتی جدید قادر به تولید صدای محیط، موسیقی پس زمینه و صدای فولی است. متا ادعا میکند که این مدلها نتایج پیشرفتهای در کیفیت صدا، هماهنگی ویدیو با صدا و هماهنگی متن با صدا ارائه میدهند. این مدلها تنها برای ساخت ویدیوهای جدید نیستند، بلکه میتوان از آنها برای ویرایش ویدیوهای موجود با استفاده از پیامهای متنی ساده نیز استفاده کرد.
MovieGen به کاربران امکان میدهد تا ویرایشهای محلی مانند افزودن، حذف یا جایگزینی عناصر، و همچنین تغییرات کلی مانند تغییر پسزمینه یا سبک را انجام دهند. به عنوان مثال، اگر ویدیویی از فردی دارید که توپ را پرتاب میکند، میتوانید با یک پیام متنی ساده، ویدیو را به گونهای تغییر دهید که فرد در حال پرتاب هندوانه باشد، در حالی که بقیه محتوای اصلی حفظ شود.
مدلهای MovieGen به کاربران این امکان را میدهند که ویدیوهای شخصیسازی شده بسازند. با استفاده از تصویر یک شخص و پیام متنی، این مدلها میتوانند ویدیوهایی تولید کنند که هویت و حرکات انسانی را حفظ میکنند. متا ادعا میکند که این مدلها نتایج پیشرفتهای در حفظ شخصیت و حرکت طبیعی در ویدیوها ارائه میدهند.
متا میگوید که این مدلها ویدیوهای بهتری نسبت به سایر مدلهای تولید ویدیو مانند OpenAI Sora و Runway Gen-3 تولید میکنند و هماکنون با متخصصان خلاق برای بهبود بیشتر مدلها قبل از انتشار عمومی همکاری میکند.