نرم افزار و اینترنت

معرفی Veo و Imagen 3: جدیدترین مدل های ایجاد رسانه هوش مصنوعی گوگل

امروز گوگل موتورهای جدید ایجاد رسانه هوش مصنوعی خود را معرفی کرد: Veo، که می تواند ویدیوهای 1080p “با کیفیت بالا” تولید کند و Imagen 3، جدیدترین کامپوننت متن به تصویر آن. هیچ‌کدام به‌خصوص انقلابی به نظر نمی‌رسند، اما راهی برای گوگل در جهت ادامه رقابت با مدل ویدیویی Sora OpenAI و Dall-E 3 است، ابزاری که عملاً مترادف با تصاویر تولید شده توسط هوش مصنوعی شده است.

گوگل ادعا می کند که Veo “درکی پیشرفته از زبان طبیعی و معنای بصری” دارد تا هر ویدیویی را که در ذهن دارید ایجاد کند. ویدیوهای تولید شده توسط هوش مصنوعی می توانند “بیش از یک دقیقه” دوام بیاورند. Veo همچنین قادر به درک تکنیک های سینمایی و بصری مانند مفهوم تایم لپس است. اما واقعاً، این باید برای مدل تولید ویدیوی هوش مصنوعی باشد، درست است؟

برای اثبات اینکه Veo به دنبال سرقت شغل هنرمند نیست، گوگل همچنین با دونالد گلاور و گیلگا، استودیوی خلاق او، همکاری کرده تا توانایی‌های مدل را به رخ بکشد. در یک ویدیوی تبلیغاتی بسیار کوتاه، گلوور و همکارش را می‌بینیم که از متنی برای ساختن ویدیویی از ورود یک قایق بادبانی به یک خانه اروپایی و یک قایق بادبانی در اقیانوس استفاده می‌کنند.

به گفته گوگل، Veo می‌تواند فیزیک دنیای واقعی را بهتر از مدل‌های قبلی خود شبیه‌سازی کند و همچنین نحوه ارائه تصاویر با کیفیت بالا را بهبود بخشیده است. باید دید که آیا کسی واقعاً مایل به تماشای ویدیوی تولید شده توسط هوش مصنوعی است، خارج از کنجکاوی بیمارگونه ای که تلاش ماشینی برای بازسازی الگوریتمی آثار هنرمندان انسانی را انجام می دهد.

اما این باعث نمی‌شود که گوگل یا OpenAI این ابزارها را تبلیغ نکنند و امیدوار باشند که مفید باشند (یا حداقل کسب درآمد زیادی داشته باشند). Veo امروز در داخل ابزار VideoFX گوگل برای برخی از سازندگان در دسترس خواهد بود و این شرکت می‌گوید که به YouTube Shorts و سایر محصولات نیز می‌آید. اگر Veo در نهایت به بخشی داخلی از YouTube Shorts تبدیل شود، این حداقل یکی از ویژگی‌هایی است که گوگل می‌تواند بر تیک تاک حاکم کند.

در مورد Imagen 3، گوگل وعده‌های معمولی را می‌دهد: گفته می‌شود که این مدل “با کیفیت‌ترین” مدل متن به تصویر این شرکت، با “سطح جزئیات باورنکردنی” برای “تصاویر واقعی” و مصنوعات کمتر است. البته آزمون واقعی این خواهد بود که ببینیم چگونه درخواست‌ها را در مقایسه با Dall-E 3 مدیریت می‌کند. گوگل می‌گوید Imagen 3 بهتر از قبل متن را مدیریت می‌کند و همچنین در مورد رسیدگی به جزئیات درخواست‌های طولانی هوشمندتر است. گوگل همچنین با هنرمندانی مانند Wyclef Jean و Bjorn کار می‌کند تا Music AI Sandbox خود را آزمایش کند، مجموعه‌ای از ابزارهایی که می‌توانند در خلق آهنگ کمک کنند.

نمایش بیشتر

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا