معرفی Veo و Imagen 3: جدیدترین مدل های ایجاد رسانه هوش مصنوعی گوگل
امروز گوگل موتورهای جدید ایجاد رسانه هوش مصنوعی خود را معرفی کرد: Veo، که می تواند ویدیوهای 1080p “با کیفیت بالا” تولید کند و Imagen 3، جدیدترین کامپوننت متن به تصویر آن. هیچکدام بهخصوص انقلابی به نظر نمیرسند، اما راهی برای گوگل در جهت ادامه رقابت با مدل ویدیویی Sora OpenAI و Dall-E 3 است، ابزاری که عملاً مترادف با تصاویر تولید شده توسط هوش مصنوعی شده است.
گوگل ادعا می کند که Veo “درکی پیشرفته از زبان طبیعی و معنای بصری” دارد تا هر ویدیویی را که در ذهن دارید ایجاد کند. ویدیوهای تولید شده توسط هوش مصنوعی می توانند “بیش از یک دقیقه” دوام بیاورند. Veo همچنین قادر به درک تکنیک های سینمایی و بصری مانند مفهوم تایم لپس است. اما واقعاً، این باید برای مدل تولید ویدیوی هوش مصنوعی باشد، درست است؟
برای اثبات اینکه Veo به دنبال سرقت شغل هنرمند نیست، گوگل همچنین با دونالد گلاور و گیلگا، استودیوی خلاق او، همکاری کرده تا تواناییهای مدل را به رخ بکشد. در یک ویدیوی تبلیغاتی بسیار کوتاه، گلوور و همکارش را میبینیم که از متنی برای ساختن ویدیویی از ورود یک قایق بادبانی به یک خانه اروپایی و یک قایق بادبانی در اقیانوس استفاده میکنند.
به گفته گوگل، Veo میتواند فیزیک دنیای واقعی را بهتر از مدلهای قبلی خود شبیهسازی کند و همچنین نحوه ارائه تصاویر با کیفیت بالا را بهبود بخشیده است. باید دید که آیا کسی واقعاً مایل به تماشای ویدیوی تولید شده توسط هوش مصنوعی است، خارج از کنجکاوی بیمارگونه ای که تلاش ماشینی برای بازسازی الگوریتمی آثار هنرمندان انسانی را انجام می دهد.
اما این باعث نمیشود که گوگل یا OpenAI این ابزارها را تبلیغ نکنند و امیدوار باشند که مفید باشند (یا حداقل کسب درآمد زیادی داشته باشند). Veo امروز در داخل ابزار VideoFX گوگل برای برخی از سازندگان در دسترس خواهد بود و این شرکت میگوید که به YouTube Shorts و سایر محصولات نیز میآید. اگر Veo در نهایت به بخشی داخلی از YouTube Shorts تبدیل شود، این حداقل یکی از ویژگیهایی است که گوگل میتواند بر تیک تاک حاکم کند.
در مورد Imagen 3، گوگل وعدههای معمولی را میدهد: گفته میشود که این مدل “با کیفیتترین” مدل متن به تصویر این شرکت، با “سطح جزئیات باورنکردنی” برای “تصاویر واقعی” و مصنوعات کمتر است. البته آزمون واقعی این خواهد بود که ببینیم چگونه درخواستها را در مقایسه با Dall-E 3 مدیریت میکند. گوگل میگوید Imagen 3 بهتر از قبل متن را مدیریت میکند و همچنین در مورد رسیدگی به جزئیات درخواستهای طولانی هوشمندتر است. گوگل همچنین با هنرمندانی مانند Wyclef Jean و Bjorn کار میکند تا Music AI Sandbox خود را آزمایش کند، مجموعهای از ابزارهایی که میتوانند در خلق آهنگ کمک کنند.