گوگل پیش نمایش مدل هوش مصنوعی Veo 2 را به نمایش گذاشت
گوگل ممکن است هوش مصنوعی Veo خود را برای مشتریان سازمانی عرضه کرده باشد، اما این شرکت در ارائه نسخه جدیدی از ابزار ویدیویی خود به آزمایشکنندگان اولیه تأخیر نمیکند. در روز دوشنبه، گوگل پیشنمایشی از Veo 2 را معرفی کرد که، به گفته شرکت، “زبان فیلمبرداری را درک میکند.”
این به این معناست که کاربران میتوانند هنگام درخواست از مدل، به ژانر خاصی از فیلم، جلوههای سینمایی یا لنز خاص اشاره کنند. همچنین، گوگل اعلام کرده که مدل جدید، درک بهتری از فیزیک دنیای واقعی و حرکات انسانی دارد. دقت در مدلسازی حرکت انسانی، چالشی است که تمام مدلهای مولد به دنبال حل آن هستند. از این رو، ادعای گوگل مبنی بر توانایی Veo 2 در بهبود این دو جنبه، بسیار قابل توجه است.
البته، نمونههای ارائهشده توسط این شرکت برای اطمینان کافی نیستند. آزمایش واقعی قابلیتهای Veo 2 زمانی صورت میگیرد که کسی بخواهد ویدیویی از روتین یک ژیمناست تولید کند. همچنین، در مورد مشکلاتی که مدلهای ویدیویی با آنها روبرو هستند، گوگل اعلام کرده است که Veo تولید مصنوعاتی مانند انگشتان اضافی را “کمتر” میکند.
به طور مجزا، گوگل بهبودهایی را برای Imagen 3 ارائه میدهد. این شرکت میگوید که آخرین نسخه تصاویری با روشنایی و ترکیببندی بهتر تولید میکند و همچنین میتواند سبکهای هنری متنوعتری را با دقت بیشتری نمایش دهد. این در حالی است که پیروی دقیقتر از دستورات را نیز بهبود بخشیده است.
پایبندی سریع به دستورات، موضوعی بود که هنگامی که Imagen 3 اوایل این ماه برای مشتریان Google Cloud عرضه شد، مورد تأکید قرار گرفت. بنابراین، اگر چیز دیگری نباشد، حداقل گوگل از نقاط ضعف مدلهای هوش مصنوعی خود آگاه است. Veo 2 به تدریج برای کاربران Google Labs در آمریکا منتشر میشود.
در حال حاضر، گوگل محدودیتهایی را برای آزمایشکنندگان در نظر گرفته که شامل تولید حداکثر 8 ثانیه فیلم با کیفیت 720p میشود. برای مقایسه، Sora میتواند تا 20 ثانیه فیلم 1080p تولید کند، اگرچه این کار نیازمند اشتراک ماهانه 200 دلاری ChatGPT Pro است. در مورد آخرین پیشرفتهای Imagen 3، آنها از طریق ImageFX در دسترس کاربران Google Labs در بیش از 100 کشور قرار دارند.