ابزار هوش مصنوعی گوگل Whisk از تصاویر به عنوان درخواست استفاده می کند
گوگل ابزار جدیدی به مجموعه هوش مصنوعی خود افزوده است. Whisk، محصولی از Google Labs، به کاربران اجازه میدهد تا از تصویر موجودی به عنوان درخواست استفاده کنند. با این حال، به جای بازسازی تصویر با جزئیات جدید، تنها “ماهیت” تصویر اولیه را در خروجی حفظ میکند. این ویژگی آن را برای طوفان فکری و تجسم سریع ایدهها، نسبت به ویرایش مستقیم تصویر منبع، مطلوبتر میسازد.
شرکت Whisk را به عنوان “ابزار خلاقیت نوین” یاد کرده است. صفحه ورودی با رابط کاربری سادهای آغاز میشود که ورودیهایی برای انتخاب سبک و موضوع دارد. این رابط کاربری ابتدایی تنها اجازه انتخاب بین سه سبک پیشتعریف شده را میدهد: Sticker و Enamel pin و Plushie. به نظر میرسد که گوگل این سه گزینه را به عنوان ایدهآلترین فرمتهای خروجی برای ابزار آزمایشی خود در نسخه کنونی انتخاب کرده است.
Whisk همچنین شامل یک ویرایشگر پیشرفتهتر است که با کلیک بر روی “Start from scratch” از صفحه اصلی قابل دسترسی است. در این حالت، میتوانید از متن یا تصویر منبع در سه دستهبندی موضوع، صحنه و سبک استفاده کنید. همچنین یک نوار ورودی برای افزودن متن بیشتر به منظور تکمیل کار وجود دارد.
با این حال، کنترلهای پیشرفته در حالت فعلی خود، نتایجی مشابه با درخواستهای ایجاد نکردهاند. گوگل تأیید میکند که Whisk تنها از “چند ویژگی کلیدی” تصویر منبع شما بهره میبرد. این شرکت هشدار میدهد که به عنوان مثال، سوژهای که تولید میشود ممکن است از نظر قد، وزن، مدل مو، یا رنگ پوست با تصویر اصلی متفاوت باشد.
برای فهمیدن دلیل، نیازی به جستجوی توضیحات گوگل دربارهی نحوهی کارکرد Whisk نیست. این سیستم از مدل زبان جمینی برای نوشتن توضیح کاملی از تصویر منبعی که بارگذاری میکنید، استفاده میکند و سپس این توضیحات را وارد مولد تصویر Imagen 3 میکند. در نتیجه، تصویر نهایی بر اساس توضیحات جمینی در مورد تصویر شما خلق میشود – نه خود تصویر منبع. در حال حاضر، Whisk فقط در آمریکا در دسترس است. شما میتوانید آن را در وبسایت Google Labs پروژه امتحان کنید.