هوش مصنوعی متن به تصویر جدید گوگل، تصاویر واقعی تر را ارائه می دهد
گوگل یک سیستم هوش مصنوعی را به نمایش گذاشته که می تواند تصاویر را بر اساس ورودی متن ایجاد کند. ایده این است که کاربران می توانند هر متن توصیفی را وارد کنند و هوش مصنوعی آن را به یک تصویر تبدیل می کند. این شرکت می گوید که مدل انتشار Imagen که توسط تیم مغز در تحقیقات گوگل ایجاد شده، “درجه بی سابقه ای از فوتورئالیسم و سطح عمیقی از درک زبان” را ارائه می دهد.
البته این اولین بار نیست که مدلهای هوش مصنوعی این مدلی را مشاهده میکنیم؛ اما نسخه گوگل سعی دارد تصاویر واقعیتری خلق کند. محققان برای ارزیابی سیستن Imagen در برابر سایر مدلهای تبدیل متن به تصویر (از جمله مدلهای DALL-E 2، VQ-GAN+CLIP و Latent Diffusion) از معیاری به نام DrawBench استفاده کردند. این معیار شامل لیستی از 200 پیام متنی است که در هر مدل وارد شده است. از ارزیابهای انسانی خواسته شد تا هر تصویر را ارزیابی کنند و گوگل توانست به برتری دست پیدا کند.
گوگل فکر میکند به دلایل مختلف سیستم ایمیجن، هنوز برای استفاده عموم مناسب نیست. البته میتوانید ایمیجن را به صورت محدود در وب سایت با استفاده از عبارات از پیش انتخاب شده آن را امتحان کنید. کاربران این توانایی را دارند تا انتخاب کنند که آیا تصویر عکس باشد یا نقاشی رنگ روغن، نوع حیوان نمایش داده شده، لباسی که میپوشند، اقدامی که انجام میدهند و محیط نیز قابلیت انتخاب دارد.