نسخه جدید Grok xAI می تواند تصاویر را پردازش کند
xAI، رقیب OpenAI که توسط ایلان ماسک تأسیس شده، اولین نسخه Grok را معرفی کرده که می تواند اطلاعات بصری را پردازش کند. Grok-1.5V نسل اول مدل هوش مصنوعی چندوجهی این شرکت است که نه تنها متن را پردازش می کند، بلکه “اسناد، نمودارها، چارت ها، اسکرین شات ها و عکس ها” را نیز پردازش می کند.
در اطلاعیه xAI، چند نمونه از نحوه استفاده از قابلیتهای آن در دنیای واقعی ارائه کرد. به عنوان مثال، میتوانید عکسی از یک فلوچارت را به آن نشان دهید و از Grok بخواهید آن را به کد پایتون ترجمه کند، از آن بخواهید داستانی بر اساس یک نقاشی بنویسد و حتی از آن بخواهید یک میم را توضیح دهد که نمیتوانید آن را بفهمید.
نسخه جدید تنها چند هفته پس از رونمایی شرکت Grok-1.5 ارائه می شود. این مدل به گونهای طراحی شده بود که در کدنویسی و ریاضی بهتر از مدل قبلی خود باشد، و همچنین بتواند زمینههای طولانیتری را پردازش کند تا بتواند دادهها را از منابع بیشتری برای درک بهتر سؤالات خاص بررسی کند. xAI گفت که آزمایشکنندگان اولیه و کاربران فعلی آن به زودی میتوانند از قابلیتهای Grok-1.5V لذت ببرند، اگرچه جدول زمانی دقیقی برای عرضه آن ارائه نکرد.
علاوه بر معرفی Grok-1.5V، این شرکت همچنین مجموعه داده های بنچمارک را منتشر کرده که RealWorldQA نامیده می شود. می توانید از هر یک از 700 تصویر RealWorldQA برای ارزیابی مدل های هوش مصنوعی استفاده کنید: هر مورد با پرسشها و پاسخهایی همراه است که میتوانید به راحتی آنها را تأیید کنید، اما ممکن است مدلهای چندوجهی مانند Grok را دچار مشکل کند. xAI ادعا کرد که فناوری آن زمانی که شرکت آن را با RealWorldQA در برابر رقبای مانند OpenAI GPT-4V و گوگل Gemini Pro 1.5 آزمایش کرد، بالاترین امتیاز را دریافت کرد.