OpenAI Operator قادر است به شما در جستجو و مرور وب کمک کند
OpenAI به تازگی ابزار جدید Operator را معرفی کرده که قادر است در مرورگر وب گشت و گذار کند. طبق اطلاعات منتشر شده در یک پست وبلاگ، این ابزار به وسیله یک مدل به نام Computer-Using Agent (CUA) طراحی شده و به گونهای آموزش دیده تا با رابطهای کاربری گرافیکی (GUIs) تعامل کند، به طوری که بتواند دکمهها، منوها و فیلدهای متنی را همانطور که انسانها انجام میدهند، شناسایی کند. این ویژگی به اپراتور اجازه میدهد تا وظایف دیجیتال را بدون نیاز به APIهای خاص سیستمعامل یا وب انجام دهد.
نسخه کنونی اپراتور بر پایه مدل GPT-4o شرکت OpenAI ساخته شده و قابلیتهای بینایی این الگوریتم را با استدلال پیشرفتهای که از طریق یادگیری تقویتی آموزش دیده، ترکیب کرده است. اپراتور میتواند وظایف را به برنامههای چند مرحلهای تقسیم کند و در صورت بروز چالشها، بهطور خودکار اصلاحات لازم را انجام دهد. این قابلیت نشاندهنده مرحله جدیدی در توسعه هوش مصنوعی است.
با این حال، OpenAI تأکید میکند که اپراتور هنوز در مراحل اولیه قرار دارد و محدودیتهایی دارد و در تمام سناریوها بهطور قابل اعتماد عمل نمیکند. بهعنوان مثال، بسته به پیچیدگی وظیفه و رابط کاربری، اپراتور میتواند با نوشتن جملات توضیحی دقیقتر از سوی کاربر، بهبود یابد. همچنین، اگر اپراتور در انجام یک وظیفه دچار مشکل شود، به کاربر اجازه میدهد کنترل را بر عهده بگیرد و در مواقعی که یک وبسایت اطلاعات حساسی مانند اعتبارنامههای ورود را درخواست کند، نیز کنترل را به کاربر واگذار میکند.
OpenAI این ابزار را ابتدا برای کاربران اشتراک ChatGPT Pro با هزینه 200 دلار در ماه در دسترس قرار میدهد و همچنین با شرکتهایی مانند Instacart همکاری میکند تا این عامل را در پلتفرمهای خود ارائه دهد، که در این صورت نیز نیاز به اشتراک ChatGPT Pro برای آزمایش این ادغام وجود دارد.
اپراتور به فهرست رو به گسترش عوامل هوش مصنوعی میپیوندد که قادر به پیمایش در مرورگر وب یا کل سیستمعامل هستند. آنتروپیک نخستین شرکتی بود که این قابلیت را با عرضه مدل Claude 3.5 Sonnet در ماه اکتبر ارائه داد و بهتازگی گوگل نیز با مدل Gemini 2.0 و پروژه مارینر به این عرصه وارد شده است.