OpenAI مدل های استدلالی o3 و o3 Mini را معرفی کرد
OpenAI در آخرین روز از رویداد “12 روز OpenAI” خانواده مدلهای استدلالی جدید خود به نام o3 را معرفی کرد. این خانواده شامل دو مدل o3 و o3 mini است. مدلهای o3 به عنوان جانشین مدلهای استدلالی o1 معرفی شدهاند و OpenAI ادعا میکند که این مدلها در شرایط خاص به هوش مصنوعی عمومی (AGI) نزدیک میشوند.
OpenAI همچنین برخی از اعداد بنچمارک را برای مدلهای o3 به اشتراک گذاشته که نشاندهنده بهبود قابل توجه در عملکرد این مدلها نسبت به مدلهای قبلی است:
- ARC-AGI Semi-Private Eval: مدل o3 موفق به کسب 75.7 درصد پیشرفت شد و با پیکربندی محاسباتی بالا، امتیاز 87.5 درصد را کسب کرد.
- EpochAI Frontier: مدل o3 توانست 25.2 درصد از مسائل ریاضی را حل کند، در حالی که مدلهای موجود فقط 2 درصد را حل کردند.
- SWE-Bench Verified: مدل o3 امتیاز 71.7 را کسب کرد که 22.8 امتیاز بالاتر از مدل o1 است.
- Codeforces: مدل o3 به امتیاز الو 2727 دست یافت.
- AIME 2024: مدل o3 امتیاز 96.7 درصد را به دست آورد، در حالی که مدل o1 امتیاز 83.3 را کسب کرد.
- GPQA Diamond: مدل o3 امتیاز 87.7 درصد را کسب کرد، در حالی که مدل o1 امتیاز 78 درصد را کسب کرد.
تیم جایزه ARC در مورد مدلهای جدید o3 از OpenAI نظرات جالبی ارائه داده است. آنها معتقدند که مدل جدید o3 نشاندهنده یک جهش بزرگ در توانایی هوش مصنوعی برای انطباق با وظایف جدید است. این مدلها نه تنها بهبود تدریجی نیستند، بلکه یک پیشرفت واقعی هستند که نشاندهنده تغییر کیفی در قابلیتهای هوش مصنوعی در مقایسه با محدودیتهای قبلی مدلهای زبانی بزرگ (LLM) است. مدل o3 قادر به انطباق با وظایفی است که قبلاً هرگز با آنها مواجه نشده بود و احتمالاً به عملکرد سطح انسانی در حوزه ARC-AGI نزدیک میشود.
مدل o3 mini نیز گزینهای را برای کاربران فراهم میکند تا بین سه سطح استدلال انتخاب کنند: زیاد، متوسط و پایین. سطح پایین سریعترین اما کمدقتترین است، در حالی که سطح بالا کندترین اما دقیقترین خواهد بود. OpenAI هنوز مدلهای o3 را به طور عمومی منتشر نکرده است. با این حال، از امروز شروع به اشتراکگذاری مدلهای o3 برای تست ایمنی و امنیت کرده است.
محققان ایمنی و امنیت علاقهمند نیز میتوانند برای دسترسی به مدلهای o3 قبل از عرضه عمومی درخواست دهند. انتظار میرود مدلهای o3 در سال 2025 در دسترس عموم قرار گیرند.