Gemini 1.5 Pro یک مدل هوش مصنوعی جدید و کارآمدتر است
روز پنجشنبه، گوگل از Gemini 1.5 Pro رونمایی کرد که عملکرد فوقالعادهای را نسبت به مدل قبلی ارائه میدهد. خط سیر هوش مصنوعی این شرکت (که در داخل به طور فزاینده ای برای آینده آن حیاتی تلقی می شود) پس از رونمایی از Gemini 1.0 Ultra در هفته گذشته، در کنار تغییر نام ربات چت Bard (به Gemini) برای هماهنگی با قابلیت های قدرتمندتر و همه کاره مدل جدید، دنبال می شود.
طبق پست منتشر شده در وبلاگ شرکت، ساندار پیچای، مدیر عامل گوگل و دمیس حسابیس، مدیر عامل گوگل دیپ مایند، سعی میکنند تعادل بینندگان خود را در مورد ایمنی اخلاقی هوش مصنوعی حفظ کنند و در عین حال از قابلیتهای بهسرعت در حال پیشرفت مدلهای خود تبلیغ کنند. پیچای اشاره کرد: “تیمهای ما به پیشبردن مرزهای جدیدترین مدلهایمان ادامه داده و ایمنی در هسته اصلی آن است.”
این شرکت باید بر ایمنی افراد بدبین به هوش مصنوعی (از جمله یکی از مدیران سابق گوگل) و رگولاتوری های دولتی تاکید کند. اما همچنین باید بر عملکرد شتابدهنده مدلهای خود برای توسعهدهندگان هوش مصنوعی، مشتریان بالقوه و سرمایهگذارانی که نگران هستند شرکت برای واکنش به موفقیتهای OpenAI با ChatGPT بسیار کند باشد، تأکید کند.
Pichai و Hassabis می گویند که Gemini 1.5 Pro نتایج قابل مقایسه با Gemini 1.0 Ultra ارائه می دهد. با این حال، Gemini 1.5 با کاهش نیازهای محاسباتی در آن سطح کارآمدتر عمل می کند. قابلیت های چندوجهی شامل پردازش متن، تصاویر، فیلم ها، صدا یا کد می باشد. با پیشرفت مدلهای هوش مصنوعی، آنها به ارائه مجموعهای از قابلیتهای متنوعتر در یک بسته سریع ادامه میدهند.
Gemini 1.5 Pro همچنین میتواند تا یک میلیون توکن را مدیریت کند یا واحدهای مدلهای هوش مصنوعی دادهها میتوانند در یک درخواست پردازش شوند. گوگل می گوید Gemini 1.5 Pro می تواند بیش از 700000 کلمه، یک ساعت ویدیو، 11 ساعت صدا و پایگاه های کد را با بیش از 30000 خط کد پردازش کند. این شرکت میگوید حتی نسخهای را با موفقیت آزمایش کرده که تا 10 میلیون توکن را پشتیبانی میکند.
این شرکت گفت، Gemini 1.5 Pro زمانی که دادههای جدید بیشتری برای یادگیری داشته باشد، دقت بالایی در پرسوجوها با تعداد توکنهای بزرگتر حفظ میکند. در ارزیابی Needle In a Haystack، توسعهدهندگان بخش کوچکی از اطلاعات را در یک بلوک متنی طولانی قرار میدهند تا ببینند آیا مدل هوش مصنوعی میتواند آن را انتخاب کند یا خیر. به گفته گوگل، Gemini 1.5 Pro می تواند متن جاسازی شده را در 99 درصد مواقع در بلوک های داده تا یک میلیون توکن پیدا کند.
گوگل در ادامه گفت، Gemini 1.5 Pro می تواند درباره جزئیات مختلف از رونوشت های 402 صفحه ای ماموریت ماه Apollo 11 استدلال کند. علاوه بر این، میتواند نقاط طرح و رویدادهای یک فیلم صامت آپلود شده 44 دقیقهای با بازی باستر کیتون را تحلیل کند. Hassabis نوشت: “از آنجایی که پنجره زمینه طولانی 1.5 Pro اولین نوع خود در میان مدلهای بزرگ است، ما به طور مداوم در حال توسعه ارزیابیها و معیارهای جدید برای آزمایش قابلیتهای جدید آن هستیم.”
گوگل Gemini 1.5 Pro را با قابلیتهای 128000 توکن راهاندازی میکند. Hassabis می گوید گوگل سطوح قیمت گذاری جدیدی را معرفی خواهد کرد که حداکثر یک میلیون توکن پرس و جو را پشتیبانی می کنند. Gemini 1.5 Pro همچنین در یادگیری مهارت های جدید از اطلاعات در اعلان های طولانی بدون تنظیم دقیق اضافی (“یادگیری در زمینه”) ماهر است.
در معیاری به نام ترجمه ماشینی از یک کتاب، این مدل یک کتابچه راهنمای دستور زبان را برای Kalamang یاد گرفت، زبانی با کمتر از 200 سخنران در سراسر جهان که قبلاً در مورد آن آموزش ندیده بود. این شرکت میگوید که Gemini 1.5 Pro یاد گرفته است که در هنگام ترجمه انگلیسی به Kalamang، در سطحی مشابه با یک انسان که همان محتوا را یاد میگیرد، عمل کند. در بخشی از اعلامیه ای که توجه توسعه دهندگان را به خود جلب می کند، گوگل می گوید Gemini 1.5 Pro می تواند وظایف حل مشکل را در بلوک های کد طولانی تر انجام دهد.
Hassabis نوشت: “هنگامی که درخواستی با بیش از 100000 خط کد به شما داده میشود، بهتر میتواند در بین مثالها استدلال کند، تغییرات مفیدی را پیشنهاد کند و در مورد نحوه عملکرد بخشهای مختلف کد توضیحاتی ارائه دهد.” گوگل Gemini 1.5 را برای دسترسی زودهنگام برای توسعه دهندگان و مشتریان سازمانی راه اندازی می کند. این شرکت قصد دارد آن را به طور گستردهتری در دسترس قرار دهد.