فناوری

Gemini 1.5 Pro یک مدل هوش مصنوعی جدید و کارآمدتر است

روز پنجشنبه، گوگل از Gemini 1.5 Pro رونمایی کرد که عملکرد فوق‌العاده‌ای را نسبت به مدل قبلی ارائه می‌دهد. خط سیر هوش مصنوعی این شرکت (که در داخل به طور فزاینده ای برای آینده آن حیاتی تلقی می شود) پس از رونمایی از Gemini 1.0 Ultra در هفته گذشته، در کنار تغییر نام ربات چت Bard (به Gemini) برای هماهنگی با قابلیت های قدرتمندتر و همه کاره مدل جدید، دنبال می شود.

طبق پست منتشر شده در وبلاگ شرکت، ساندار پیچای، مدیر عامل گوگل و دمیس حسابیس، مدیر عامل گوگل دیپ مایند، سعی می‌کنند تعادل بینندگان خود را در مورد ایمنی اخلاقی هوش مصنوعی حفظ کنند و در عین حال از قابلیت‌های به‌سرعت در حال پیشرفت مدل‌های خود تبلیغ کنند. پیچای اشاره کرد: “تیم‌های ما به پیش‌بردن مرزهای جدیدترین مدل‌هایمان ادامه داده و ایمنی در هسته اصلی آن است.”

این شرکت باید بر ایمنی افراد بدبین به هوش مصنوعی (از جمله یکی از مدیران سابق گوگل) و رگولاتوری های دولتی تاکید کند. اما همچنین باید بر عملکرد شتاب‌دهنده مدل‌های خود برای توسعه‌دهندگان هوش مصنوعی، مشتریان بالقوه و سرمایه‌گذارانی که نگران هستند شرکت برای واکنش به موفقیت‌های OpenAI با ChatGPT بسیار کند باشد، تأکید کند.

Pichai و Hassabis می گویند که Gemini 1.5 Pro نتایج قابل مقایسه با Gemini 1.0 Ultra ارائه می دهد. با این حال، Gemini 1.5 با کاهش نیازهای محاسباتی در آن سطح کارآمدتر عمل می کند. قابلیت های چندوجهی شامل پردازش متن، تصاویر، فیلم ها، صدا یا کد می باشد. با پیشرفت مدل‌های هوش مصنوعی، آنها به ارائه مجموعه‌ای از قابلیت‌های متنوع‌تر در یک بسته سریع ادامه می‌دهند.

Gemini 1.5 Pro همچنین می‌تواند تا یک میلیون توکن را مدیریت کند یا واحدهای مدل‌های هوش مصنوعی داده‌ها می‌توانند در یک درخواست پردازش شوند. گوگل می گوید Gemini 1.5 Pro می تواند بیش از 700000 کلمه، یک ساعت ویدیو، 11 ساعت صدا و پایگاه های کد را با بیش از 30000 خط کد پردازش کند. این شرکت می‌گوید حتی نسخه‌ای را با موفقیت آزمایش کرده که تا 10 میلیون توکن را پشتیبانی می‌کند.

این شرکت گفت، Gemini 1.5 Pro زمانی که داده‌های جدید بیشتری برای یادگیری داشته باشد، دقت بالایی در پرس‌وجوها با تعداد توکن‌های بزرگ‌تر حفظ می‌کند. در ارزیابی Needle In a Haystack، توسعه‌دهندگان بخش کوچکی از اطلاعات را در یک بلوک متنی طولانی قرار می‌دهند تا ببینند آیا مدل هوش مصنوعی می‌تواند آن را انتخاب کند یا خیر. به گفته گوگل، Gemini 1.5 Pro می تواند متن جاسازی شده را در 99 درصد مواقع در بلوک های داده تا یک میلیون توکن پیدا کند.

گوگل در ادامه گفت، Gemini 1.5 Pro می تواند درباره جزئیات مختلف از رونوشت های 402 صفحه ای ماموریت ماه Apollo 11 استدلال کند. علاوه بر این، می‌تواند نقاط طرح و رویدادهای یک فیلم صامت آپلود شده 44 دقیقه‌ای با بازی باستر کیتون را تحلیل کند. Hassabis نوشت: “از آنجایی که پنجره زمینه طولانی 1.5 Pro اولین نوع خود در میان مدل‌های بزرگ است، ما به طور مداوم در حال توسعه ارزیابی‌ها و معیارهای جدید برای آزمایش قابلیت‌های جدید آن هستیم.”

گوگل Gemini 1.5 Pro را با قابلیت‌های 128000 توکن راه‌اندازی می‌کند. Hassabis می گوید گوگل سطوح قیمت گذاری جدیدی را معرفی خواهد کرد که حداکثر یک میلیون توکن پرس و جو را پشتیبانی می کنند. Gemini 1.5 Pro همچنین در یادگیری مهارت های جدید از اطلاعات در اعلان های طولانی بدون تنظیم دقیق اضافی (“یادگیری در زمینه”) ماهر است.

در معیاری به نام ترجمه ماشینی از یک کتاب، این مدل یک کتابچه راهنمای دستور زبان را برای Kalamang یاد گرفت، زبانی با کمتر از 200 سخنران در سراسر جهان که قبلاً در مورد آن آموزش ندیده بود. این شرکت می‌گوید که Gemini 1.5 Pro یاد گرفته است که در هنگام ترجمه انگلیسی به Kalamang، در سطحی مشابه با یک انسان که همان محتوا را یاد می‌گیرد، عمل کند. در بخشی از اعلامیه ای که توجه توسعه دهندگان را به خود جلب می کند، گوگل می گوید Gemini 1.5 Pro می تواند وظایف حل مشکل را در بلوک های کد طولانی تر انجام دهد.

Hassabis نوشت: “هنگامی که درخواستی با بیش از 100000 خط کد به شما داده می‌شود، بهتر می‌تواند در بین مثال‌ها استدلال کند، تغییرات مفیدی را پیشنهاد کند و در مورد نحوه عملکرد بخش‌های مختلف کد توضیحاتی ارائه دهد.” گوگل Gemini 1.5 را برای دسترسی زودهنگام برای توسعه دهندگان و مشتریان سازمانی راه اندازی می کند. این شرکت قصد دارد آن را به طور گسترده‌تری در دسترس قرار دهد.

منبع
engadget
نمایش بیشتر

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا