هوش مصنوعی

مروری بر گوگل Gemini: مدل هوش مصنوعی با امکانات متنوع

گوگل در تلاش است تا با Gemini خود، مجموعه‌ای از مدل‌ها، برنامه‌ها و سرویس های هوش مصنوعی تولیدی، تحولی ایجاد کند. اما Gemini چیست؟ چگونه می‌توان از آن استفاده کرد؟ و چگونه با سایر ابزارهای هوش مصنوعی تولیدی مانند اوپن ای‌آیChatGPT، متا Llama و مایکروسافت Copilot مقایسه می‌شود؟ برای آسان‌تر کردن پیگیری آخرین تحولات Gemini، ما این راهنمای مفید را تهیه کرده‌ایم که به‌روزرسانی‌های جدید در مورد مدل‌ها، ویژگی‌ها و اخبار مربوط به برنامه‌های گوگل برای Gemini را شامل می‌شود.

Gemini چیست؟

Gemini، خانواده مدل‌های هوش مصنوعی تولیدی نسل بعدی است که گوگل به آن وعده داده بود. این مدل‌ها توسط آزمایشگاه‌های تحقیقاتی هوش مصنوعی گوگل، شامل دیپ‌مایند و گوگل ریسرچ، توسعه یافته‌اند و در چهار نوع مختلف ارائه می‌شوند:

  • Gemini Ultra، یک مدل بسیار بزرگ است.
  • Gemini Pro، یک مدل بزرگ‌تر که البته از اولترا کوچک‌تر است. آخرین نسخه آن، Gemini 2.0 Pro Experimental، پرچمدار گوگل محسوب می‌شود.
  • Gemini Flash، نسخه‌ای سریع‌تر و “تصفیه‌شده” از پرو است. این مدل همچنین در نسخه‌ای کمی کوچک‌تر و سریع‌تر به نام Gemini Flash-Lite و نسخه‌ای با قابلیت‌های استدلال به نام Gemini Flash Thinking Experimental ارائه می‌شود.
  • Gemini Nano، شامل دو مدل کوچک به نام‌های Nano-1 و Nano-2 است که کمی قابلیت بیشتری دارد و برای استفاده آفلاین طراحی شده است.

تمام مدل‌های Gemini به‌طور بومی چندرسانه‌ای آموزش دیده‌اند، به این معنا که قادر به کار با و تحلیل فراتر از متن هستند. گوگل اعلام کرده که این مدل‌ها پیش از آموزش نهایی، بر روی مجموعه‌ای از داده‌های عمومی، اختصاصی و مجوزدار شامل صدا، تصاویر و ویدیوها، همچنین مجموعه‌ای از کدها و متون به زبان‌های مختلف آموزش دیده‌اند.

این ویژگی Gemini را از مدل‌هایی مانند LaMDA که به‌طور انحصاری بر روی داده‌های متنی آموزش دیده، متمایز می‌کند. LaMDA نمی‌تواند چیزی فراتر از متن (مانند مقالات، ایمیل‌ها و غیره) را درک یا تولید کند، اما این موضوع در مورد مدل‌های Gemini صدق نمی‌کند.

لازم به ذکر است که اخلاق و قانونی بودن آموزش مدل‌ها بر روی داده‌های عمومی، در برخی موارد بدون اطلاع یا رضایت مالکان داده، موضوعاتی مبهم است. گوگل دارای سیاست جبران خسارت هوش مصنوعی است که برخی از مشتریان گوگل کلود را در برابر دعاوی قانونی محافظت می‌کند، اما این سیاست شامل استثنائاتی نیز می‌شود. بنابراین، در استفاده تجاری از Gemini احتیاط کنید.

تفاوت بین اپلیکیشن Gemini و مدل‌های آن چیست؟

Gemini به‌طور مستقل و متمایز از اپلیکیشن‌های Gemini  موجود در وب و موبایل (که قبلاً بارد نامیده می‌شد) عمل می‌کند. اپلیکیشن‌های Gemini به‌عنوان کلاینت‌هایی عمل می‌کنند که به مدل‌های مختلف Gemini متصل می‌شوند و یک رابط کاربری شبیه به چت‌بات را بر روی آنها قرار می‌دهند. می‌توان آنها را به‌عنوان رابط‌های کاربری برای هوش مصنوعی تولیدی گوگل در نظر گرفت که مشابه اپلیکیشن‌های ChatGPT و خانواده اپلیکیشن‌های Claude از Anthropic هستند.

سایت Gemini وب با این لینک قابل دسترس است. در سیستم‌عامل اندروید، اپلیکیشن Gemini جایگزین اپلیکیشن موجود گوگل اسیستنت می‌شود. و در iOS، اپلیکیشن‌های گوگل و جستجوی گوگل به‌عنوان کلاینت‌های Gemini این پلتفرم عمل می‌کنند. در سیستم‌عامل اندروید، به تازگی این امکان فراهم شده که بتوانید با استفاده از پوشش Gemini، بر روی هر اپلیکیشنی سوالاتی درباره آنچه که بر روی صفحه نمایش است (مانند یک ویدیو در یوتیوب) بپرسید.

کافی است دکمه پاور گوشی هوشمند پشتیبانی شده را فشار داده و نگه دارید یا بگویید: “Hey Google”؛ در این صورت پوشش Gemini ظاهر خواهد شد. اپلیکیشن‌های Gemini قادر به پذیرش تصاویر، دستورات صوتی و متن هستند (از جمله فایل‌هایی مانند PDF و به زودی ویدیوها، که می‌توانند از گوگل درایو بارگذاری یا وارد شوند) و همچنین می‌توانند تصاویر تولید کنند. همان‌طور که انتظار می‌رود، مکالمات با اپلیکیشن‌های Gemini در موبایل به Gemini وب منتقل می‌شود و بالعکس، به شرطی که در هر دو مکان با یک حساب کاربری گوگل وارد شده باشید.

Gemini Advanced

اپلیکیشن های Gemini تنها راه برای جذب کمک مدل‌های Gemini در انجام وظایف نیستند. به آرامی اما به طور قطع، ویژگی‌های مرتبط با Gemini در حال ورود به برنامه‌ها و سرویس های اصلی گوگل مانند جیمیل و گوگل داکس هستند. برای بهره‌برداری از بیشتر این ویژگی‌ها، به پلن پریمیوم هوش مصنوعی گوگل وان نیاز دارید.

این پلن که به طور فنی بخشی از گوگل وان است، هزینه‌ای معادل 20 دلار دارد و دسترسی به Gemini  موجود در برنامه‌های گوگل ورک‌اسپیس مانند Docs، Maps، Slides، Sheets، Drive و Meet را فراهم می‌کند. همچنین این پلن امکان استفاده از آنچه گوگل به عنوان Gemini Advanced می‌نامد را فراهم می‌آورد که مدل‌های پیچیده‌تر Gemini این شرکت را به برنامه‌های Gemini می‌آورد.

کاربران Gemini Advanced از امکانات اضافی نیز بهره‌مند می‌شوند، که شامل دسترسی اولویت‌دار به ویژگی‌های جدید، قابلیت اجرای کدهای پایتون به‌طور مستقیم در Gemini و یک “پنجره زمینه” بزرگ‌تر می شود. Gemini Advanced قادر است محتوای حدود 750.000 کلمه را در یک مکالمه به خاطر بسپارد و بر اساس آن استدلال کند (که معادل 1500 صفحه سند است). این در مقایسه با 24.000 کلمه (یا 48 صفحه) است که اپلیکیشن معمولی Gemini می‌تواند مدیریت کند.

علاوه بر این، Gemini Advanced به کاربران امکان دسترسی به ویژگی تحقیق گوگل Deep Research را می‌دهد که از “استدلال پیشرفته” و “قابلیت‌های زمینه طولانی” برای تولید خلاصه‌های تحقیقاتی استفاده می‌کند. پس از اینکه شما از چت‌بات درخواست می‌کنید، این سیستم یک برنامه تحقیق چند مرحله‌ای ایجاد می‌کند، از شما می‌خواهد آن را تأیید کنید و سپس Gemini چند دقیقه زمان می‌برد تا در وب جستجو کند و گزارشی جامع بر اساس درخواست شما تولید کند. این ویژگی به منظور پاسخگویی به سوالات پیچیده‌تر طراحی شده است.

کاربران Gemini Advanced گوگل از ویژگی حافظه‌ای بهره‌مند می‌شوند که به چت‌بات این امکان را می‌دهد تا از مکالمات قبلی شما با Gemini به عنوان زمینه‌ای برای گفتگوی کنونی‌تان استفاده کند. همچنین، این کاربران از افزایش استفاده از NotebookLM، محصولی که PDFها را به پادکست‌های تولید شده توسط هوش مصنوعی تبدیل می‌کند، برخوردار هستند. علاوه بر این، کاربران Gemini Advanced به نسخه آزمایشی Gemini 2.0 Pro دسترسی دارند که مدل اصلی شرکت بوده و برای حل مسائل پیچیده کدنویسی و ریاضی بهینه‌سازی شده است.

یک ویژگی منحصر به فرد دیگر Gemini Advanced، برنامه‌ریزی سفر در جستجوی گوگل است که برنامه‌های سفر سفارشی را بر اساس درخواست‌ها ایجاد می‌کند. این سیستم با در نظر گرفتن عواملی مانند زمان پرواز (از ایمیل‌های موجود در صندوق ورودی جیمیل کاربر)، ترجیحات غذایی و اطلاعات مربوط به جاذبه‌های محلی (از داده‌های جستجو و نقشه‌های گوگل) و همچنین فاصله‌های بین این جاذبه‌ها، یک برنامه سفر تولید می‌کند که به‌طور خودکار به‌روزرسانی می‌شود تا هرگونه تغییر را منعکس کند.

Gemini همچنین در سرویس های گوگل برای مشتریان شرکتی از طریق دو پلن، Gemini Business (یک افزونه برای Google Workspace) و Gemini Enterprise در دسترس است. هزینه Gemini Business از 6 دلار در ماه برای هر کاربر شروع می‌شود، در حالی که Gemini Enterprise (که شامل یادداشت‌برداری از جلسات و زیرنویس‌های ترجمه‌شده و همچنین طبقه‌بندی و برچسب‌گذاری اسناد است) معمولاً هزینه بیشتری دارد، اما قیمت آن بر اساس نیازهای یک کسب‌وکار تعیین می‌شود.

Gemini در اپلیکیشن های و سرویس های گوگل

در جیمیل، Gemini به‌عنوان یک پنل جانبی وجود دارد که قادر به نوشتن ایمیل‌ها و خلاصه‌سازی رشته‌های پیام است. این پنل مشابه در Docs نیز وجود دارد که به شما در نوشتن و بهبود محتوای خود و ایده‌پردازی کمک می‌کند. Gemini در Slides، اسلایدها و تصاویر سفارشی تولید می‌کند و در Sheets، داده‌ها را پیگیری و سازماندهی کرده و جداول و فرمول‌ها ایجاد می‌کند.

چت‌بات هوش مصنوعی گوگل به‌تازگی به Maps اضافه شده، جایی که Gemini می‌تواند نظرات درباره کافه‌ها را خلاصه‌سازی کند یا پیشنهاداتی برای گذراندن یک روز در یک شهر خارجی ارائه دهد. دسترسی Gemini به Drive نیز گسترش یافته، جایی که می‌تواند فایل‌ها و پوشه‌ها را خلاصه‌سازی کرده و اطلاعات سریع درباره یک پروژه ارائه دهد. در Meet، هوش مصنوعی Gemini زیرنویس‌ها را به زبان‌های دیگر ترجمه می‌کند.

Gemini اخیراً به عنوان یک ابزار نوشتاری هوش مصنوعی به مرورگر کروم گوگل اضافه شده است. این ابزار به شما این امکان را می‌دهد که متنی کاملاً جدید بنویسید یا متن‌های موجود را بازنویسی کنید؛ گوگل اعلام کرده که این ابزار با توجه به صفحه وبی که در آن هستید، پیشنهاداتی ارائه خواهد داد.

در سایر محصولات گوگل، نشانه‌هایی از Gemini را می‌توان در محصولات پایگاه داده، ابزارهای امنیت ابری و پلتفرم‌های توسعه اپلیکیشن (از جمله Firebase و Project IDX) مشاهده کرد. همچنین در اپلیکیشن‌هایی مانند گوگل Photos (که Gemini به جستجوهای زبان طبیعی پاسخ می‌دهد)، یوتیوب (که در آن به ایده‌پردازی برای ویدیوها کمک می‌کند) و دستیار یادداشت‌برداری NotebookLM نیز حضور دارد.

Code Assist (که قبلاً به عنوان Duet AI for Developers شناخته می‌شد)، مجموعه‌ای از ابزارهای هوش مصنوعی گوگل برای تکمیل و تولید کد است که بار محاسباتی سنگین را به Gemini منتقل می‌کند. همچنین محصولات امنیتی گوگل که بر پایه Gemini ساخته شده‌اند، مانند Gemini در Threat Intelligence، قادر به تحلیل بخش‌های بزرگی از کدهای بالقوه مخرب هستند و به کاربران این امکان را می‌دهند که جستجوهای زبان طبیعی برای تهدیدات جاری یا نشانه‌های نفوذ انجام دهند.

افزونه های Gemini و Gems

در کنفرانس Google I/O 2024 اعلام شد که کاربران Gemini Advanced می‌توانند Gems، چت‌بات‌های سفارشی مبتنی بر مدل‌های Gemini، ایجاد کنند. Gems می‌توانند از توصیف‌های زبان طبیعی تولید شوند و می‌توانند با دیگران به اشتراک گذاشته شوند یا به صورت خصوصی نگهداری شوند. Gems در 150 کشور و بیشتر زبان‌ها بر روی دسکتاپ و موبایل در دسترس هستند.

در نهایت، این امکان فراهم خواهد شد که از مجموعه‌ای گسترش‌یافته از ادغام‌ها با سرویس های گوگل، از جمله Calendar، Tasks، Keep و YouTube Music، برای انجام وظایف سفارشی استفاده کنند. در مورد ادغام‌ها، اپلیکیشن‌های Gemini در وب و موبایل می‌توانند از خدمات گوگل از طریق آنچه که گوگل “افزونه‌های Gemini” می‌نامد، بهره‌برداری کنند.

در حال حاضر، Gemini با Google Drive، Gmail و YouTube ادغام شده تا به سوالاتی مانند “آیا می‌توانید سه ایمیل آخر من را خلاصه کنید؟” پاسخ دهد. در اواخر امسال، Gemini قادر خواهد بود اقدامات بیشتری را با Calendar، Tasks، Keep و YouTube Music و ابزارهای کاربردی انجام دهد، که اپلیکیشن‌های انحصاری اندروید هستند و ویژگی‌های دستگاه مانند تایمرها و زنگ‌ها، کنترل‌های رسانه، چراغ قوه، صدا، وای فای، بلوتوث و غیره را کنترل می‌کنند.

چت‌های صوتی عمیق در Gemini Live

تجربه‌ای به نام Gemini Live به کاربران این امکان را می‌دهد که با Gemini گفت‌وگوهای صوتی “عمیق” داشته باشند. این ویژگی در اپلیکیشن‌های Gemini بر روی موبایل و همچنین در Pixel Buds Pro 2 در دسترس است و حتی زمانی که گوشی شما قفل است، می‌توان به آن دسترسی پیدا کرد.

با فعال‌سازی Gemini Live، شما می‌توانید در حین صحبت کردن چت‌بات، آن را قطع کرده و سوالات شفاف خود را بپرسید و Gemini به صورت آنی به الگوهای گفتاری شما واکنش نشان می‌دهد. در آینده، Gemini قرار است توانایی درک بصری را به دست آورد که به آن اجازه می‌دهد تا محیط اطراف شما را ببیند و به آن پاسخ دهد، چه از طریق عکس‌ها و چه ویدیوهایی که دوربین‌های گوشی‌های هوشمند شما ضبط می‌کنند.

این ویژگی همچنین به عنوان یک مربی مجازی طراحی شده که به شما در تمرین برای رویدادها، ایده‌پردازی و موارد دیگر کمک می‌کند. به عنوان مثال، Live می‌تواند پیشنهاد کند که کدام مهارت‌ها را در یک مصاحبه شغلی یا کارآموزی آینده خود برجسته کنید و همچنین مشاوره‌ای در زمینه سخنرانی عمومی ارائه دهد.

تولید تصویر از طریق Imagen 3

کاربران Gemini می‌توانند با استفاده از مدل Imagen 3 که به طور داخلی توسط گوگل طراحی شده، آثار هنری و تصاویر تولید کنند. گوگل اعلام کرده که Imagen 3 قادر است به طور دقیق‌تری متن‌های ورودی را به تصاویری تبدیل کند و نسبت به نسخه قبلی خود، یعنی Imagen 2، در تولیداتش خلاق‌تر و دقیق‌تر عمل می‌کند.

علاوه بر این، این مدل تعداد کمتری از اشکالات بصری و آثار ناخواسته تولید می‌کند (حداقل طبق ادعای گوگل) و بهترین مدل Imagen تا به امروز برای نمایش متن به شمار می‌رود. در فوریه 2024، گوگل مجبور شد قابلیت تولید تصاویر از افراد را در Gemini متوقف کند، زیرا کاربران از نادرستی‌های تاریخی شکایت داشتند.

اما در ماه اوت، این شرکت تولید تصاویر افراد را برای برخی کاربران، به ویژه کاربران انگلیسی‌زبان که در یکی از طرح‌های پرداختی Gemini (مانند Gemini Advanced) ثبت‌نام کرده بودند، دوباره معرفی کرد و این اقدام بخشی از یک برنامه آزمایشی بود.

Gemini برای نوجوانان

در ماه ژوئن، گوگل تجربه‌ای از Gemini را برای نوجوانان معرفی کرد که به دانش‌آموزان این امکان را می‌دهد تا از طریق حساب‌های کاربری Google Workspace for Education خود ثبت‌نام کنند.

این نسخه مخصوص نوجوانان Gemini دارای “سیاست‌ها و تدابیر اضافی” است که شامل یک فرآیند ورود به سیستم متناسب و یک “راهنمای سواد هوش مصنوعی” می‌شود تا به گفته گوگل، به نوجوانان کمک کند تا از هوش مصنوعی به طور مسئولانه استفاده کنند.

در غیر این صورت، این تجربه تقریباً مشابه تجربه استاندارد Gemini است و شامل ویژگی “بررسی دوباره” می‌شود که به جستجوی اطلاعات در وب می‌پردازد تا دقت پاسخ‌های Gemini را تأیید کند.

Gemini در دستگاه های خانه هوشمند

تعداد فزاینده‌ای از دستگاه‌های تولید شده توسط گوگل از قابلیت‌های Gemini بهره‌برداری می‌کنند تا عملکرد خود را بهبود بخشند، از جمله استریمر گوگل تی‌وی، پیکسل 9 و 9 پرو و جدیدترین ترموستات هوشمند نست است. در استریمر گوگل تی‌وی، Gemini با استفاده از ترجیحات شما، پیشنهادات محتوایی را از بین اشتراک‌های شما انتخاب کرده و نقدها و حتی کل فصل‌های تلویزیونی را خلاصه می‌کند.

در جدیدترین ترموستات نست (همچنین بلندگوهای نست، دوربین‌ها و نمایشگرهای هوشمند)، Gemini به زودی قابلیت‌های گفت‌وگویی و تحلیلی دستیار گوگل را تقویت خواهد کرد. مشترکان طرح Nest Aware گوگل در اواخر امسال به پیش‌نمایشی از تجربیات جدید مبتنی بر Gemini دسترسی خواهند داشت، که نظیر توصیف‌های هوش مصنوعی برای فیلم‌های دوربین Nest، جستجوی ویدیویی به زبان طبیعی و اتوماسیون‌های پیشنهادی است.

دوربین‌های Nest قادر خواهند بود تا در ویدیوهای زنده، وقایع را در زمان واقعی شناسایی کنند، در حالی که اپلیکیشن همراه Google Home ویدیوها را نمایش داده و اتوماسیون‌های دستگاه را بر اساس توصیف‌ها ایجاد خواهد کرد. همچنین در اواخر امسال، دستیار گوگل چندین به‌روزرسانی را در دستگاه‌های هوشمند با برند Nest و سایر دستگاه‌ها دریافت خواهد کرد تا مکالمات طبیعی‌تر به نظر برسند. صداهای بهبود یافته در راه هستند و همچنین قابلیت پرسش‌های پی‌درپی و “بازگشت و رفتن آسان‌تر” به مکالمات اضافه خواهد شد.

مدل های Gemini چه کاری می توانند انجام دهند؟

مدل‌های Gemini چندوجهی قادر به انجام مجموعه‌ای از وظایف چندوجهی، نظیر تبدیل گفتار به متن و ایجاد زیرنویس برای تصاویر و ویدئوها به‌صورت زنده هستند. بسیاری از این قابلیت‌ها به مرحله محصول رسیده‌اند و گوگل در آینده‌ای نزدیک وعده‌های بیشتری در این زمینه داده است.

بدیهی است که اعتماد به گفته‌های شرکت کمی دشوار است. گوگل در راه‌اندازی اولیه بارد به شدت کم‌کاری کرد و اخیراً نیز با ویدیویی که ادعا می‌کرد قابلیت‌های Gemini را نشان می‌دهد، حواشی زیادی ایجاد کرد که بیشتر جنبه آرزویی داشت و به صورت زنده نبود.

علاوه بر این، گوگل هیچ راه‌حلی برای برخی از مشکلات اساسی فناوری هوش مصنوعی تولیدی امروز ارائه نمی‌دهد، مانند تعصبات کدگذاری شده و تمایل به ساختن اطلاعات نادرست (یعنی توهم). رقبای آن نیز چنین راه‌حلی ندارند، اما این نکته‌ای است که باید در نظر داشته باشید زمانی که به استفاده یا پرداخت برای Gemini فکر می‌کنید. در ادامه به بررسی قابلیت‌های مختلف سطوح Gemini می‌پردازیم و اینکه چه کارهایی می‌توانند انجام دهند زمانی که به پتانسیل کامل خود برسند.

Gemini Ultra چه کاری می تواند انجام دهد

گوگل اعلام کرده که مدل Gemini Ultra به دلیل چندوجهی بودنش می‌تواند در انجام کارهایی مانند حل تمرین‌های فیزیک، حل مسائل به صورت مرحله به مرحله در برگه‌های کار و شناسایی اشتباهات ممکن در پاسخ‌های پر شده کمک کند. با این حال، در ماه‌های اخیر شاهد حضور چندانی از Gemini Ultra نبوده‌ایم. این مدل در اپلیکیشن Gemini وجود ندارد و در صفحه قیمت‌گذاری API گوگل Gemini نیز ذکر نشده است.

اما این به معنای آن نیست که گوگل در آینده Gemini Ultra را به خط مقدم محصولات خود باز نخواهد گرداند. گوگل همچنین اشاره کرده که Ultra می‌تواند در شناسایی مقالات علمی مرتبط با یک مسئله به کار رود. این مدل می‌تواند اطلاعات را از چندین مقاله استخراج کند و به‌عنوان مثال، یک نمودار را از یکی به‌روزرسانی کند و فرمول‌های لازم برای بازسازی نمودار با داده‌های به‌روزتر را تولید کند.

از نظر فنی، Gemini Ultra از تولید تصویر پشتیبانی می‌کند. اما این قابلیت هنوز به نسخه محصولی مدل منتقل نشده است، شاید به این دلیل که مکانیزم آن پیچیده‌تر از نحوه تولید تصاویر در برنامه‌هایی مانند ChatGPT است. به جای اینکه ورودی‌ها را به یک تولیدکننده تصویر (مانند DALL-E 3 در مورد ChatGPT) بدهد، Gemini تصاویر را به‌طور “بومی” تولید می‌کند، بدون اینکه مرحله واسطی وجود داشته باشد.

Ultra به‌عنوان یک API از طریق Vertex AI، پلتفرم توسعه هوش مصنوعی کاملاً مدیریت‌شده گوگل، و AI Studio، ابزار مبتنی بر وب گوگل برای توسعه‌دهندگان اپلیکیشن و پلتفرم در دسترس است.

توانایی های Gemini Pro

مدل جدید پرو گوگل، Gemini 2.0 Pro، به عنوان بهترین مدل این شرکت در زمینه عملکرد کدنویسی و پردازش درخواست‌های پیچیده معرفی شده است. این مدل در حال حاضر به صورت نسخه آزمایشی در دسترس است که ممکن است با مشکلات غیرمنتظره‌ای همراه باشد. Gemini 2.0 Pro در مقایسه با مدل قبلی خود، Gemini 1.5 Pro، در آزمون‌های مربوط به کدنویسی، استدلال، ریاضیات و دقت اطلاعات عملکرد بهتری دارد.

این مدل قادر است تا 1.4 میلیون کلمه، دو ساعت ویدیو یا 22 ساعت صدا را پردازش کند و می‌تواند به سوالات مربوط به این داده‌ها پاسخ دهد یا در مورد آن‌ها استدلال کند. با این حال، مدل Gemini 1.5 Pro همچنان موتور محرک ویژگی Deep Research گوگل است. نسخه Gemini 2.0 Pro در کنار ویژگی‌ای به نام اجرای کد که در ماه ژوئن و همزمان با نسخه 1.5 پرو جمنای معرفی شد، کار می‌کند.

هدف این ویژگی کاهش اشکالات در کدی است که مدل تولید می‌کند و این کار از طریق تصحیح تدریجی کد در چند مرحله انجام می‌شود. در پلتفرم Vertex AI، توسعه‌دهندگان می‌توانند Gemini Pro را برای زمینه‌ها و موارد استفاده خاص از طریق فرآیند تنظیم دقیق یا “زمینی” سفارشی‌سازی کنند. به عنوان مثال، پرو (به همراه سایر مدل‌های جمنای) می‌تواند به استفاده از داده‌های تأمین‌کنندگان شخص ثالث دستور داده شود یا اطلاعات را از پایگاه‌های داده شرکتی یا جستجوی گوگل به جای بانک اطلاعاتی وسیع‌تر خود استخراج کند.

Gemini Pro همچنین می‌تواند به APIهای شخص ثالث خارجی متصل شود تا اقداماتی خاص، مانند خودکارسازی یک جریان کار در بخش پشتیبانی را انجام دهد. AI Studio الگوهایی برای ایجاد درخواست‌های چت ساختاریافته با پرو ارائه می‌دهد. توسعه‌دهندگان می‌توانند دامنه خلاقانه مدل را کنترل کرده و مثال‌هایی ارائه دهند تا دستورالعمل‌های لحن و سبک را مشخص کنند و همچنین تنظیمات ایمنی پرو را تنظیم کنند.

Vertex AI Agent Builder به افراد این امکان را می‌دهد که “نماینده‌هایی” با قدرت Gemini درون Vertex AI بسازند. به عنوان مثال، یک شرکت می‌تواند نماینده‌ای ایجاد کند که کمپین‌های بازاریابی قبلی را تحلیل کند تا سبک برند را درک کند و سپس از آن دانش برای کمک به تولید ایده‌های جدید متناسب با آن سبک استفاده کند.

Gemini Flash سبک‌تر است اما عملکرد خوبی دارد

گوگل مدل هوش مصنوعی خود به نام Gemini 2.0 Flash را به عنوان مدلی برای عصر عامل‌محور معرفی کرده است. این مدل قادر است به طور بومی تصاویر و صدا تولید کند و علاوه بر متن، از ابزارهایی مانند جستجوی گوگل استفاده کرده و با APIهای خارجی تعامل داشته باشد. مدل 2.0 Flash نسبت به نسل قبلی مدل‌های Gemini سریع‌تر است و حتی در برخی از معیارهای اندازه‌گیری کدنویسی و تحلیل تصویر، عملکرد بهتری نسبت به مدل‌های بزرگ‌تر Gemini 1.5 دارد.

شما می‌توانید Gemini 2.0 Flash را در وب‌سایت یا اپلیکیشن موبایل Gemini و همچنین از طریق پلتفرم‌های توسعه‌دهنده هوش مصنوعی گوگل امتحان کنید. در ماه دسامبر، گوگل نسخه‌ای از Gemini 2.0 Flash را منتشر کرد که قابلیت “تفکر” دارد و می‌تواند “استدلال” کند؛ به این صورت که مدل هوش مصنوعی چند ثانیه زمان می‌برد تا به عقب برگردد و از طریق یک مسئله کار کند قبل از اینکه پاسخی ارائه دهد.

در ماه فوریه، گوگل قابلیت تفکر Gemini 2.0 Flash را در اپلیکیشن Gemini ارائه داد. در همان ماه، نسخه کوچکتری به نام Gemini 2.0 Flash-Lite نیز منتشر شد. این شرکت اعلام کرده که این مدل از مدل Gemini 1.5 Flash بهتر عمل می‌کند، در حالی که از نظر قیمت و سرعت مشابه است. Flash، که یک شاخه از Gemini Pro است، کوچک و کارآمد طراحی شده و برای بارهای کاری تولیدی با فرکانس بالا و باریک مناسب است.

این مدل چندرسانه‌ای مانند Gemini Pro عمل می‌کند، به این معنی که می‌تواند صدا، ویدیو، تصاویر و متن را تحلیل کند (اما تنها قادر به تولید متن است). گوگل بیان کرده که Flash به ویژه برای وظایفی مانند خلاصه‌سازی و اپلیکیشن‌های چت، همچنین زیرنویس‌گذاری تصاویر و ویدیوها و استخراج داده‌ها از اسناد و جداول طولانی بسیار مناسب است.

توسعه‌دهندگانی که از Flash و Pro استفاده می‌کنند، می‌توانند به‌طور اختیاری از کش کردن زمینه بهره‌برداری کنند، که به آن‌ها این امکان را می‌دهد که مقادیر زیادی اطلاعات (مانند پایگاه دانش یا پایگاه داده مقالات تحقیقاتی) را در یک کش ذخیره کنند که مدل‌های Gemini می‌توانند به سرعت و با هزینه نسبتاً کم به آن دسترسی پیدا کنند. با این حال، کش کردن زمینه هزینه‌ای اضافی بر روی سایر هزینه‌های استفاده از مدل‌های Gemini دارد.

Gemini Nano می تواند روی گوشی اجرا شود

نسخه Gemini Nano یک نسخه بسیار کوچک‌تر از مدل‌های Gemini Pro و Ultra است و به اندازه‌ای کارآمد است که می‌تواند به‌طور مستقیم بر روی برخی دستگاه‌ها اجرا شود، به جای اینکه وظیفه را به یک سرور ارسال کند. تاکنون، Nano چندین ویژگی را در گوشی‌های پیکسل 8 پرو، پیکسل 8، پیکسل 9 پرو، پیکسل 9 و گلکسی اس 24، از جمله قابلیت خلاصه‌سازی در برنامه Recorder و پاسخ هوشمند در Gboard فعال کرده است.

برنامه Recorder که به کاربران این امکان را می‌دهد تا با فشردن یک دکمه، صدا را ضبط و به متن تبدیل کنند، شامل خلاصه‌ای از مکالمات، مصاحبه‌ها، ارائه‌ها و دیگر قطعات صوتی است که توسط Gemini قدرت‌گیری شده است. کاربران حتی در صورت عدم وجود سیگنال یا اتصال Wi-Fi نیز خلاصه‌ها را دریافت می‌کنند و به منظور حفظ حریم خصوصی، هیچ داده‌ای در این فرآیند از گوشی آن‌ها خارج نمی‌شود.

Nano همچنین در Gboard، جایگزین کیبورد گوگل، وجود دارد. در اینجا، این فناوری ویژگی‌ای به نام پاسخ هوشمند را فعال می‌کند که به پیشنهاد جمله بعدی که ممکن است در یک مکالمه در برنامه‌های پیام‌رسان مانند واتس‌اپ بخواهید بگویید، کمک می‌کند. در برنامه Google Messages بر روی دستگاه‌های پشتیبانی شده، Nano به ایجاد Magic Compose کمک می‌کند که می‌تواند پیام‌ها را در سبک‌های مختلفی مانند “هیجان‌زده”، “رسمی” و “شعرگونه” تنظیم کند.

گوگل اعلام کرده که نسخه آینده اندروید از Nano برای هشدار به کاربران در مورد کلاهبرداری‌های احتمالی در طول تماس‌ها استفاده خواهد کرد. برنامه جدید آب و هوا در گوشی‌های پیکسل از Gemini Nano برای تولید گزارش‌های آب و هوایی سفارشی استفاده می‌کند. همچنین TalkBack، سرویس دسترسی گوگل، از Nano برای ایجاد توصیف‌های صوتی از اشیاء برای کاربران کم‌بینا و نابینا بهره می‌برد.

مدل‌های Gemini چقدر هزینه دارند؟

مدل‌های Gemini 1.5 Pro، 1.5 Flash، 2.0 Flash و 2.0 Flash-Lite از طریق API Gemini گوگل برای ساخت برنامه‌ها و خدمات در دسترس هستند که همگی گزینه‌های رایگان دارند. با این حال، گزینه‌های رایگان محدودیت‌هایی در استفاده دارند و برخی ویژگی‌ها مانند کش کردن زمینه و دسته‌بندی را شامل نمی‌شوند.

مدل‌های Gemini به صورت پرداخت به ازای استفاده ارائه می‌شوند. قیمت پایه آنها به شرح زیر است که شامل افزونه‌هایی مانند کش کردن زمینه نمی‌شود و مربوط به سپتامبر 2024 است:

  • Gemini 1.5 Pro: این نسخه هزینه هزینه‌ای معادل 1.25 دلار به ازای هر 1 میلیون توکن ورودی (برای درخواست‌هایی تا 128K توکن) یا 2.50 دلار به ازای هر 1 میلیون توکن ورودی (برای درخواست‌های طولانی‌تر از 128K توکن) دارد. همچنین هزینه خروجی برای این نسخه 5 دلار به ازای هر 1 میلیون توکن (برای درخواست‌هایی تا 128K توکن) یا 10 دلار به ازای هر 1 میلیون توکن خروجی (برای درخواست‌های طولانی‌تر از 128K توکن) تعیین شده است.
  • Gemini 1.5 Flash: این نسخه هزینه‌ای معادل 7.5 سنت برای هر 1 میلیون توکن ورودی (برای درخواست‌هایی تا 128 هزار توکن) و 15 سنت برای هر 1 میلیون توکن ورودی (برای درخواست‌های طولانی‌تر از 128 هزار توکن) دارد. همچنین، هزینه خروجی برای این نسخه 30 سنت برای هر 1 میلیون توکن (برای درخواست‌هایی تا 128 هزار توکن) و 60 سنت برای هر 1 میلیون توکن خروجی (برای درخواست‌های طولانی‌تر از 128 هزار توکن) تعیین شده است.
  • Gemini 2.0 Flash: این نسخه هزینه‌ای معادل 10 سنت برای هر 1 میلیون توکن ورودی و 40 سنت برای هر 1 میلیون توکن خروجی دارد. به‌طور خاص برای صوت، هزینه 70 سنت برای هر 1 میلیون توکن ورودی و 40 سنت برای هر 1 میلیون توکن خروجی در نظر گرفته شده است.
  • Gemini 2.0 Flash-Lite: این نسخه هزینه‌ای معادل 7.5 سنت برای هر 1 میلیون توکن ورودی و 30 سنت برای هر 1 میلیون توکن خروجی دارد.

مروری بر Project Astra

پروژه آسترا تلاش گوگل دیپ‌مایند برای ایجاد برنامه‌ها و “عامل‌های” مبتنی بر هوش مصنوعی است که قادر به درک همزمان چندرسانه‌ای و در زمان واقعی باشند. در نمایش‌های ارائه شده، گوگل نشان داده که مدل هوش مصنوعی می‌تواند به طور همزمان ویدیو و صدا را پردازش کند. در دسامبر، گوگل نسخه‌ای از پروژه Astra را به تعداد محدودی از آزمایش‌کنندگان مورد اعتماد ارائه داد، اما در حال حاضر برنامه‌ای برای انتشار گسترده‌تر آن ندارد.

این شرکت تمایل دارد پروژه Astra را در یک جفت عینک هوشمند قرار دهد. همچنین در دسامبر، گوگل یک نمونه اولیه از عینک‌هایی با قابلیت‌های Astra و واقعیت افزوده را به چند آزمایش‌کننده مورد اعتماد ارائه کرد. با این حال، در حال حاضر محصول مشخصی وجود ندارد و زمان دقیق انتشار چنین محصولی از سوی گوگل هنوز مشخص نیست. پروژه Astra هنوز هم صرفاً یک پروژه است و نه یک محصول. با این حال، نمایش‌های Astra نشان می‌دهد که گوگل چه انتظاراتی از محصولات هوش مصنوعی خود در آینده دارد.

نمایش بیشتر

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا