
مروری بر گوگل Gemini: مدل هوش مصنوعی با امکانات متنوع
گوگل در تلاش است تا با Gemini خود، مجموعهای از مدلها، برنامهها و سرویس های هوش مصنوعی تولیدی، تحولی ایجاد کند. اما Gemini چیست؟ چگونه میتوان از آن استفاده کرد؟ و چگونه با سایر ابزارهای هوش مصنوعی تولیدی مانند اوپن ایآیChatGPT، متا Llama و مایکروسافت Copilot مقایسه میشود؟ برای آسانتر کردن پیگیری آخرین تحولات Gemini، ما این راهنمای مفید را تهیه کردهایم که بهروزرسانیهای جدید در مورد مدلها، ویژگیها و اخبار مربوط به برنامههای گوگل برای Gemini را شامل میشود.
Gemini چیست؟
Gemini، خانواده مدلهای هوش مصنوعی تولیدی نسل بعدی است که گوگل به آن وعده داده بود. این مدلها توسط آزمایشگاههای تحقیقاتی هوش مصنوعی گوگل، شامل دیپمایند و گوگل ریسرچ، توسعه یافتهاند و در چهار نوع مختلف ارائه میشوند:
- Gemini Ultra، یک مدل بسیار بزرگ است.
- Gemini Pro، یک مدل بزرگتر که البته از اولترا کوچکتر است. آخرین نسخه آن، Gemini 2.0 Pro Experimental، پرچمدار گوگل محسوب میشود.
- Gemini Flash، نسخهای سریعتر و “تصفیهشده” از پرو است. این مدل همچنین در نسخهای کمی کوچکتر و سریعتر به نام Gemini Flash-Lite و نسخهای با قابلیتهای استدلال به نام Gemini Flash Thinking Experimental ارائه میشود.
- Gemini Nano، شامل دو مدل کوچک به نامهای Nano-1 و Nano-2 است که کمی قابلیت بیشتری دارد و برای استفاده آفلاین طراحی شده است.
تمام مدلهای Gemini بهطور بومی چندرسانهای آموزش دیدهاند، به این معنا که قادر به کار با و تحلیل فراتر از متن هستند. گوگل اعلام کرده که این مدلها پیش از آموزش نهایی، بر روی مجموعهای از دادههای عمومی، اختصاصی و مجوزدار شامل صدا، تصاویر و ویدیوها، همچنین مجموعهای از کدها و متون به زبانهای مختلف آموزش دیدهاند.
این ویژگی Gemini را از مدلهایی مانند LaMDA که بهطور انحصاری بر روی دادههای متنی آموزش دیده، متمایز میکند. LaMDA نمیتواند چیزی فراتر از متن (مانند مقالات، ایمیلها و غیره) را درک یا تولید کند، اما این موضوع در مورد مدلهای Gemini صدق نمیکند.
لازم به ذکر است که اخلاق و قانونی بودن آموزش مدلها بر روی دادههای عمومی، در برخی موارد بدون اطلاع یا رضایت مالکان داده، موضوعاتی مبهم است. گوگل دارای سیاست جبران خسارت هوش مصنوعی است که برخی از مشتریان گوگل کلود را در برابر دعاوی قانونی محافظت میکند، اما این سیاست شامل استثنائاتی نیز میشود. بنابراین، در استفاده تجاری از Gemini احتیاط کنید.
تفاوت بین اپلیکیشن Gemini و مدلهای آن چیست؟
Gemini بهطور مستقل و متمایز از اپلیکیشنهای Gemini موجود در وب و موبایل (که قبلاً بارد نامیده میشد) عمل میکند. اپلیکیشنهای Gemini بهعنوان کلاینتهایی عمل میکنند که به مدلهای مختلف Gemini متصل میشوند و یک رابط کاربری شبیه به چتبات را بر روی آنها قرار میدهند. میتوان آنها را بهعنوان رابطهای کاربری برای هوش مصنوعی تولیدی گوگل در نظر گرفت که مشابه اپلیکیشنهای ChatGPT و خانواده اپلیکیشنهای Claude از Anthropic هستند.
سایت Gemini وب با این لینک قابل دسترس است. در سیستمعامل اندروید، اپلیکیشن Gemini جایگزین اپلیکیشن موجود گوگل اسیستنت میشود. و در iOS، اپلیکیشنهای گوگل و جستجوی گوگل بهعنوان کلاینتهای Gemini این پلتفرم عمل میکنند. در سیستمعامل اندروید، به تازگی این امکان فراهم شده که بتوانید با استفاده از پوشش Gemini، بر روی هر اپلیکیشنی سوالاتی درباره آنچه که بر روی صفحه نمایش است (مانند یک ویدیو در یوتیوب) بپرسید.
کافی است دکمه پاور گوشی هوشمند پشتیبانی شده را فشار داده و نگه دارید یا بگویید: “Hey Google”؛ در این صورت پوشش Gemini ظاهر خواهد شد. اپلیکیشنهای Gemini قادر به پذیرش تصاویر، دستورات صوتی و متن هستند (از جمله فایلهایی مانند PDF و به زودی ویدیوها، که میتوانند از گوگل درایو بارگذاری یا وارد شوند) و همچنین میتوانند تصاویر تولید کنند. همانطور که انتظار میرود، مکالمات با اپلیکیشنهای Gemini در موبایل به Gemini وب منتقل میشود و بالعکس، به شرطی که در هر دو مکان با یک حساب کاربری گوگل وارد شده باشید.
Gemini Advanced
اپلیکیشن های Gemini تنها راه برای جذب کمک مدلهای Gemini در انجام وظایف نیستند. به آرامی اما به طور قطع، ویژگیهای مرتبط با Gemini در حال ورود به برنامهها و سرویس های اصلی گوگل مانند جیمیل و گوگل داکس هستند. برای بهرهبرداری از بیشتر این ویژگیها، به پلن پریمیوم هوش مصنوعی گوگل وان نیاز دارید.
این پلن که به طور فنی بخشی از گوگل وان است، هزینهای معادل 20 دلار دارد و دسترسی به Gemini موجود در برنامههای گوگل ورکاسپیس مانند Docs، Maps، Slides، Sheets، Drive و Meet را فراهم میکند. همچنین این پلن امکان استفاده از آنچه گوگل به عنوان Gemini Advanced مینامد را فراهم میآورد که مدلهای پیچیدهتر Gemini این شرکت را به برنامههای Gemini میآورد.
کاربران Gemini Advanced از امکانات اضافی نیز بهرهمند میشوند، که شامل دسترسی اولویتدار به ویژگیهای جدید، قابلیت اجرای کدهای پایتون بهطور مستقیم در Gemini و یک “پنجره زمینه” بزرگتر می شود. Gemini Advanced قادر است محتوای حدود 750.000 کلمه را در یک مکالمه به خاطر بسپارد و بر اساس آن استدلال کند (که معادل 1500 صفحه سند است). این در مقایسه با 24.000 کلمه (یا 48 صفحه) است که اپلیکیشن معمولی Gemini میتواند مدیریت کند.
علاوه بر این، Gemini Advanced به کاربران امکان دسترسی به ویژگی تحقیق گوگل Deep Research را میدهد که از “استدلال پیشرفته” و “قابلیتهای زمینه طولانی” برای تولید خلاصههای تحقیقاتی استفاده میکند. پس از اینکه شما از چتبات درخواست میکنید، این سیستم یک برنامه تحقیق چند مرحلهای ایجاد میکند، از شما میخواهد آن را تأیید کنید و سپس Gemini چند دقیقه زمان میبرد تا در وب جستجو کند و گزارشی جامع بر اساس درخواست شما تولید کند. این ویژگی به منظور پاسخگویی به سوالات پیچیدهتر طراحی شده است.
کاربران Gemini Advanced گوگل از ویژگی حافظهای بهرهمند میشوند که به چتبات این امکان را میدهد تا از مکالمات قبلی شما با Gemini به عنوان زمینهای برای گفتگوی کنونیتان استفاده کند. همچنین، این کاربران از افزایش استفاده از NotebookLM، محصولی که PDFها را به پادکستهای تولید شده توسط هوش مصنوعی تبدیل میکند، برخوردار هستند. علاوه بر این، کاربران Gemini Advanced به نسخه آزمایشی Gemini 2.0 Pro دسترسی دارند که مدل اصلی شرکت بوده و برای حل مسائل پیچیده کدنویسی و ریاضی بهینهسازی شده است.
یک ویژگی منحصر به فرد دیگر Gemini Advanced، برنامهریزی سفر در جستجوی گوگل است که برنامههای سفر سفارشی را بر اساس درخواستها ایجاد میکند. این سیستم با در نظر گرفتن عواملی مانند زمان پرواز (از ایمیلهای موجود در صندوق ورودی جیمیل کاربر)، ترجیحات غذایی و اطلاعات مربوط به جاذبههای محلی (از دادههای جستجو و نقشههای گوگل) و همچنین فاصلههای بین این جاذبهها، یک برنامه سفر تولید میکند که بهطور خودکار بهروزرسانی میشود تا هرگونه تغییر را منعکس کند.
Gemini همچنین در سرویس های گوگل برای مشتریان شرکتی از طریق دو پلن، Gemini Business (یک افزونه برای Google Workspace) و Gemini Enterprise در دسترس است. هزینه Gemini Business از 6 دلار در ماه برای هر کاربر شروع میشود، در حالی که Gemini Enterprise (که شامل یادداشتبرداری از جلسات و زیرنویسهای ترجمهشده و همچنین طبقهبندی و برچسبگذاری اسناد است) معمولاً هزینه بیشتری دارد، اما قیمت آن بر اساس نیازهای یک کسبوکار تعیین میشود.
Gemini در اپلیکیشن های و سرویس های گوگل
در جیمیل، Gemini بهعنوان یک پنل جانبی وجود دارد که قادر به نوشتن ایمیلها و خلاصهسازی رشتههای پیام است. این پنل مشابه در Docs نیز وجود دارد که به شما در نوشتن و بهبود محتوای خود و ایدهپردازی کمک میکند. Gemini در Slides، اسلایدها و تصاویر سفارشی تولید میکند و در Sheets، دادهها را پیگیری و سازماندهی کرده و جداول و فرمولها ایجاد میکند.
چتبات هوش مصنوعی گوگل بهتازگی به Maps اضافه شده، جایی که Gemini میتواند نظرات درباره کافهها را خلاصهسازی کند یا پیشنهاداتی برای گذراندن یک روز در یک شهر خارجی ارائه دهد. دسترسی Gemini به Drive نیز گسترش یافته، جایی که میتواند فایلها و پوشهها را خلاصهسازی کرده و اطلاعات سریع درباره یک پروژه ارائه دهد. در Meet، هوش مصنوعی Gemini زیرنویسها را به زبانهای دیگر ترجمه میکند.
Gemini اخیراً به عنوان یک ابزار نوشتاری هوش مصنوعی به مرورگر کروم گوگل اضافه شده است. این ابزار به شما این امکان را میدهد که متنی کاملاً جدید بنویسید یا متنهای موجود را بازنویسی کنید؛ گوگل اعلام کرده که این ابزار با توجه به صفحه وبی که در آن هستید، پیشنهاداتی ارائه خواهد داد.
در سایر محصولات گوگل، نشانههایی از Gemini را میتوان در محصولات پایگاه داده، ابزارهای امنیت ابری و پلتفرمهای توسعه اپلیکیشن (از جمله Firebase و Project IDX) مشاهده کرد. همچنین در اپلیکیشنهایی مانند گوگل Photos (که Gemini به جستجوهای زبان طبیعی پاسخ میدهد)، یوتیوب (که در آن به ایدهپردازی برای ویدیوها کمک میکند) و دستیار یادداشتبرداری NotebookLM نیز حضور دارد.
Code Assist (که قبلاً به عنوان Duet AI for Developers شناخته میشد)، مجموعهای از ابزارهای هوش مصنوعی گوگل برای تکمیل و تولید کد است که بار محاسباتی سنگین را به Gemini منتقل میکند. همچنین محصولات امنیتی گوگل که بر پایه Gemini ساخته شدهاند، مانند Gemini در Threat Intelligence، قادر به تحلیل بخشهای بزرگی از کدهای بالقوه مخرب هستند و به کاربران این امکان را میدهند که جستجوهای زبان طبیعی برای تهدیدات جاری یا نشانههای نفوذ انجام دهند.
افزونه های Gemini و Gems
در کنفرانس Google I/O 2024 اعلام شد که کاربران Gemini Advanced میتوانند Gems، چتباتهای سفارشی مبتنی بر مدلهای Gemini، ایجاد کنند. Gems میتوانند از توصیفهای زبان طبیعی تولید شوند و میتوانند با دیگران به اشتراک گذاشته شوند یا به صورت خصوصی نگهداری شوند. Gems در 150 کشور و بیشتر زبانها بر روی دسکتاپ و موبایل در دسترس هستند.
در نهایت، این امکان فراهم خواهد شد که از مجموعهای گسترشیافته از ادغامها با سرویس های گوگل، از جمله Calendar، Tasks، Keep و YouTube Music، برای انجام وظایف سفارشی استفاده کنند. در مورد ادغامها، اپلیکیشنهای Gemini در وب و موبایل میتوانند از خدمات گوگل از طریق آنچه که گوگل “افزونههای Gemini” مینامد، بهرهبرداری کنند.
در حال حاضر، Gemini با Google Drive، Gmail و YouTube ادغام شده تا به سوالاتی مانند “آیا میتوانید سه ایمیل آخر من را خلاصه کنید؟” پاسخ دهد. در اواخر امسال، Gemini قادر خواهد بود اقدامات بیشتری را با Calendar، Tasks، Keep و YouTube Music و ابزارهای کاربردی انجام دهد، که اپلیکیشنهای انحصاری اندروید هستند و ویژگیهای دستگاه مانند تایمرها و زنگها، کنترلهای رسانه، چراغ قوه، صدا، وای فای، بلوتوث و غیره را کنترل میکنند.
چتهای صوتی عمیق در Gemini Live
تجربهای به نام Gemini Live به کاربران این امکان را میدهد که با Gemini گفتوگوهای صوتی “عمیق” داشته باشند. این ویژگی در اپلیکیشنهای Gemini بر روی موبایل و همچنین در Pixel Buds Pro 2 در دسترس است و حتی زمانی که گوشی شما قفل است، میتوان به آن دسترسی پیدا کرد.
با فعالسازی Gemini Live، شما میتوانید در حین صحبت کردن چتبات، آن را قطع کرده و سوالات شفاف خود را بپرسید و Gemini به صورت آنی به الگوهای گفتاری شما واکنش نشان میدهد. در آینده، Gemini قرار است توانایی درک بصری را به دست آورد که به آن اجازه میدهد تا محیط اطراف شما را ببیند و به آن پاسخ دهد، چه از طریق عکسها و چه ویدیوهایی که دوربینهای گوشیهای هوشمند شما ضبط میکنند.
این ویژگی همچنین به عنوان یک مربی مجازی طراحی شده که به شما در تمرین برای رویدادها، ایدهپردازی و موارد دیگر کمک میکند. به عنوان مثال، Live میتواند پیشنهاد کند که کدام مهارتها را در یک مصاحبه شغلی یا کارآموزی آینده خود برجسته کنید و همچنین مشاورهای در زمینه سخنرانی عمومی ارائه دهد.
تولید تصویر از طریق Imagen 3
کاربران Gemini میتوانند با استفاده از مدل Imagen 3 که به طور داخلی توسط گوگل طراحی شده، آثار هنری و تصاویر تولید کنند. گوگل اعلام کرده که Imagen 3 قادر است به طور دقیقتری متنهای ورودی را به تصاویری تبدیل کند و نسبت به نسخه قبلی خود، یعنی Imagen 2، در تولیداتش خلاقتر و دقیقتر عمل میکند.
علاوه بر این، این مدل تعداد کمتری از اشکالات بصری و آثار ناخواسته تولید میکند (حداقل طبق ادعای گوگل) و بهترین مدل Imagen تا به امروز برای نمایش متن به شمار میرود. در فوریه 2024، گوگل مجبور شد قابلیت تولید تصاویر از افراد را در Gemini متوقف کند، زیرا کاربران از نادرستیهای تاریخی شکایت داشتند.
اما در ماه اوت، این شرکت تولید تصاویر افراد را برای برخی کاربران، به ویژه کاربران انگلیسیزبان که در یکی از طرحهای پرداختی Gemini (مانند Gemini Advanced) ثبتنام کرده بودند، دوباره معرفی کرد و این اقدام بخشی از یک برنامه آزمایشی بود.
Gemini برای نوجوانان
در ماه ژوئن، گوگل تجربهای از Gemini را برای نوجوانان معرفی کرد که به دانشآموزان این امکان را میدهد تا از طریق حسابهای کاربری Google Workspace for Education خود ثبتنام کنند.
این نسخه مخصوص نوجوانان Gemini دارای “سیاستها و تدابیر اضافی” است که شامل یک فرآیند ورود به سیستم متناسب و یک “راهنمای سواد هوش مصنوعی” میشود تا به گفته گوگل، به نوجوانان کمک کند تا از هوش مصنوعی به طور مسئولانه استفاده کنند.
در غیر این صورت، این تجربه تقریباً مشابه تجربه استاندارد Gemini است و شامل ویژگی “بررسی دوباره” میشود که به جستجوی اطلاعات در وب میپردازد تا دقت پاسخهای Gemini را تأیید کند.
Gemini در دستگاه های خانه هوشمند
تعداد فزایندهای از دستگاههای تولید شده توسط گوگل از قابلیتهای Gemini بهرهبرداری میکنند تا عملکرد خود را بهبود بخشند، از جمله استریمر گوگل تیوی، پیکسل 9 و 9 پرو و جدیدترین ترموستات هوشمند نست است. در استریمر گوگل تیوی، Gemini با استفاده از ترجیحات شما، پیشنهادات محتوایی را از بین اشتراکهای شما انتخاب کرده و نقدها و حتی کل فصلهای تلویزیونی را خلاصه میکند.
در جدیدترین ترموستات نست (همچنین بلندگوهای نست، دوربینها و نمایشگرهای هوشمند)، Gemini به زودی قابلیتهای گفتوگویی و تحلیلی دستیار گوگل را تقویت خواهد کرد. مشترکان طرح Nest Aware گوگل در اواخر امسال به پیشنمایشی از تجربیات جدید مبتنی بر Gemini دسترسی خواهند داشت، که نظیر توصیفهای هوش مصنوعی برای فیلمهای دوربین Nest، جستجوی ویدیویی به زبان طبیعی و اتوماسیونهای پیشنهادی است.
دوربینهای Nest قادر خواهند بود تا در ویدیوهای زنده، وقایع را در زمان واقعی شناسایی کنند، در حالی که اپلیکیشن همراه Google Home ویدیوها را نمایش داده و اتوماسیونهای دستگاه را بر اساس توصیفها ایجاد خواهد کرد. همچنین در اواخر امسال، دستیار گوگل چندین بهروزرسانی را در دستگاههای هوشمند با برند Nest و سایر دستگاهها دریافت خواهد کرد تا مکالمات طبیعیتر به نظر برسند. صداهای بهبود یافته در راه هستند و همچنین قابلیت پرسشهای پیدرپی و “بازگشت و رفتن آسانتر” به مکالمات اضافه خواهد شد.
مدل های Gemini چه کاری می توانند انجام دهند؟
مدلهای Gemini چندوجهی قادر به انجام مجموعهای از وظایف چندوجهی، نظیر تبدیل گفتار به متن و ایجاد زیرنویس برای تصاویر و ویدئوها بهصورت زنده هستند. بسیاری از این قابلیتها به مرحله محصول رسیدهاند و گوگل در آیندهای نزدیک وعدههای بیشتری در این زمینه داده است.
بدیهی است که اعتماد به گفتههای شرکت کمی دشوار است. گوگل در راهاندازی اولیه بارد به شدت کمکاری کرد و اخیراً نیز با ویدیویی که ادعا میکرد قابلیتهای Gemini را نشان میدهد، حواشی زیادی ایجاد کرد که بیشتر جنبه آرزویی داشت و به صورت زنده نبود.
علاوه بر این، گوگل هیچ راهحلی برای برخی از مشکلات اساسی فناوری هوش مصنوعی تولیدی امروز ارائه نمیدهد، مانند تعصبات کدگذاری شده و تمایل به ساختن اطلاعات نادرست (یعنی توهم). رقبای آن نیز چنین راهحلی ندارند، اما این نکتهای است که باید در نظر داشته باشید زمانی که به استفاده یا پرداخت برای Gemini فکر میکنید. در ادامه به بررسی قابلیتهای مختلف سطوح Gemini میپردازیم و اینکه چه کارهایی میتوانند انجام دهند زمانی که به پتانسیل کامل خود برسند.
Gemini Ultra چه کاری می تواند انجام دهد
گوگل اعلام کرده که مدل Gemini Ultra به دلیل چندوجهی بودنش میتواند در انجام کارهایی مانند حل تمرینهای فیزیک، حل مسائل به صورت مرحله به مرحله در برگههای کار و شناسایی اشتباهات ممکن در پاسخهای پر شده کمک کند. با این حال، در ماههای اخیر شاهد حضور چندانی از Gemini Ultra نبودهایم. این مدل در اپلیکیشن Gemini وجود ندارد و در صفحه قیمتگذاری API گوگل Gemini نیز ذکر نشده است.
اما این به معنای آن نیست که گوگل در آینده Gemini Ultra را به خط مقدم محصولات خود باز نخواهد گرداند. گوگل همچنین اشاره کرده که Ultra میتواند در شناسایی مقالات علمی مرتبط با یک مسئله به کار رود. این مدل میتواند اطلاعات را از چندین مقاله استخراج کند و بهعنوان مثال، یک نمودار را از یکی بهروزرسانی کند و فرمولهای لازم برای بازسازی نمودار با دادههای بهروزتر را تولید کند.
از نظر فنی، Gemini Ultra از تولید تصویر پشتیبانی میکند. اما این قابلیت هنوز به نسخه محصولی مدل منتقل نشده است، شاید به این دلیل که مکانیزم آن پیچیدهتر از نحوه تولید تصاویر در برنامههایی مانند ChatGPT است. به جای اینکه ورودیها را به یک تولیدکننده تصویر (مانند DALL-E 3 در مورد ChatGPT) بدهد، Gemini تصاویر را بهطور “بومی” تولید میکند، بدون اینکه مرحله واسطی وجود داشته باشد.
Ultra بهعنوان یک API از طریق Vertex AI، پلتفرم توسعه هوش مصنوعی کاملاً مدیریتشده گوگل، و AI Studio، ابزار مبتنی بر وب گوگل برای توسعهدهندگان اپلیکیشن و پلتفرم در دسترس است.
توانایی های Gemini Pro
مدل جدید پرو گوگل، Gemini 2.0 Pro، به عنوان بهترین مدل این شرکت در زمینه عملکرد کدنویسی و پردازش درخواستهای پیچیده معرفی شده است. این مدل در حال حاضر به صورت نسخه آزمایشی در دسترس است که ممکن است با مشکلات غیرمنتظرهای همراه باشد. Gemini 2.0 Pro در مقایسه با مدل قبلی خود، Gemini 1.5 Pro، در آزمونهای مربوط به کدنویسی، استدلال، ریاضیات و دقت اطلاعات عملکرد بهتری دارد.
این مدل قادر است تا 1.4 میلیون کلمه، دو ساعت ویدیو یا 22 ساعت صدا را پردازش کند و میتواند به سوالات مربوط به این دادهها پاسخ دهد یا در مورد آنها استدلال کند. با این حال، مدل Gemini 1.5 Pro همچنان موتور محرک ویژگی Deep Research گوگل است. نسخه Gemini 2.0 Pro در کنار ویژگیای به نام اجرای کد که در ماه ژوئن و همزمان با نسخه 1.5 پرو جمنای معرفی شد، کار میکند.
هدف این ویژگی کاهش اشکالات در کدی است که مدل تولید میکند و این کار از طریق تصحیح تدریجی کد در چند مرحله انجام میشود. در پلتفرم Vertex AI، توسعهدهندگان میتوانند Gemini Pro را برای زمینهها و موارد استفاده خاص از طریق فرآیند تنظیم دقیق یا “زمینی” سفارشیسازی کنند. به عنوان مثال، پرو (به همراه سایر مدلهای جمنای) میتواند به استفاده از دادههای تأمینکنندگان شخص ثالث دستور داده شود یا اطلاعات را از پایگاههای داده شرکتی یا جستجوی گوگل به جای بانک اطلاعاتی وسیعتر خود استخراج کند.
Gemini Pro همچنین میتواند به APIهای شخص ثالث خارجی متصل شود تا اقداماتی خاص، مانند خودکارسازی یک جریان کار در بخش پشتیبانی را انجام دهد. AI Studio الگوهایی برای ایجاد درخواستهای چت ساختاریافته با پرو ارائه میدهد. توسعهدهندگان میتوانند دامنه خلاقانه مدل را کنترل کرده و مثالهایی ارائه دهند تا دستورالعملهای لحن و سبک را مشخص کنند و همچنین تنظیمات ایمنی پرو را تنظیم کنند.
Vertex AI Agent Builder به افراد این امکان را میدهد که “نمایندههایی” با قدرت Gemini درون Vertex AI بسازند. به عنوان مثال، یک شرکت میتواند نمایندهای ایجاد کند که کمپینهای بازاریابی قبلی را تحلیل کند تا سبک برند را درک کند و سپس از آن دانش برای کمک به تولید ایدههای جدید متناسب با آن سبک استفاده کند.
Gemini Flash سبکتر است اما عملکرد خوبی دارد
گوگل مدل هوش مصنوعی خود به نام Gemini 2.0 Flash را به عنوان مدلی برای عصر عاملمحور معرفی کرده است. این مدل قادر است به طور بومی تصاویر و صدا تولید کند و علاوه بر متن، از ابزارهایی مانند جستجوی گوگل استفاده کرده و با APIهای خارجی تعامل داشته باشد. مدل 2.0 Flash نسبت به نسل قبلی مدلهای Gemini سریعتر است و حتی در برخی از معیارهای اندازهگیری کدنویسی و تحلیل تصویر، عملکرد بهتری نسبت به مدلهای بزرگتر Gemini 1.5 دارد.
شما میتوانید Gemini 2.0 Flash را در وبسایت یا اپلیکیشن موبایل Gemini و همچنین از طریق پلتفرمهای توسعهدهنده هوش مصنوعی گوگل امتحان کنید. در ماه دسامبر، گوگل نسخهای از Gemini 2.0 Flash را منتشر کرد که قابلیت “تفکر” دارد و میتواند “استدلال” کند؛ به این صورت که مدل هوش مصنوعی چند ثانیه زمان میبرد تا به عقب برگردد و از طریق یک مسئله کار کند قبل از اینکه پاسخی ارائه دهد.
در ماه فوریه، گوگل قابلیت تفکر Gemini 2.0 Flash را در اپلیکیشن Gemini ارائه داد. در همان ماه، نسخه کوچکتری به نام Gemini 2.0 Flash-Lite نیز منتشر شد. این شرکت اعلام کرده که این مدل از مدل Gemini 1.5 Flash بهتر عمل میکند، در حالی که از نظر قیمت و سرعت مشابه است. Flash، که یک شاخه از Gemini Pro است، کوچک و کارآمد طراحی شده و برای بارهای کاری تولیدی با فرکانس بالا و باریک مناسب است.
این مدل چندرسانهای مانند Gemini Pro عمل میکند، به این معنی که میتواند صدا، ویدیو، تصاویر و متن را تحلیل کند (اما تنها قادر به تولید متن است). گوگل بیان کرده که Flash به ویژه برای وظایفی مانند خلاصهسازی و اپلیکیشنهای چت، همچنین زیرنویسگذاری تصاویر و ویدیوها و استخراج دادهها از اسناد و جداول طولانی بسیار مناسب است.
توسعهدهندگانی که از Flash و Pro استفاده میکنند، میتوانند بهطور اختیاری از کش کردن زمینه بهرهبرداری کنند، که به آنها این امکان را میدهد که مقادیر زیادی اطلاعات (مانند پایگاه دانش یا پایگاه داده مقالات تحقیقاتی) را در یک کش ذخیره کنند که مدلهای Gemini میتوانند به سرعت و با هزینه نسبتاً کم به آن دسترسی پیدا کنند. با این حال، کش کردن زمینه هزینهای اضافی بر روی سایر هزینههای استفاده از مدلهای Gemini دارد.
Gemini Nano می تواند روی گوشی اجرا شود
نسخه Gemini Nano یک نسخه بسیار کوچکتر از مدلهای Gemini Pro و Ultra است و به اندازهای کارآمد است که میتواند بهطور مستقیم بر روی برخی دستگاهها اجرا شود، به جای اینکه وظیفه را به یک سرور ارسال کند. تاکنون، Nano چندین ویژگی را در گوشیهای پیکسل 8 پرو، پیکسل 8، پیکسل 9 پرو، پیکسل 9 و گلکسی اس 24، از جمله قابلیت خلاصهسازی در برنامه Recorder و پاسخ هوشمند در Gboard فعال کرده است.
برنامه Recorder که به کاربران این امکان را میدهد تا با فشردن یک دکمه، صدا را ضبط و به متن تبدیل کنند، شامل خلاصهای از مکالمات، مصاحبهها، ارائهها و دیگر قطعات صوتی است که توسط Gemini قدرتگیری شده است. کاربران حتی در صورت عدم وجود سیگنال یا اتصال Wi-Fi نیز خلاصهها را دریافت میکنند و به منظور حفظ حریم خصوصی، هیچ دادهای در این فرآیند از گوشی آنها خارج نمیشود.
Nano همچنین در Gboard، جایگزین کیبورد گوگل، وجود دارد. در اینجا، این فناوری ویژگیای به نام پاسخ هوشمند را فعال میکند که به پیشنهاد جمله بعدی که ممکن است در یک مکالمه در برنامههای پیامرسان مانند واتساپ بخواهید بگویید، کمک میکند. در برنامه Google Messages بر روی دستگاههای پشتیبانی شده، Nano به ایجاد Magic Compose کمک میکند که میتواند پیامها را در سبکهای مختلفی مانند “هیجانزده”، “رسمی” و “شعرگونه” تنظیم کند.
گوگل اعلام کرده که نسخه آینده اندروید از Nano برای هشدار به کاربران در مورد کلاهبرداریهای احتمالی در طول تماسها استفاده خواهد کرد. برنامه جدید آب و هوا در گوشیهای پیکسل از Gemini Nano برای تولید گزارشهای آب و هوایی سفارشی استفاده میکند. همچنین TalkBack، سرویس دسترسی گوگل، از Nano برای ایجاد توصیفهای صوتی از اشیاء برای کاربران کمبینا و نابینا بهره میبرد.
مدلهای Gemini چقدر هزینه دارند؟
مدلهای Gemini 1.5 Pro، 1.5 Flash، 2.0 Flash و 2.0 Flash-Lite از طریق API Gemini گوگل برای ساخت برنامهها و خدمات در دسترس هستند که همگی گزینههای رایگان دارند. با این حال، گزینههای رایگان محدودیتهایی در استفاده دارند و برخی ویژگیها مانند کش کردن زمینه و دستهبندی را شامل نمیشوند.
مدلهای Gemini به صورت پرداخت به ازای استفاده ارائه میشوند. قیمت پایه آنها به شرح زیر است که شامل افزونههایی مانند کش کردن زمینه نمیشود و مربوط به سپتامبر 2024 است:
- Gemini 1.5 Pro: این نسخه هزینه هزینهای معادل 1.25 دلار به ازای هر 1 میلیون توکن ورودی (برای درخواستهایی تا 128K توکن) یا 2.50 دلار به ازای هر 1 میلیون توکن ورودی (برای درخواستهای طولانیتر از 128K توکن) دارد. همچنین هزینه خروجی برای این نسخه 5 دلار به ازای هر 1 میلیون توکن (برای درخواستهایی تا 128K توکن) یا 10 دلار به ازای هر 1 میلیون توکن خروجی (برای درخواستهای طولانیتر از 128K توکن) تعیین شده است.
- Gemini 1.5 Flash: این نسخه هزینهای معادل 7.5 سنت برای هر 1 میلیون توکن ورودی (برای درخواستهایی تا 128 هزار توکن) و 15 سنت برای هر 1 میلیون توکن ورودی (برای درخواستهای طولانیتر از 128 هزار توکن) دارد. همچنین، هزینه خروجی برای این نسخه 30 سنت برای هر 1 میلیون توکن (برای درخواستهایی تا 128 هزار توکن) و 60 سنت برای هر 1 میلیون توکن خروجی (برای درخواستهای طولانیتر از 128 هزار توکن) تعیین شده است.
- Gemini 2.0 Flash: این نسخه هزینهای معادل 10 سنت برای هر 1 میلیون توکن ورودی و 40 سنت برای هر 1 میلیون توکن خروجی دارد. بهطور خاص برای صوت، هزینه 70 سنت برای هر 1 میلیون توکن ورودی و 40 سنت برای هر 1 میلیون توکن خروجی در نظر گرفته شده است.
- Gemini 2.0 Flash-Lite: این نسخه هزینهای معادل 7.5 سنت برای هر 1 میلیون توکن ورودی و 30 سنت برای هر 1 میلیون توکن خروجی دارد.
مروری بر Project Astra
پروژه آسترا تلاش گوگل دیپمایند برای ایجاد برنامهها و “عاملهای” مبتنی بر هوش مصنوعی است که قادر به درک همزمان چندرسانهای و در زمان واقعی باشند. در نمایشهای ارائه شده، گوگل نشان داده که مدل هوش مصنوعی میتواند به طور همزمان ویدیو و صدا را پردازش کند. در دسامبر، گوگل نسخهای از پروژه Astra را به تعداد محدودی از آزمایشکنندگان مورد اعتماد ارائه داد، اما در حال حاضر برنامهای برای انتشار گستردهتر آن ندارد.
این شرکت تمایل دارد پروژه Astra را در یک جفت عینک هوشمند قرار دهد. همچنین در دسامبر، گوگل یک نمونه اولیه از عینکهایی با قابلیتهای Astra و واقعیت افزوده را به چند آزمایشکننده مورد اعتماد ارائه کرد. با این حال، در حال حاضر محصول مشخصی وجود ندارد و زمان دقیق انتشار چنین محصولی از سوی گوگل هنوز مشخص نیست. پروژه Astra هنوز هم صرفاً یک پروژه است و نه یک محصول. با این حال، نمایشهای Astra نشان میدهد که گوگل چه انتظاراتی از محصولات هوش مصنوعی خود در آینده دارد.