
گوگل با معرفی Gemini Robotics هوش مصنوعی را وارد دنیای ربات ها می کند
گوگل دیپمایند در زمینه هوش مصنوعی به پیشرفتهای مداوم خود ادامه میدهد و بهروزرسانیهای منظم برای مدلهای Gemini، Imagen، Veo، Gemma و AlphaFold ارائه میدهد. امروز، تیم گوگل دیپمایند وارد صنعت رباتیک شده و دو مدل جدید مبتنی بر Gemini 2.0 را معرفی کرده است: Gemini Robotics و Gemini Robotics-ER.
Gemini Robotics یک مدل پیشرفته بینایی-زبان-عمل (VLA) است که بر اساس Gemini 2.0 طراحی شده و قابلیت انجام اقدامات فیزیکی به عنوان یک نوع خروجی جدید برای کنترل رباتها به آن افزوده شده است. گوگل ادعا میکند که این مدل جدید قادر است وضعیتهایی را درک کند که هرگز در طول آموزش با آنها مواجه نشده است.
مدلهای پیشرفته بینایی-زبان-عمل Gemini Robotics در مقایسه با سایر مدلهای مشابه، در یک معیار جامع تعمیم، عملکردی دو برابر بهتر از خود نشان میدهند. این مدل که بر پایه Gemini 2.0 ساخته شده است، قابلیتهای درک زبان طبیعی را در زبانهای مختلف داراست و به همین دلیل میتواند دستورات افراد را به شکل بهتری درک کند.
در زمینه چابکی، گوگل ادعا میکند که Gemini Robotics قادر به انجام وظایف بسیار پیچیده و چند مرحلهای است که نیاز به دستکاری دقیق دارند. به عنوان مثال، این مدل میتواند هنر اوریگامی را انجام دهد یا یک میانوعده را در یک کیسه زیپدار قرار دهد.
Gemini Robotics-ER یک مدل پیشرفته بینایی-زبان است که بر روی استدلال فضایی تمرکز دارد و به رباتیکدانان این امکان را میدهد که آن را با کنترلرهای سطح پایین موجود خود متصل کنند. با استفاده از این مدل، رباتیکدانان میتوانند تمام مراحل کنترل یک ربات را به راحتی و به صورت آماده در اختیار داشته باشند که شامل درک، تخمین وضعیت، درک فضایی، برنامهریزی و تولید کد است.
گوگل در حال همکاری با Apptronik برای ساخت رباتهای انساننما بر اساس مدلهای Gemini 2.0 است. همچنین، گوگل با تعدادی از آزمایشکنندگان معتبر از جمله Agile Robots، Agility Robotics، Boston Dynamics و Enchanted Tools در زمینه آینده Gemini Robotics-ER همکاری میکند.
با فراهم کردن امکان درک و اجرای وظایف پیچیده با دقت و سازگاری بیشتر، گوگل دیپمایند در حال ایجاد مسیری برای آیندهای است که در آن رباتها میتوانند به طور یکپارچه در جنبههای مختلف زندگی ما ادغام شوند.