گوگل از مدل جدید RT-2 برای کمک به ربات ها معرفی کرد
گوگل مدل جدیدی از زبان بینایی (VLA) به نام Robotics Transformer 2 (RT-2) را معرفی کرده که آن را “اولین در نوع خود” توصیف می کند. به گفته گوگل، RT-2 می تواند ورودی های متن یا تصویر را انجام دهد و اقدامات رباتیک را خروجی کند. این شرکت گفت که آموزش رباتها میتواند یک “تلاش بزرگ” باشد، زیرا آنها به آموزش روی میلیاردها نقطه داده برای هر شی، محیط، وظیفه و موقعیت در جهان نیاز دارند. با این حال، با RT-2، گوگل میگوید که نوید بزرگی برای رباتهای همهمنظورهتر وجود دارد.
در حالی که این شرکت در مورد آنچه که RT-2 می تواند باز کند هیجان زده است، گفت که برای فعال کردن ربات های مفید در محیط های انسان محور باید کارهای زیادی انجام شود. در پایان، به گفته سایت DeepMind، یک ربات فیزیکی همه منظوره میتواند از مدلهای VLA حاصل شود و آنها میتوانند اطلاعات را برای انجام وظایف دنیای واقعی استدلال، حل کنند و تفسیر کنند.
همانطور که از نام آن پیداست، این اولین تکرار از مدل Robotics Transformer VLA نیست. DeepMind بیان کرد که RT-2 بر روی کار RT-1 ساخته می شود و قابلیت های تعمیم بهبود یافته را در مقایسه با مدل های قبلی نشان می دهد و در کارهای جدید و دیده نشده بهتر عمل می کند.
یکی دیگر از مهارت های جدید که RT-2 نسبت به پیشینیان خود قادر به انجام آن بود، استدلال نمادین است که می تواند مفاهیم انتزاعی را درک کند و آنها را به طور منطقی دستکاری کند. یکی از نمونههای آن زمانی است که از ربات خواسته شد که بانا را به مجموع 2 به اضافه 1 منتقل کند و کار را به درستی انجام داد، حتی اگر به طور صریح برای انجام ریاضیات انتزاعی یا دستکاری نمادین آموزش ندیده باشد.
در حالی که RT-2 یک گام بزرگ رو به جلو برای رباتیک است، منصفانه نیست که اعلام کنیم ربات های ترمیناتور وارد شده اند. این مدل همچنان به ورودی و نظارت انسانی نیاز دارد و محدودیت های فنی قابل توجهی را در عملیات ربات های دنیای واقعی تجربه می کند. با این گفته، امیدواریم به رباتهای جالبی منجر شود که میتوانند کارهایی را انجام دهند که قبلاً امکانپذیر یا آسان نبود.