گوگل Project Astra را معرفی کرد: یک ربات چت هوش مصنوعی برای منظره یاب دوربین شما
هنگامی که گوگل برای اولین بار فناوری دستیار صوتی Duplex خود را در کنفرانس توسعه دهندگان خود در سال 2018 به نمایش گذاشت، هم چشمگیر و هم نگران کننده بود. امروز، در I/O 2024، این شرکت ممکن است دوباره همان واکنشها را مطرح کند، این بار با نشان دادن کاربرد دیگری از هوش مصنوعی خود با چیزی به نام Project Astra!
طبق ویدیویی که گوگل در رویداد خود به نمایش گذاشت، ظاهراً Project Astra اپلیکیشنی است که به دوربین دستگاه دسترسی دارد و از طریق آن میتواند به برخی سوالات توضیح دهد. در این ویدیو، Astra از طریق دوربین میتواند به محیط اطراف کاربر نگاه کند و آن را توصیف کند. علاوه بر این، مانند نمایش روز گذشته GPT-4o گوگل در ادامه دوربین دستگاه را به سمت کدهای روی صفحه کامپیوتر میگیرد تا بتواند از Astra درخواست راهنمایی کند.
در این ویدیو، Astra از طریق دوربین دستگاه به درستی توانست برخی اشیاء که میبیند را تشخیص دهد و حتی به این موضوع اشاره کرد که عینک روی میز را قبلا دیده است. حتی گوگل از این هوش مصنوعی سوال کرد که «یک وسیله تولیدکننده صدا را نام ببرد» که Astra به اسپیکر روی میز اشاره کرد.
در ادامه ویدیو Gemini در Project Astra نشان میدهد که بخشهایی از کد را روی یک مانیتور شناسایی و توضیح میدهد، و به کاربر میگوید بر اساس نمای بیرون پنجره در چه محلهای هستند. از همه تاثیرگذارتر، Astra توانست پاسخ دهد “یادت هست عینک من را کجا دیدی؟” حتی اگر عینک های مذکور کاملاً خارج از قاب بودند و قبلاً به آن اشاره نشده بود. جمینی گفت: “بله، دارم” و افزود: “عینک شما روی میز نزدیک یک سیب قرمز بود.”
پس از اینکه Astra آن عینک را پیدا کرد، تستر آنها را روی آن قرار داد و ویدیو به چشماندازی که روی ابزار پوشیدنی میبینید تغییر یافت. این عینک با استفاده از دوربین روی برد، محیط اطراف کاربر را اسکن کرد تا چیزهایی مانند نمودار روی تخته سفید را ببیند. این بدان معناست که Astra نه تنها دادههای بصری را در زمان واقعی پردازش میکرد، بلکه آنچه را که میدید به خاطر میآورد و با حجم قابل توجهی از اطلاعات ذخیرهشده کار میکرد.
به گفته Hassabis، این به این دلیل محقق شد که این “عاملها” برای پردازش سریعتر اطلاعات با رمزگذاری مداوم فریمهای ویدیو، ترکیب ورودی ویدیو و گفتار در جدول زمانی رویدادها، و ذخیره این اطلاعات برای یادآوری کارآمد طراحی شدهاند. همچنین شایان ذکر است که در ویدیو، آسترا به سرعت پاسخ میدهد. Hassabis در یک پست وبلاگ اشاره کرد که “در حالی که ما در توسعه سیستمهای هوش مصنوعی که میتوانند اطلاعات چندوجهی را درک کنند، پیشرفتهای باورنکردنی داشتهایم، کاهش زمان پاسخ به چیزی مکالمه یک چالش مهندسی دشوار است.”
گوگل همچنین در حال کار بر روی ارائه دامنه بیشتر بیان صوتی به هوش مصنوعی خود بوده و از مدلهای گفتاری خود برای “تقویت صدای آنها و دادن طیف وسیعتری از لحنها به عوامل” استفاده میکند. این نوع تقلید از بیان انسان در پاسخ ها یادآور مکث ها و گفته های Duplex است که باعث شد مردم فکر کنند هوش مصنوعی گوگل ممکن است کاندیدای آزمون تورینگ باشد.