نرم افزار و اینترنت

گوگل Project Astra را معرفی کرد: یک ربات چت هوش مصنوعی برای منظره یاب دوربین شما

هنگامی که گوگل برای اولین بار فناوری دستیار صوتی Duplex خود را در کنفرانس توسعه دهندگان خود در سال 2018 به نمایش گذاشت، هم چشمگیر و هم نگران کننده بود. امروز، در I/O 2024، این شرکت ممکن است دوباره همان واکنش‌ها را مطرح کند، این بار با نشان دادن کاربرد دیگری از هوش مصنوعی خود با چیزی به نام Project Astra!

طبق ویدیویی که گوگل در رویداد خود به نمایش گذاشت، ظاهراً Project Astra اپلیکیشنی است که به دوربین دستگاه دسترسی دارد و از طریق آن می‌تواند به برخی سوالات توضیح دهد. در این ویدیو، Astra از طریق دوربین می‌تواند به محیط اطراف کاربر نگاه کند و آن را توصیف کند. علاوه بر این، مانند نمایش روز گذشته GPT-4o گوگل در ادامه دوربین دستگاه را به سمت کدهای روی صفحه کامپیوتر می‌گیرد تا بتواند از Astra درخواست راهنمایی کند.

در این ویدیو، Astra از طریق دوربین دستگاه به درستی توانست برخی اشیاء که می‌بیند را تشخیص دهد و حتی به این موضوع اشاره کرد که عینک روی میز را قبلا دیده است. حتی گوگل از این هوش مصنوعی سوال کرد که «یک وسیله تولیدکننده صدا را نام ببرد» که Astra به اسپیکر روی میز اشاره کرد.

در ادامه ویدیو Gemini در Project Astra نشان می‌دهد که بخش‌هایی از کد را روی یک مانیتور شناسایی و توضیح می‌دهد، و به کاربر می‌گوید بر اساس نمای بیرون پنجره در چه محله‌ای هستند. از همه تاثیرگذارتر، Astra توانست پاسخ دهد “یادت هست عینک من را کجا دیدی؟” حتی اگر عینک های مذکور کاملاً خارج از قاب بودند و قبلاً به آن اشاره نشده بود. جمینی گفت: “بله، دارم” و افزود: “عینک شما روی میز نزدیک یک سیب قرمز بود.”

پس از اینکه Astra آن عینک را پیدا کرد، تستر آنها را روی آن قرار داد و ویدیو به چشم‌اندازی که روی ابزار پوشیدنی می‌بینید تغییر یافت. این عینک با استفاده از دوربین روی برد، محیط اطراف کاربر را اسکن کرد تا چیزهایی مانند نمودار روی تخته سفید را ببیند. این بدان معناست که Astra نه تنها داده‌های بصری را در زمان واقعی پردازش می‌کرد، بلکه آنچه را که می‌دید به خاطر می‌آورد و با حجم قابل توجهی از اطلاعات ذخیره‌شده کار می‌کرد.

به گفته Hassabis، این به این دلیل محقق شد که این “عامل‌ها” برای پردازش سریعتر اطلاعات با رمزگذاری مداوم فریم‌های ویدیو، ترکیب ورودی ویدیو و گفتار در جدول زمانی رویدادها، و ذخیره این اطلاعات برای یادآوری کارآمد طراحی شده‌اند. همچنین شایان ذکر است که در ویدیو، آسترا به سرعت پاسخ می‌دهد. Hassabis در یک پست وبلاگ اشاره کرد که “در حالی که ما در توسعه سیستم‌های هوش مصنوعی که می‌توانند اطلاعات چندوجهی را درک کنند، پیشرفت‌های باورنکردنی داشته‌ایم، کاهش زمان پاسخ به چیزی مکالمه یک چالش مهندسی دشوار است.”

گوگل همچنین در حال کار بر روی ارائه دامنه بیشتر بیان صوتی به هوش مصنوعی خود بوده و از مدل‌های گفتاری خود برای “تقویت صدای آنها و دادن طیف وسیع‌تری از لحن‌ها به عوامل” استفاده می‌کند. این نوع تقلید از بیان انسان در پاسخ ها یادآور مکث ها و گفته های Duplex است که باعث شد مردم فکر کنند هوش مصنوعی گوگل ممکن است کاندیدای آزمون تورینگ باشد.

نمایش بیشتر

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا