مایکروسافت مدل زبان بینایی Turing Bletchley v3 را برای بینگ معرفی کرد
مایکروسافت به طور رسمی سومین نسخه از مدل پایه بینایی چندزبانه Turing Bletchley خود را معرفی کرد. در حال حاضر در تعدادی از محصولات مایکروسافت، از جمله بینگ برای بهبود جستجوی تصویر، عرضه شده است. مایکروسافت اولین نسخه از مدل Turing Bletchley را در نوامبر 2021 عرضه کرد.
مایکروسافت امروز با انتشار پستی در وبلاگ رسمی بینگ اعلام کرد که آزمایش نسخه سوم این مدل را در پاییز 2022 و قبل از افزودن آن به بینگ و سایر محصولات آغاز کرده است. این مدل از ورودی متن و تصاویر برای یافتن چیزهایی که یک فرد در موتور جستجوی Bing به دنبال آن است، استفاده می کند. هدف این است که مدل را تا حد امکان نزدیک کنیم تا متنی که مثلاً “سگ در حال خوردن بستنی” را توصیف میکند، در نتیجه جستجو تا حد امکان به تصاویر سگی که بستنی میخورد نزدیک شود.
بخشی از روشی که Turing Bletchley v3 این اتصالات را ایجاد می کند، مربوط به مدل است. مایکروسافت بیان می کند:
با توجه به تصویر و شرح تصویر، برخی از کلمات در کپشن ماسک میشوند. سپس یک شبکه عصبی برای پیشبینی کلمات پنهان مشروط به تصویر و متن آموزش داده میشود. همچنین میتوان این کار را تغییر داد تا به جای کلمات، پیکسلها را پنهان کند. این نوع آموزش نقابدار همراه با یک مدل بزرگ مبتنی بر ترانسفورماتور منجر به یک مدل از پیش آموزش دیده قوی می شود که می تواند در مجموعه متنوعی از وظایف پایین دستی تنظیم شود.
علاوه بر این که برای جستجوی تصویر در بینگ استفاده می شود، مدل جدید Turing Bletchley v3 برای تعدیل محتوا در سرویس بازی Xbox خود استفاده می شود. این به تیم کمک می کند، برای مثال، تصاویر و ویدیوهایی را که توسط بازیکنان ایکس باکس در پروفایل هایشان آپلود می شود، شناسایی کند که نامناسب و ناقض استاندارد جامعه شرکت در پلتفرم ایکس باکس است.