
متا نسل بعدی Segment Anything Model را برای ویدیوها و تصاویر معرفی کرد
بخشبندی، جزء حیاتی بینایی ماشین است که برای شناسایی پیکسلهای مربوط به یک شی در تصاویر به کار میرود. این فناوری در سناریوهای متنوعی از دنیای واقعی، از تحلیل تصاویر علمی تا ویرایش عکس، کاربرد دارد. متا در سال 2023 با رونمایی از پروژه Segment Anything، تقسیمبندی را به سطح عمومی آورد و دو مدل Segment Anything (SAM) و Segment Anything 1-Billion mask (SA-1B) را برای تسریع در پژوهشهای این حوزه منتشر کرد.
روز گذشته، متا مدل Segment Anything Model 2 (SAM 2) را معرفی نمود که دقیقتر و شش برابر سریعتر از نسخه اصلی SAM عمل میکند. همچنین، SAM 2 اکنون قابلیت تقسیمبندی اشیاء در ویدیوها و تصاویر را داراست. ویژگیهای کلیدی مدل جدید SAM 2 عبارتند از:
- SAM 2 در بخشبندی ویدیوی تعاملی در 17 مجموعه داده ویدیویی به طور چشمگیری بهتر از روشهای قبلی عمل میکند و تقریباً به سه برابر کمتر از تعاملات انسانی نیاز دارد.
- SAM 2 در مجموعه معیار 23 مجموعه داده صفر شات خود از SAM بهتر عمل می کند، در حالی که شش برابر سریعتر است.
- SAM 2 در معیارهای تقسیم بندی اشیاء ویدیویی موجود (DAVIS، MOSE، LVOS، YouTube-VOS) در مقایسه با مدل های پیشرفته قبلی برتری دارد.
- استنتاج با SAM 2 در زمان واقعی تقریباً 44 فریم در ثانیه احساس می شود.
- SAM 2 در حلقه حاشیهنویسی تقسیمبندی ویدیو، 8.4 برابر سریعتر از حاشیهنویسی دستی در هر فریم با SAM است.
از آنجا که SAM 2 تحت مجوز Apache 2.0 قرار دارد، هر فردی میتواند تجربیات خود را بر پایه مدل SAM 2 بسازد. متا این مصنوعات را به اشتراک میگذارد:
- کد و وزن SAM 2 تحت لیسانس Apache 2.0 مجاز میباشد.
- کد ارزیابی SAM 2 تحت مجوز BSD-3 منتشر شده است.
- مجموعه داده SA-V، شامل 51 هزار ویدیو از دنیای واقعی با بیش از 600 هزار ماسک، تحت مجوز CC BY 4.0 منتشر شده است.
شما میتوانید مقاله تحقیقاتی مدل SAM 2 را در اینجا پیدا کنید و تجربه آزمایشی مبتنی بر وب را مورد بررسی قرار دهید تا مدل را در عمل مشاهده کنید. کاربردهای بالقوهی SAM 2 بسیار وسیع بوده و در صنایع و حوزههای تحقیقاتی متنوعی کاربرد دارد. با قرار دادن مدل تحت یک مجوز باز، متا امکان نوآوری و ساخت بر اساس آن را به توسعهدهندگان و محققان میدهد.