هوش مصنوعی

دستیبابی عملکرد پیشرفته مدل Qwen2-VL علی بابا در چندین بنچمارک هوش مصنوعی

علی بابا اعلام کرده است که مدل‌های زبان بینایی از خانواده Qwen2-VL، که بر اساس Qwen-2 توسعه یافته‌اند، را عرضه کرده است. خانواده Qwen2-VL شامل سه مدل Qwen2-VL-72B، Qwen2-VL-2B و Qwen2-VL-7B می‌باشد. مدل‌های Qwen2-VL-2B و Qwen2-VL-7B تحت لیسانس آپاچی 2.0 منتشر شده‌اند. قوی‌ترین مدل، Qwen2-VL-72B، از طریق API رسمی در دسترس است.

علی‌بابا مدعی است که مدل Qwen2-VL-72B در چندین معیار درک بصری، از جمله MathVista، DocVQA، RealWorldQA و MTVQA، به عملکرد پیشرفته‌ای دست یافته است. همانطور که در جدول زیر می‌بینید، Qwen2-VL-72B در بیشتر معیارها از OpenAI GPT-4o-0513 و Ghazal Cloud 3.5 پیشی گرفته و در بسیاری از معیارها به عملکرد برجسته‌ای رسیده است. این نخستین بار است که یک مدل منبع باز به چنین شاخص‌های معیاری دست می‌یابد که حتی از نمونه‌های منبع بسته نیز بهتر است.

علی‌بابا ادعا می‌کند که مدل Qwen2-VL قادر است ویدیوهایی با طول بیش از 20 دقیقه را درک کرده و پاسخ‌های مبتنی بر ویدئو با کیفیت بالا ارائه دهد. این مدل که از استدلال و تصمیم‌گیری پیچیده پشتیبانی می‌کند، قابلیت ادغام در طیف وسیعی از برنامه‌های کاربردی هوش مصنوعی را دارد. علاوه بر زبان‌های انگلیسی و چینی، Qwen2-VL اکنون از بیشتر زبان‌های اروپایی، ژاپنی، کره‌ای، عربی و ویتنامی پشتیبانی می‌کند، که آن را برای سناریوهای چندزبانه مناسب ساخته است.

مدل کوچکتر Qwen2-VL-7B، در اکثر معیارها، مدل مینی OpenAI GPT-4o را پشت سر گذاشته است. این مدل 7 بیلیون پارامتری نیز از ورودی‌های تصویری، چند تصویری و ویدئویی پشتیبانی می‌کند. بر اساس معیارها، مدل Qwen2-VL-7B در وظایف درک متون و اسناد مانند DocVQA و MTVQA عملکرد بهتری نشان داده است. کوچک‌ترین مدل Qwen2-VL-2B برای استفاده در گوشی‌های هوشمند طراحی شده و در تصویربرداری، ویدئو و درک چندزبانه عملکرد قوی‌ای ارائه می‌دهد.

مدل‌های منبع باز Qwen2-VL-7B و Qwen2-VL-2B با چارچوب‌های Hugging Face Transformers، vLLM و دیگر چارچوب‌های شخص ثالث ادغام شده‌اند. با عملکرد برجسته و دسترسی به منبع باز، خانواده Qwen2-VL پتانسیل چشمگیری برای پیشرفت در تحقیق و توسعه در زمینه مدل‌های زبان بینایی دارد و امکان پیاده‌سازی برنامه‌های هوش مصنوعی نوآورانه در حوزه‌های متنوع را فراهم می‌آورد.

نمایش بیشتر

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا