دستیبابی عملکرد پیشرفته مدل Qwen2-VL علی بابا در چندین بنچمارک هوش مصنوعی

شهریور ۱۰, ۱۴۰۳

0 زمان مطالعه یک دقیقه

علی بابا اعلام کرده است که مدل‌های زبان بینایی از خانواده Qwen2-VL، که بر اساس Qwen-2 توسعه یافته‌اند، را عرضه کرده است. خانواده Qwen2-VL شامل سه مدل Qwen2-VL-72B، Qwen2-VL-2B و Qwen2-VL-7B می‌باشد. مدل‌های Qwen2-VL-2B و Qwen2-VL-7B تحت لیسانس آپاچی 2.0 منتشر شده‌اند. قوی‌ترین مدل، Qwen2-VL-72B، از طریق API رسمی در دسترس است.

علی‌بابا مدعی است که مدل Qwen2-VL-72B در چندین معیار درک بصری، از جمله MathVista، DocVQA، RealWorldQA و MTVQA، به عملکرد پیشرفته‌ای دست یافته است. همانطور که در جدول زیر می‌بینید، Qwen2-VL-72B در بیشتر معیارها از OpenAI GPT-4o-0513 و Ghazal Cloud 3.5 پیشی گرفته و در بسیاری از معیارها به عملکرد برجسته‌ای رسیده است. این نخستین بار است که یک مدل منبع باز به چنین شاخص‌های معیاری دست می‌یابد که حتی از نمونه‌های منبع بسته نیز بهتر است.

علی‌بابا ادعا می‌کند که مدل Qwen2-VL قادر است ویدیوهایی با طول بیش از 20 دقیقه را درک کرده و پاسخ‌های مبتنی بر ویدئو با کیفیت بالا ارائه دهد. این مدل که از استدلال و تصمیم‌گیری پیچیده پشتیبانی می‌کند، قابلیت ادغام در طیف وسیعی از برنامه‌های کاربردی هوش مصنوعی را دارد. علاوه بر زبان‌های انگلیسی و چینی، Qwen2-VL اکنون از بیشتر زبان‌های اروپایی، ژاپنی، کره‌ای، عربی و ویتنامی پشتیبانی می‌کند، که آن را برای سناریوهای چندزبانه مناسب ساخته است.

مدل کوچکتر Qwen2-VL-7B، در اکثر معیارها، مدل مینی OpenAI GPT-4o را پشت سر گذاشته است. این مدل 7 بیلیون پارامتری نیز از ورودی‌های تصویری، چند تصویری و ویدئویی پشتیبانی می‌کند. بر اساس معیارها، مدل Qwen2-VL-7B در وظایف درک متون و اسناد مانند DocVQA و MTVQA عملکرد بهتری نشان داده است. کوچک‌ترین مدل Qwen2-VL-2B برای استفاده در گوشی‌های هوشمند طراحی شده و در تصویربرداری، ویدئو و درک چندزبانه عملکرد قوی‌ای ارائه می‌دهد.

مدل‌های منبع باز Qwen2-VL-7B و Qwen2-VL-2B با چارچوب‌های Hugging Face Transformers، vLLM و دیگر چارچوب‌های شخص ثالث ادغام شده‌اند. با عملکرد برجسته و دسترسی به منبع باز، خانواده Qwen2-VL پتانسیل چشمگیری برای پیشرفت در تحقیق و توسعه در زمینه مدل‌های زبان بینایی دارد و امکان پیاده‌سازی برنامه‌های هوش مصنوعی نوآورانه در حوزه‌های متنوع را فراهم می‌آورد.

شهریور ۱۰, ۱۴۰۳

0 زمان مطالعه یک دقیقه

نمایش بیشتر

دستیبابی عملکرد پیشرفته مدل Qwen2-VL علی بابا در چندین بنچمارک هوش مصنوعی

دیدگاهتان را بنویسید لغو پاسخ

5 بازی برتر آرکید برای گوشی های هوشمند

ایسر دو مانیتور QD-OLED را برای گیمرهای حرفه‌ای معرفی کرد

گارمین از ساعت Vivoactive 6 رونمایی کرد

ویژگی تولید تصویر ChatGPT رایگان در دسترس کاربران قرار گرفت

سامسونگ از جاروبرقی بی‌سیم جدید Bespoke AI Jet Ultra رونمایی کرد

گوگل مپس به روز شد: طراحی جدید نمای کلی مسیرها با زمان رسیدن

5 بازی برتر آرکید برای گوشی های هوشمند

ایسر دو مانیتور QD-OLED را برای گیمرهای حرفه‌ای معرفی کرد

بررسی تکنو Pova 5 Pro

انتشار چهار ویژگی جدید اندروید که به پیکسل محدود نمی شود

نوشته های مشابه

ویژگی تولید تصویر ChatGPT رایگان در دسترس کاربران قرار گرفت

معرفی Nova Act: ایجنت هوش مصنوعی آمازون که می‌تواند مرورگر وب را کنترل کند

ایجنت هوش مصنوعی جدید اپل نقش پزشک شما را ایفا خواهد کرد

آمازون ابزار جدیدی مبتنی بر هوش مصنوعی برای خرید معرفی کرد

دیدگاهتان را بنویسید لغو پاسخ

5 بازی برتر آرکید برای گوشی های هوشمند

ایسر دو مانیتور QD-OLED را برای گیمرهای حرفه‌ای معرفی کرد

بررسی تکنو Pova 5 Pro

انتشار چهار ویژگی جدید اندروید که به پیکسل محدود نمی شود