هوش مصنوعی

مایکروسافت از مدل‌های زبانی کوچک Phi-4-multimodal و Phi-4-mini رونمایی کرد

در دسامبر 2024، مایکروسافت مدل زبان کوچک (SLM) به نام Phi-4 را معرفی کرد که در کلاس خود عملکردی پیشرفته و بی‌نظیر دارد. اکنون، مایکروسافت خانواده Phi-4 را با دو مدل جدید Phi-4-multimodal و Phi-4-mini گسترش می‌دهد. مدل جدید Phi-4-multimodal به طور همزمان از گفتار، بینایی و متن پشتیبانی می‌کند، در حالی که Phi-4-mini بر روی وظایف مبتنی بر متن تمرکز دارد.

Phi-4-multimodal یک مدل با 5.6 میلیارد پارامتر است و همچنین نخستین مدل زبان چندرسانه‌ای مایکروسافت به شمار می‌رود که پردازش گفتار، بینایی و متن را در یک معماری یکپارچه ادغام می‌کند. در مقایسه با سایر مدل‌های پیشرفته موجود، از جمله Gemini 2.0 Flash و Gemini 2.0 Flash Lite گوگل، Phi-4-multimodal در چندین معیار عملکرد بهتری را ارائه می‌دهد، همان‌طور که در جدول زیر مشاهده می‌شود.

در وظایف مرتبط با گفتار، مدل Phi-4-multimodal در مقایسه با مدل‌های تخصصی گفتار مانند WhisperV3 و SeamlessM4T-v2-Large در زمینه‌های شناسایی گفتار خودکار (ASR) و ترجمه گفتار (ST) عملکرد بهتری از خود نشان می‌دهد. مایکروسافت اعلام کرده است که این مدل با نرخ خطای کلمه‌ای قابل توجه 6.14 درصد در صدر جدول رده‌بندی OpenASR در Hugging Face قرار دارد.

در وظایف مرتبط با بینایی، مدل Phi-4-multimodal عملکرد قوی‌ای در استدلال‌های ریاضی و علمی از خود نشان داده است. در قابلیت‌های چندرسانه‌ای رایج، مانند درک اسناد و نمودارها، OCR و استدلال علمی بصری، این مدل جدید با مدل‌های محبوبی مانند Gemini-2-Flash-lite-preview و Claude-3.5-Sonnet هم‌سطح یا حتی بهتر عمل می‌کند.

مدل Phi-4-mini با 3.8 میلیارد پارامتر، در وظایف مبتنی بر متن، از جمله استدلال، ریاضی، برنامه‌نویسی، پیروی از دستورالعمل‌ها و فراخوانی توابع، عملکرد بهتری نسبت به چندین مدل بزرگ‌تر و محبوب LLM دارد. برای تضمین امنیت و ایمنی این مدل‌های جدید، مایکروسافت آزمایش‌هایی را با همکاری کارشناسان امنیت داخلی و خارجی انجام داد و از استراتژی‌های طراحی شده توسط تیم قرمز هوش مصنوعی مایکروسافت (AIRT) بهره برد.

مدل‌های Phi-4-mini و Phi-4-multimodal می‌توانند با بهینه‌سازی بیشتر با استفاده از ONNX Runtime بر روی دستگاه‌ها اجرا شوند که این امر امکان استفاده از آن‌ها در سناریوهای کم‌هزینه و با تأخیر کم را فراهم می‌آورد. مدل‌های Phi-4-multimodal و Phi-4-mini هم‌اکنون برای توسعه‌دهندگان در Azure AI Foundry، Hugging Face و کاتالوگ API NVIDIA در دسترس هستند.

نمایش بیشتر

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا